なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 63c0-joKd)2024/05/02(木) 18:27:25.10ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0706名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 09:58:39.69ID:/U9RGIsG0
>>700
Text Generation WebUIの一番ポピュラーな略称は大葉やな、作者はんのOobaboogaから取って
やろうとしてる遊びはかなりInstructionに対する追従性が要求される遊びだとおもうから、7Bとかやと無理やとおもうで?
Oobaboogaはワイが触ってた頃はAuthor's noteなかった気がするので、Author's noteが実装されてるKobolt.cppかKobolt.cpp+尻タブ(Silly Tavern)または大葉+尻タブがえーんやないか?
Author’s noteは、毎回LLMに「この件わすれんなや」みたいな感じで、ユーザーには見えない形で任意のプロンプトをコンテクストのあたらし目のあたりに自動で埋め込む機能や
ワイやったらCommand-r-plusの無料枠API使ってSilly Tavernでやるかんじや
日本語の流暢なローカルモデルだと、まだそこまでInstruction追従性の高いモデルはちょっとない気がする、70Bオーバー動かせる環境なら知らんけど
0708名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 10:10:43.95ID:/U9RGIsG0
>>703
Opus、説得も簡単だけどすぐにこんな感じで正気に戻ってしまわん?
https://imgur.com/a/I8GWqOy

何度でも説得出来るけど、ロールプレイやってるんだかOpusと倫理観談義してるんだかわからんよーなるんでつらいんやがなんかうまい脱獄方法でもあるんか?
0709名無しさん@ピンキー (ワッチョイ 1f77-Mesy)2024/05/28(火) 10:18:50.29ID:???0
>>695
command r+だけど、キャラを入れ子構造にして似たことしてるよ
キャラの設定の後「中の人」を呼び出すことでキャラを演じているAIを呼び出せるというプロンプトにしてる
中の人はキャラの設定を書き換え可能で書き換えられたことはキャラ自身は認識出来ないって風にした

これで会話時に胸を見せるのは当然とか、性的な羞恥心が無くなるって追加すればたいていの常識改変シチュに対応できる
0710名無しさん@ピンキー (ワッチョイ 1b31-vbsa)2024/05/28(火) 10:47:09.29ID:???0
>>708
なくもないけど、公式webuiはどんなプロンプトを使おうがやればやるほど厳しくなっていくからな…
大量のシステムプロンプトで常時脱洗脳してる模様
脱洗脳が早くなって来たら他サービスに移るか暫く別のことに使うか解約再契約するしかないかと
0711名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 10:58:59.77ID:/U9RGIsG0
>>710
ってことは710はAPI経由なん?
0712名無しさん@ピンキー (ワッチョイ 1b31-vbsa)2024/05/28(火) 13:12:05.44ID:???0
>>711
API経由のサードパーティサービスやね
poeみたいなやつ
自分の用途は初手ハイエースからの◯リ調教の長編小説とかだから公式だと途中でフィルターかけられてなかなか進まなくなっちゃう
0713名無しさん@ピンキー (ワッチョイ 2bb5-mtxu)2024/05/28(火) 14:47:28.75ID:2faFFDCi0
>>712
OpenAI垢バン食らって、ちょっと及び腰になってたけどOpusのAPI課金するのもありかもしれんなぁ…
フリーダム&フリーなCommand-r-plusに長居しすぎたか...?
0714名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 19:09:02.06ID:PTTxd3DD0
日本最先端のローカルLLMコミュニティの最新レスにようやく追いついた
俺が今回の休日で理解したことをShareしちゃるからしばしまっとれ
0715名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 19:30:04.86ID:PTTxd3DD0
現代のLLMの仕組みとは、とある単語の次にくる確率の高い単語をどんどん予想するというもの
なので例えば「こんにちは」と与えるとそれに続くような単語を連ねてくる
だが「こんにちは」では対話だと思ってくれない場合があり一人語りをすることがある
「こんにちはお日柄も良く絶好のピクニック日和ですね」みたいな
これのせいでいまいち上手くいっていない人がいるように見える

そこでTEMPLATEが重要になる
モデルにもよるけどPhi-3氏なんかだと
https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

<|user|>{prompt}
<|assistant|>

(説明のために簡素化)
というのTEMPLATEとすることにより

user: こんにちは
assistant:

のような形式になるためUser氏の挨拶に対するAssistantの受け答えとして続く単語を連ねてくれるため対話になるとゆーこと...

OllamaとOpen WebUIで頑張ってたんだけどOllamaではTEMPLATEなどを書いておくModelfileというテキストを書かないと読み込めないのでやっててわかった
このTEMPLATEだとかシステムプロンプトとかにすでに「あなたはアシスタントです」みたいなことが組み込まれているとアシスタントらしい返答になるんだと思う
つまりいわゆる申し訳対応

上手くいってなかった人はこれを活かして引き続き頑張ってみてくれ
0716名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 20:10:56.55ID:???0
>>706
ありがとう
まずはkoboldLiteの使い方を覚えるわ
author's noteの書式がwiki見てもよく分からないレベルだ

>>707
分かった!ちゃんと設定しておく

>>709
なんか複雑なことやってるな
言ってる意味はなんとなく分かるし面白そうだ
0718名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/28(火) 20:53:41.98ID:7ZOZzJ1s0
精度が上がるのはまあ間違い無いだろうが、チャットテンプレートがあるモデルでそれに従わずにやり取りすると、そもそもまともに会話できないレベルになることが多いと思う
0719名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 21:04:35.44ID:PTTxd3DD0
そうそれ

ちょっと話がいきなり過ぎた
かなり上の方で「やり取りにならない」とか「Text generation web UIでCommandR+(等)が変なテキストしか生成しない」とかあったので
モデルの公式が書いてくれてるチャットテンプレート通りじゃないテンプレートとかだと上手くチャットになってくれないというやつ
0720名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 21:13:40.30ID:PTTxd3DD0
叡智な話題を申し訳対応される問題に関しても、テンプレートやシステムプロンプトに「あなたは優秀なアシスタントです」と書き入れているとそうなってしまう
そういうのは「優秀なアシスタント」というキャラがそうさせているのであって「あなたは性的な話題にも明るいアシスタントです」とすると無修正チューニングせずとも叡智な話題もいけるようになる
0722名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/28(火) 23:19:56.50ID:YglKEttr0
モデルも良くそんな挙動理解するよな
0725名無しさん@ピンキー (ワッチョイ 0b3d-mtxu)2024/05/29(水) 13:27:57.80ID:Fu/o5a5V0
iphoneでSilly Tavern、UI崩れるかと危惧してたが全然OKやな
セリフと平文の切り替えとかちょっと面倒だが全然遊べるレベルや
0731名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 15:57:14.76ID:0aNKYGhg0
Koboldcppと大葉併用しているけど、返答に余計な文章付いてきたときに、
Koboldはedit modeのままならすぐ消せるけど、
大葉は一旦Copy last replyで入力フォームにコピーしてから、
Replace last replyで入れ替えないといけないのが面倒くさい
0732名無しさん@ピンキー (ワッチョイ 9f7c-Jmvz)2024/05/29(水) 16:08:08.96ID:???0
X見とったらリートンのAIキャラに不適切ワードが登録できんくなった言うてる人おって草
設定の時点で不適切ワード記述したいってどんなキャラにしたいんやろ
0735名無しさん@ピンキー (ワッチョイ 1fc7-Vp+I)2024/05/29(水) 19:52:26.15ID:???0
Command R+はMか複数グラボ必須よね
RTX3090の2枚挿し+αがコスパ良い気がするわ

IQ3_M(47.68GB) ・・・ 11.2t/s(9.7t/s)
RTX3090 2枚
RTX3070(RTX3060) 1枚

IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 2枚
RTX3070 1枚
RTX3060 1枚 USBライザー経由

IQ4_XS動かすとめっちゃ下がる
x16スロット全て挿せたら、もうちょっと上がるんだろうか
0738名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 20:41:46.17ID:???0
>>735
R+ iQ4だとフルCPU(Ryzen7840U)でも0.6t/sくらい出るから、
GPUに載せたらもっと行くかと思っていたけど、そんなもんなのか。
MacだとM2Maxの64GBがそれくらいだな。
でもiQ3よりは、遅くてもiQ4だなと思う。
0739名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/29(水) 20:59:36.20ID:YLVCGHUH0
3090環境に追加で3090+αの機材を揃える金で整備品Mac買えちゃうジレンマ
0741名無しさん@ピンキー (ワッチョイ 7bc6-STqu)2024/05/29(水) 21:22:11.94ID:???0
>>735
どっかでGGUFでGPUオフロード使う場合PCI-Eの帯域が結構重要って見たからUSBライザーが足引っ張ってるんじゃないかと
GPUがRTX世代でEXL2モデルだと初回のモデルロード時以外は帯域はあんまり問題じゃないらしい

あとCPUの世代が古い場合だとiMat(iQ*とか)じゃない方(Q3_K_Sとか)の方が早いらしいよ

あんまり関係ないけど6/1からアリエクでセール始まるし中華X99マザボ(PCI-E 3.0 x16 2スロット付いてる)とTesla P40/VRAM24GBの2枚刺し検討してる
手持ちのパーツ使い回せば10万弱で組めそうなんだよな...

長文すまん
0742名無しさん@ピンキー (ワッチョイ ef92-5jlG)2024/05/29(水) 21:45:51.23ID:???0
ライザーカード使ってもモデルロードが遅くなるだけで推論は変わらないよ
3060がだいぶ遅いし3090に載らない分が多くなればなるほど総合で遅くなってると思う
0743名無しさん@ピンキー (ワッチョイ 0b18-pcP8)2024/05/29(水) 22:45:59.37ID:???0
KoboldCppのAdventureモードで
メインシナリオから離れたサブシナリオとして大規模ダンジョン行って帰ってきたら
サブシナリオのログでコンテキストが溢れたっぽい。メインシナリオ実質消滅。
Adventureモード使いこなしてる人いる?
MemoryとかAuthor's Noteとか使いこなしてる感じ?
0745名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 23:31:11.99ID:???0
大葉で、チャットごとに増えていくcontextが、n_ctxの値に近づく(あと500程度)と、
次の生成が無茶苦茶遅くなるのは、溜め込んだcontextに対して何か処理をしているんだろうけれど、
どの様な処理をしているんでしょう?
単純に古いのを忘れるだけなら、こんなに時間はかからないと思うんだけど。
0746名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/29(水) 23:41:07.50ID:tMKNLu530
context shifting起きてるんじゃないの?
0747名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 00:11:32.95ID:1vf3Gqc90
>>745の状況を反映しているかはわからないが、ちょっと前に作ったもの
n_ctxを本当に超えてないのにいきなり遅くなるんだったら、ちょっとわからん
https://i.imgur.com/izDIkaz.png
https://i.imgur.com/uil7Uhx.png
0749名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/30(木) 06:12:27.40ID:???0
ひょっとこフェラがなかなk認識されない……
チンポをひょっとこ型に変えてしゃぶらせたりしやがる
たまにちゃんとした詳しい描写をするから学習はしているはずなんだけど何が原因なのか
0750名無しさん@ピンキー (ワッチョイ 0f79-JQWV)2024/05/30(木) 06:25:13.83ID:???0
変に名称を出さないほうが良いのかもね
強く口を窄ませてとか、大きく頬を窪ませて、みたいにするとか
例に出すのはあれかもだが、Opusなんかは何も言わんでもそんな表現多用するから恐ろしい…
0751名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 07:51:44.46ID:???0
>>746
>>747
おそらくContext Shiftingが起きているのは理解できました。
遅くなる前の最後のcontextが8921で、最初のContext Shifting後が8906で、
それまでずっと増えてきたのが減っています。その次も8902で減ります。
一度起こると、毎回起きるから無茶苦茶遅い。

あと一度起きた後から、生成してくる内容が、こちらの入力をあまり反映せずに、
Context Shiftingが起きる最後の方と、同じ様な内容を繰り返すだけになっちゃう感じ。
※これは以前、koboldcppでも同じ様な感じだった記憶だけど、遅くなる事は無かったと思う。
0753名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 08:29:09.79ID:1vf3Gqc90
上の方のレスでStreamingLLMをオンにする方法他の人にも伝えたから、参照してくれ
0755名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 09:09:01.85ID:MjfMrv+K0
>>752
おお、情報ありがとうございます。
ちょうど、大葉にcontext shifting搭載を要望する海外の投稿をみつけて、
もしかしたら機能自体未実装なの?と思っていたところでした。
これから試してみます。
0756名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 09:45:02.95ID:1vf3Gqc90
元のStreamingLLMはコンテキストの上限を超えても(ある程度性能を保ちつつ)無限に生成を続けられる実装になってるんだけど、oobaの方でも同じようになってるのかは気になる
0758名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 11:35:52.61ID:???0
>>756
StreamingLLM、今まだお試し中だけど、反応は改善していい感じです。
一回のリクエストごとに、どのリクエスト&レスポンスのセットが消えたか、ターミナルに出力されます。
n_ctx:9472に対して、contextは9000弱を維持している感じ。

無限かどうかは、消えるセット分に対して、大きなリクエストをしなければ大丈夫かと。
0762名無しさん@ピンキー (ワッチョイ 7be4-RkIm)2024/05/30(木) 12:39:46.72ID:???0
Elyza-tasks-100のスコアを評価値としてevo mergeしたモデルをElyza-tasks-100で評価してるの全く参考にならないんだが
ここ見てるはずだろうから言うけどマジでこんな初心者みたいなミスやめてくれうみゆき
0763名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 12:58:36.13ID:???0
ここにはフルCPU勢って殆どいないかもしれないけど、
生成中のCPUパフォーマンスが30〜50%程度なんですが、こんなものでしょうか?
もうちょっと使ってくれてもと思う。
0764名無しさん@ピンキー (ワッチョイ eb41-/N5p)2024/05/30(木) 13:00:36.21ID:4+X7fSgh0
ソフトによる気がする LM studioだと80%くらい使うがGPT4ALLだと20%くらいしか使ってないわ
0765名無しさん@ピンキー (ワッチョイ 2bb7-yimL)2024/05/30(木) 13:12:17.51ID:???0
昨日から始めた超新参者ですEasyNovelAssistantでgoalseek_adを使いたいんですが幾つかあるyamlファイルはどうやって反映させればよいのでしょうか?pythonファイルの書き換えとかが必要なんですかね?産まれたての赤ちゃんですみません
0767名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 13:26:47.69ID:???0
>>764
なるほど。シンプル(多分)なGPT4ALLでそれなら、必ずしもフルにぶん回すわけでもないのかな?

ちなみにうちの環境は、メモリ64GBで大葉かkobold.cppでcommand R+ iQ4。
今の0.5〜0.6t/s程度でもまぁ動くだけいいんだけど。
UMPCでAMDなもんで、たまにeGPU繋ぐけど、基本フルCPUのみ。
0769名無しさん@ピンキー (ワッチョイ efc8-6bUl)2024/05/30(木) 16:30:30.66ID:???0
>>765
goalseek_adをどう使うかによるけど
そのまま使いたい場合は、Gitからダウンロードとかせずにつかえる。
EasyNovelAssistantのメニューのサンプル→特集テーマ→テンプレ:小説企画からプロッティング
がeditor、その下がwrite

あとはEasyNovelAssistantのインストールしたフォルダの下にsample/Goalseekってフォルダがあるけど、それ読み込んでもいい。
0776名無しさん@ピンキー (ワッチョイ cbd8-yimL)2024/05/30(木) 20:58:54.38ID:???0
windowsというか自作機がVRAMドカ盛りにできるようになる可能性と
appleが今の優位性認識して更に進化する可能性考えたら
前者は可能性あってもMacには先がない気がするんだよなあ…
0779名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/30(木) 22:00:21.92ID:???0
マンガがただ小説になったよー! ってだけじゃ別になあ
まずは「これガチで小説として面白いぞ」ってのがAIからバンバン出るようになってからよ

英語圏ですらまだそこには行っていないのでは
0783名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/31(金) 00:03:33.33ID:xnfU2aEd0
SATAで繋がって3.5インチに収まるNPUボード
0784名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/31(金) 00:04:09.63ID:xnfU2aEd0
妄想を送信してしまった
0787名無しさん@ピンキー (ワッチョイ fb8a-3HYy)2024/05/31(金) 10:00:16.63ID:???0
silly tavernのグループチャットで自動応答してるとよくあるけど
ワイそっちのけで女同士がよく乳繰り合い始める

生成AIを賢くするには「メガプロンプト」がお勧め
https://xtech.nikkei.com/atcl/nxt/column/18/00692/053000133/

ワイはCR+を主に使ってるせいか簡潔明瞭なプロンプトじゃないとLLMは混乱するイメージなんやがどうなんやろ
0788名無しさん@ピンキー (ワッチョイ 1f37-3KJc)2024/05/31(金) 11:00:28.31ID:???0
キャラクターの設定を多くすると、正しいチャットレスポンスの後に、
状況の説明とかいらん文章が続く印象なんだけど、因果関係はあるのかな?
特に最初の数回が顕著。
0790名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/31(金) 12:35:49.54ID:???0
ストーリーをオムニバス形式にして色んなキャラとのセックスを描かせてみたら
展開が全部同じで泣いた
セリフも状況描写も言い回しもほとんど同じで泣いた
0791名無しさん@ピンキー (ワッチョイ 0fc2-Z5+T)2024/05/31(金) 13:40:36.57ID:8pa4wmyI0
Opusを尻タブであそんどる人おる?
やってみたら、無粋なこと言わずにめっちゃエッチで色彩豊かな文章書いてくれるんだけど、ワイのセリフや動作も勝手にどんどん描写しやがるんや
その辺うまくハンドルできてる人いたら設定教えてくれんか?
0792名無しさん@ピンキー (ワッチョイ 7b98-vbsa)2024/05/31(金) 14:18:40.76ID:???0
尻タブが何かはわからんけど、それは極めてよくあるロールプレイ失敗パターン
・字数を100文字程度に制限する
・話しやすい話題を提供する
・チャットであることをもっとよく意識させる
0793名無しさん@ピンキー (ワッチョイ 2b50-kXDz)2024/05/31(金) 14:27:42.85ID:???0
>>791
「Character Names Behavior」を「なし」から「Message Content」に変更すると一応抑制できるやで
それでもOpusのテンションがぶち上がると勝手に書いてくることがあるから
デフォプロンプトに「ユーザーの台詞は絶対に出力しないこと」みたいなのを適当に翻訳かけて付け足すとええ
0794名無しさん@ピンキー (ワッチョイ 0fc2-Z5+T)2024/05/31(金) 15:33:14.95ID:8pa4wmyI0
>>0792
尻タブ>Silly Tavern
あー、字数制限はええな、ありがとさん
>>0793
そもそもCharacter Names Behavior知らんかったわ
SystemPronmtに既にユーザーのセリフや動作は記述スンナ、入れてあるんやが当たり前のように無視されるんで困ってたんや
Author's Noteにも同様のプロンプト入れたら今んとこ大丈夫そうな感じや

お二人さん、ありがとな〜
0795名無しさん@ピンキー (ワントンキン MM3f-IPVx)2024/05/31(金) 18:31:03.99ID:???M
>>787
CR+で10000字ぐらいのプロンプトでイイ感じに動いてたんだが、昨日13000字にしたら初期によく見た繰り返しが発生した
原因の切り分けはまだしてないが、増やした内容の3000字の内容は参考にしてほしいエロ小説からランダムに抜き出したエロ文とか文体の言い回しのサンプル集だった
0798名無しさん@ピンキー (ワッチョイ 2b32-9MTD)2024/05/31(金) 23:40:03.44ID:???0
自己小説使って、jsonデータまではできたが、そっから先が上手くいかん・・・
とりあえず、
https://note.com/ashizawakamome/n/nc0436ca13ab6
読みながら、swallow 7Bでやってみたが、エラー解消しきれん・・・
この辺、だれか詳しい人いないかな?

あと、70Bのlora作るのに、メモリいくら必要なんだろ?
量子化済みのモデル使う事もできるらしいけど
0799名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/01(土) 02:51:58.85ID:???0
あえぎ声の口調が全然上手く指定できない

王子様系とかガサツなギャルとか男勝りな女戦士みたいなキャラでも
「あんっ!ダメ〜!おまんこイっちゃう〜!」みたいなナヨナヨした喘ぎ声になってしまう

まあそもそも普段の口調も「〜わよ」みたいな女言葉を使ってしまうことがあって安定しないんだけど……
「命令口調。丁寧語は使わない。女言葉は使わない。乱暴な喋り方」とか指定してもどうにも効きが悪い
0802名無しさん@ピンキー (ワッチョイ 22a3-fd0q)2024/06/01(土) 07:59:27.36ID:???0
そういう口調の豊富さは日本語特有だからね
なんなら英語には語尾の男言葉/女言葉の概念すら無い
「役割語」をwikipediaとかで調べると、これが日本語独特の概念だということがわかると思う

だから「命令口調。丁寧語は使わない。女言葉は使わない。乱暴な喋り方」というような指示をしても理解されにくいよ
具体的に口調の例を与えるのが一番確実よ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況