なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ なんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured >>214 まずstの設定をkoboldと同じ設定に変更 キャラ設定はオナニースレのシルヴィを参考に入れ込んで自分好みにカスタマイズした (小説機能とか省いて 口調のサンプルを追加とか) >>215 サンガツ チャット楽しみたいんやが、なんかプレイヤー乗っ取られたり、余計なプロンプトが最後にぶら下がったりで置いてけぼりくらうんやけど、その辺はどうやって制御したらええんかな? 2x7Bだからその辺りはある程度割り切るしかない気がする ガッツリ設定入れ込んでちゃんとしたロールプレイするにはモデルサイズ的に厳しい >>216 会話は◯◯のみ行う とか 1センテンス以内にしろとか指示に入れてるが初手でダメならガチャしてる あと指示はxml文で入れた方が理解度があがる 気がする ここら辺はワイもまだ試行錯誤だわ ローカルの最大の強みは返信を書き換えられることや どんどん書き換えていけ >>208 なんかkoboldの人は4/7まで休暇みたい もうすぐビッグウェーブが来るでw >>215 オナニースレのシルヴィ探してるんやが見つからん 【Claude3】ChatGPTでオナニー ★29とかのテンプレ見るんじゃあかんのか? >>217-219 ありがとな 修正出来るのは強みは活用せんとな せっかく日本語で遊べるローカル出てきたからには尻タブ用の使い勝手のいい日本語テンプレプロンプト作らんとな 避難所に案内されたわけですが、軽量でいいのがあるとのことですがどれのことなんだろう… >>225 ありがとうございます これいくつか種類がありますけど何が違うんでしょうか…? ここのニキらには不要っぽくはあるんやが LightChatAssistantをKoboldCppで簡単にお試しする環境と解説を用意してみたで https://github.com/Zuntan03/EasyLightChatAssistant >>228 ooba以外での動かし方も知りたかったので助かりますぜ…! 最初q8のものを落として使ってみましたがVRAM15gb使ってたのでQ4kmってやつにしてみますね。 ただ日本語モデルということで日本語で入力してるんですが返答は英語で帰ってくるのはどうすればいいんでしょうか >>230 まずは >>228 を試してみるとええかもしらんで 全部消して228のを入れようとしたらこういわれました https://files.catbox.moe/vr2l4z.png koboldcppだけ先に落としておいたら進んで、できたbatを実行したらまた証明書が〜と出るのでこっちは起動までたどり着けないです… comfyuiの時もこんなの出たことあったなぁ… >>233 ダウンロードできたみたいです!サンガツ! でもやっぱり英語で帰ってきてしまう…なんででしょう? https://files.catbox.moe/ogijxs.png >>233 ファイル名が変わっていたのに今対応したで iq3xxs_imatrixと_imatrixが付いとったら正常なはずや LightChatAssistantを別データセット使って追加でインストラクションチューニングするの試してみたんだが良くも悪くもまともになってしまった 出力の自然さは上がったけどエロさも同時に下がった感じ Antler-7Bがインストラクションチューニングされていないエロ特化みたいなモデルだから、ファインチューニングするとそこを殺しちゃってる感じかなあ >>234 以前にKoboldCppを使ったことがあって設定が残ってるとかやろか? Settings-AdvancedにあるReset ALL Settingsして Settings-BasicのMax Ctx.Tokensを32768にAmout to Gen.を512にする初期設定をやり直してみたらどうやろ? >>228 >>235 すごい!ご新規さんに優しい素晴らしいものをありがとうございます! ファイル名をちょこちょこ変えてしまって申し訳ないです… とりあえず予定していたものは上げ&修正終わったので、何かなければここから変わることはないはず >>234 MemoryかWorldInfoに英文が入力されているのかな? New Session→Keep Memory and World Info?のチェックオフ でOKして試してみるとどうなります? 話者の名前が英語になってるとそっちに釣られるとかあるで mlxでcommand r plus 4bit版動かしてるMac使いおらん? M2 Max RAM96GBで動かしたんだが↓みたいにぶっ壊れたAIみたいな出力しか出さないんよね 誰か何か知ってたら教えてクレメンス Prompt: hello , I have a problem with the "グリーン" color. I have a "green" color in my palette, but when I use it, it is not the same color. I have a "green" color in my palette, LightChatAssistant使う用のガイドならInstruct Templateの変更にも触れておいた方がいいんじゃない? Mistralベースだからフォーマットは[INST] [/INST]の方がいいはず 日本語でお願いしますって言ったらたまーに日本語で返してくれますね… >>238 やってみましたが相変わらずですね >>239 話者ってどこで変えれるんでしょう…? https://files.catbox.moe/9woqzo.png 肝心なの忘れてた、コマンド画面だとその後も書いてあるんですがwebui上だとちょっと前で止まってるんですけどなんなんでしょうか… あとiQ3_SやiQ4_XSも精度劣化の低さの割にサイズが小さいのでおすすめ 量子化での精度劣化は以下ページの方が纏めてくださっていて、とても参考になります 一番下の「KL-divergence による量子化評価」のグラフがめっちゃ参考になった https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547 >>243 うーん、こちらでは全量子化を日本語動作確認してるんだけどな… 私には解決できないようだ。誰か任せた ワイの環境やとAllow Editingを有効にした際に{{[INPUT]}}と{{[OUTPUT]}}や[INST]と[/INST]があると英語になってしもうてる気がするで どう案内するのが正解なんやろか? >>243 ということで{{[INPUT]}}と{{[OUTPUT]}}を削除して生成したら日本語にならへんやろか? >>247 消したくても消せないというかなんでこれがついてるのかがわからない状況です。 241が言ってるのがそれなのかもとググっても全然わからんです… あとなぜか最後の1行がwebui上には表示されないっぽいです ふむ、Instruct Tag Presetを変えて試してみたがどうやらVicuna以外にすると英語になったりならかったりするようだ 普段適当に「ME:」と「AI:」にしてたから分らんかった ということでSettings→Instruct Tag PresetをVicunaにすると日本語にならないかな (本当はMistralのチャットフォーマットの方が良いんだろうけど) それと最後の1行が出ないのは、Settings→Advanced→Trim Sentencesをオフで治らないかな 訳わからんカット編集せずウィンドウ全体を貼ってくれw >>241 指摘サンガツやで Instruct Tag PresetをLlama 2 Chatにする案内を追加しといた ただSettingをLlama 2 Chatにすると"stop_sequence": ["[INST]", "[/INST]"],は変わるんやが入力欄で入力すると{{[INPUT]}}と{{[OUTPUT]}}(Instruct Tag PresetのKobold AI Formatみたいなの)が入ってしまうんはKoboldCpp仕様なんやろか? >>243 話者はWorld Infoなんで238の手順できえるはずやで >>248 Allow Editingが有効なら一旦ABORTして直接{{[INPUT]}}や{{[OUTPUT]}}にカーソル合わして直接編集で消せるはずやで 下の入力欄から入力するんでなくて上の出力欄から直接入力したら{{[INPUT]}}や{{[OUTPUT]}}が入らへんっぽい 最後の一行は中途半端に生成された文は削除される仕様やね >>249 これで日本語になりました!サンガツ! >>250 多分治ったっぽいです!サンガツ! >>252 Llama 2 Chatだと英語のままでした…悲しい… とりあえず次にいけそうです! >>216 User成りすましは @生成前のプロンプトに混ぜてモデルに伝える チャット入力欄の左の「三」アイコンクリック⇒「Author'sNote」選ぶ DefaultAuthorsNoteの▽をクリックしてオープン 「あなたは{{char}}として応答/対話をする必要があります。あなたは常に{{char}}として応答をします。このタスクでは、決して{{user}}として行動したり発言してはいけません。」 In-Chatを選び、Depthを1 as systemとする 次に、画面上の「A」のアイコンを選ぶ Aそれでも生成されてしまう場合は、チャット打ち切り 画面中央のCustom Stopping Stringに次のように ["ユーザー:","〇〇:"] を入力する(〇〇はあなたのペルソナの日本語名) の2つで、勝手にチャットが進んで置いてきぼりはなくなる プロンプトがそのまま漏れるのは、80氏のモデルでは結構ある気はする AIからの返信ウィンドウの右上、鉛筆アイコンで内容を編集できるから、追加されてるプロンプト部分を編集、チェックを押す 自分のターンの続きを書いて送信する ちょい前のだけど、Koboldcppの公式WikiをDeepLに突っ込んで翻訳したやつ これにKoboldの設定やら用語の内容やらが大体書いてある。参考になるかも https://rentry.org/rmeut8xs >>253 よかった!ようこそローカルLLMの世界へ!楽しんでね >>254 横からだが、すっげー助かった。 ST初心者のワイには、まだまだ知らない設定が多いわ >>245 情報サンガツ! iQ3_SとiQ4_XSも試してみたで ワイのRTX3060 12GB環境ではiq4xs_imatrixでGPUレイヤー25枚ぐらいがええ感じやったわ >>242 サンガツ transformar最新にしても変わらなかったけどハグ顔にあるpythonコードじゃなくて↓のコード実行したらまともに返事したわ だがM2 Maxですら生成遅すぎて実用的じゃないわM2 ultraかM3じゃないと厳しい python -m mlx_lm.generate --model mlx-community/c4ai-command-r-plus-4bit --prompt "お前の名前はなんだ?" --temp 0.0 --max-tokens 256 --use-default-chat-template 遊び方はまだうまくいかないけど何とか話できるようにはなってきました StyleBertVITS2を先立って使えるようになってたため読み上げできるって聞いてたんですけどAPI立ち上げて koboldのほうでアドレス打ってみてもうんともすんとも言わないのですがどうやれば正しいのかよくわからんです >>216 他 個人的な感想と推測なんだけど、チャット形式ってのは本来的にLLMの挙動とは相性が悪くて、ハードルが高いんじゃないかと思ってる この形式を学習した素材がどんな文章かを想像してみると、キャラAとキャラBの会話例でしかないだろうから、 一方の名前をUSERに変更しても、それは「USER(という名前のキャラ)」としか、LLM内部では認識されていないんだと思う 実際、Koboldcppのサンプルにもキャラ同士が勝手にお喋りするやつがあったり、 モデルの動作サンプルのプロンプトでも、「AliceとBobの会話」みたいな例が以前は多かったようだし のべりすとやローカルでチャット形式をやる場合 USER名"ご主人様"にしてご主人様の設定に"男性で主人公"と書いたときはそこそこ上手くいった気がする llama.cppのforkでcommand-r-plus動かせるって話あったからiq3_xssやってみたけど、バグった返答しか返ってこないな なんでだろ command-r-plus IQ3_M動くようになった 環境はM2 Max 64GB 速度は4.2tokens/secでまあ一応実用範囲内 エロもいけるのを確認 システムプロンプトを結構厳密にオリジナルと同じにしないと出力バグるっぽい https://i.imgur.com/zkErkBu.png システムプロンプトっていうか、プロンプトフォーマットの問題かな? こんな感じのフォーマットが必要 <|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>{system message}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Hello, how are you?<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|> システムプロンプトはUSE >>266 それそれ なんか、その中に日本語含めてたら不安定だったんだけど、そこを全部英語にして他言語混ぜないように指示したら安定した。 >>223 無教養ですまんが伴奏ちゃんの時点でググってもわからんw >>254 Custom Stopping Stringに["ユーザー:","〇〇:"]って入れるの天才過ぎてありがとう 今んとここれやらんでも済みそうな気配はある Context Template周りのお勧めとかあるんか? ワイは最近までNoromaidで遊んでたのでNoromaidのままになってたのをRoleplayにしたらちょっと安定した気がするんやが うーん、やっぱり変なトークンが挿入されて内容がめちゃくちゃになる事が結構あるな これが量子化の影響だったらもうどうしようもないが・・・ >>268 スペシャルトークンっていう特殊なトークンだから必須だね >>267 の最後に<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>入れるとマシになるはず >>271 画像だと見切れてるけど、一応それも書いてあるよ 全文としては ""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble ## Basic Rules Answer user's request. Language consistency should keep and should not be mixed in the answer. You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|> Q:{prompt} A:""" >>273 うーん、となるとおかしくはなさそうだな… llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ 話してる内容と出力させた内容のギャップが酷いwwwww >>265 俺もM2maxだけどそのスピードでるなら実用的だな 今んとこmlx版はあかん >>277 速度は全然問題ないよ 感覚としてはkarakuriとかと一緒かな? あとなんか昨日command-r-plusのimatrixあげてた人(dranger003 / c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね 何かあったんだろうか >>278 まだllamacppが検証段階だからねぇ 連日猛者達が奮闘してる そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど 実性能の評判あんま良くない感じなのか(英語でも) LightChatAssistantの4x7Bへの拡張版作ってる人いたから試してみた https://huggingface.co/Aratako/LightChatAssistant-4x7B-GGUF 例のテスト結果 https://rentry.org/ah7izzvt まだちゃんと試せてないけど、>>66 の2x7Bの結果と見比べると日本語の自然さ上がってそうな雰囲気 まぁその分サイズもデカくなっちゃってるが >>281 ほほう、日本語ローカルでここまで出来るとは ファイルサイズ的に、メインメモリ32Gならギリいけそう…? >>228 解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ? 32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と 昔、koboldは出力512トークン固定は仕様だと見た気もするけど、 設定分かる人いたら教えてください Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど 数値欄のところに直接入力するとそれ以上いけるという謎仕様がある Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる 初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね >>284 >>285 質問と回答サンガツ 長々と出力する前に止めて修正することが多かったんで気にしてなかったわ READMEに以下を追記しといたで > Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。 > スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。 > Amount to Gen.: 512 (256 や 2048 などお好みで) >>286 ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理?っぽいんよね よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ EasyLightChatAssistantに >>281 の4x7B Q4_K_M対応いれといたで https://github.com/Zuntan03/EasyLightChatAssistant 更新はEasyLightChatAssistant-*.batを削除してから 再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら 2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで 4x7Bのiq4xs_imatrixも見てみたいね superswallowとMoEしてた人のモデルなら期待できそう 個人的に前までお世話になってました。 モデルの能力の定量化でいろんな指標出てきてるけど エロ力の定量化ってどうすりゃええんやろな 専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという 人間の感性に響くか否かを定量評価出来たら苦労しないわな エロだけじゃなくいろんな業界が欲しがるだろう まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな 自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな? 回線的に量子化済みのモデルしか上げられないけど >>285 >>286 >>287 サンガツ!なんだけど、 launch前とsettingsの両方で最大トークン32kにしてるのに いざinstractモードで書かせると512トークン上限(xxx/512)になってしまうんよ… トークンのカウントアップが(512/512) になったら生成終了してしまうってことね >>295 マージモデルなんて山ほどすでに上がってない?? >>296 それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず >>285 と>>287 もそれを指している 落ち着くんだ >>298 マジか! 完全に勘違いしてたよサンガツ! Max Ctx. Tokensはコンテキストサイズ いわゆる記憶量だね SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです? macがHBM256とか積んでLLM番長にならねえかなあ >>281 4x7B試したけどいいね かなり実用レベルだわ 速度も4T/s以上出るしバランスがいいな Sdff-Ltba氏のアプローチは 日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、 じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた https://rentry.org/7ukv2kcp 期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで 何が言いたいかというと、この理屈で karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・ メモリ、つよつよの方、ためしてー >>281 今日これメインで試してたがかなり良いな GPU使わなくても割と満足できるくらいの速度出るし全然良い てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね? パイソン、良く知らんけど少しずつ読み込んで処理できないのかな? mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね? 教えて、パイソンマスター >>308 連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい AIっぽくないと言われてた。そんなポテンシャルがあるとは 手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ 普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。 (処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする) AntlerのChatVector版をテストしたときはすごく驚いた思い出 「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ??」てなったw 設定を何も吹き込んでないのに対してこの反応 Antlerを素材に使おうと決めた瞬間だった LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか かなり初歩的な質問で申し訳ないのですが >>308 308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。 エラーの内容は以下の通りです。 --- Error Encountered Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable --- 以上がエラーの内容です。 自分でエラーの内容を調べたのですが解決しませんでした。 koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。 アドバイスや指摘を頂けたら嬉しいです。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる