なんJLLM部避難所

1002コメント411KB

なんJLLM部避難所

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 23:47:14.77ID:???0

ああ、ていうかアーキテクチャが違うのか
llama.cppが落ち着くまで待つか・・・

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-LHwO)

2024/04/06(土) 00:12:44.44ID:???0

llama.cpp server叩いたけどunknown architectureだね

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 00:16:53.20ID:???0

Add Command R Plus supportっていうPRが進行中だからもう少し待ちだね

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/06(土) 00:27:43.75ID:WE0RLjCc0

latest releaseが1時間前とかだからいけるかと思ったけどダメという
お預けですな

0207名無しさん＠ピンキー (ﾜｯﾁｮｲ 1282-ycXU)

2024/04/06(土) 00:28:32.95ID:???0

>>80
長文(1万トークンぐらい)の最初と真ん中に書いた事を質問したら、ちゃんと答えてきた。なんかすごい。

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 02:09:12.30ID:???0

KoboldcppのビルドがWindowsで上手くいかん
makeでやってもcmakeでやってもエラーになるわ
もっと頻繁にビルド済みの配ってくれねえかな

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/06(土) 02:19:06.74ID:???0

オナテク板でKoboldcppをビルドする時代

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 02:55:13.62ID:???0

OPENBLASならビルドできたからこれで一旦満足するか…

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fc4-TfWo)

2024/04/06(土) 06:04:15.65ID:???0

LLMじゃなくて画像生成(SD)のほうだけどRunpodでA100 80gb使ったことある
24時間ぐらい回すぐらいなら5000円くらいで使えるので個人でもわりとイケる
が、ワイ的な問題としてはSDは実質的にsd-scriptsというリポジトリのが学習環境の定番になってるんだがLLMの定番がわからん点や
karakuriはmegatoron deepspeedなるものを使ったということはわかる

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 10:12:55.75ID:???0

>>149
これはどうやら↓の変更が原因みたい
https://github.com/ggerganov/llama.cpp/pull/6387

↓のコマンドでその手前に戻したら直ったわ
git reset —hard 52604860f93063ef98863921da697576af1c7665

0213名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 10:14:22.59ID:???0

>>211
事前学習は分からんけどインストラクションチューニングはLLM-jpの参考にすれば割と簡単にできると思う
https://github.com/llm-jp/llm-jp-sft
DPO用のも用意されてる
https://github.com/llm-jp/llm-jp-dpo

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 021e-hBD6)

2024/04/06(土) 10:59:06.63ID:IGDSh6PD0

>>80
めっちゃ楽しんでます、サンガツ！

chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF+Kobold.cpp+SillyTavernで遊びたいんやが、SillyTavernの方の設定＆キャラカードのプロンプトがイマイチわからん
この組み合わせで遊んでる民、どんな風に設定してるかおしえて

0215名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 11:23:08.35ID:???p

>>214
まずstの設定をkoboldと同じ設定に変更
キャラ設定はオナニースレのシルヴィを参考に入れ込んで自分好みにカスタマイズした
(小説機能とか省いて　口調のサンプルを追加とか)

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 021e-hBD6)

2024/04/06(土) 11:40:59.95ID:IGDSh6PD0

>>215
サンガツ
チャット楽しみたいんやが、なんかプレイヤー乗っ取られたり、余計なプロンプトが最後にぶら下がったりで置いてけぼりくらうんやけど、その辺はどうやって制御したらええんかな？

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 12:54:50.90ID:???0

2x7Bだからその辺りはある程度割り切るしかない気がする
ガッツリ設定入れ込んでちゃんとしたロールプレイするにはモデルサイズ的に厳しい

0218名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 12:56:01.34ID:???p

>>216
会話は◯◯のみ行う　とか　1センテンス以内にしろとか指示に入れてるが初手でダメならガチャしてる
あと指示はxml文で入れた方が理解度があがる　気がする　ここら辺はワイもまだ試行錯誤だわ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/06(土) 13:42:26.57ID:???0

ローカルの最大の強みは返信を書き換えられることや
どんどん書き換えていけ

0220名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 14:12:16.95ID:???p

>>208
なんかkoboldの人は4/7まで休暇みたい
もうすぐビッグウェーブが来るでw

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/06(土) 14:52:48.02ID:???0

更新の間があいてるなと思ってた
期待するわ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ 0298-hBD6)

2024/04/06(土) 15:26:29.60ID:IGDSh6PD0

>>215
オナニースレのシルヴィ探してるんやが見つからん
【Claude3】ChatGPTでオナニー ★29とかのテンプレ見るんじゃあかんのか？
>>217-219
ありがとな
修正出来るのは強みは活用せんとな
せっかく日本語で遊べるローカル出てきたからには尻タブ用の使い勝手のいい日本語テンプレプロンプト作らんとな

0223名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 15:44:27.27ID:???p

>>222
シルヴィは伴奏ちゃんのキャラよ

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 16:18:23.05ID:PYnkc8ci0

避難所に案内されたわけですが、軽量でいいのがあるとのことですがどれのことなんだろう…

0225名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdd2-GiYb)

2024/04/06(土) 16:20:07.55ID:???d

>>80と>>179を見てもろて

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 17:17:13.41ID:PYnkc8ci0

>>225
ありがとうございます
これいくつか種類がありますけど何が違うんでしょうか…？

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c6-19vc)

2024/04/06(土) 17:56:56.52ID:???0

GGUFのQ4KMで良いかと

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:06:42.64ID:???0

ここのニキらには不要っぽくはあるんやが
LightChatAssistantをKoboldCppで簡単にお試しする環境と解説を用意してみたで

https://github.com/Zuntan03/EasyLightChatAssistant

0229名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdd2-GiYb)

2024/04/06(土) 18:15:45.80ID:???d

>>228
ooba以外での動かし方も知りたかったので助かりますぜ…！

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:18:33.28ID:PYnkc8ci0

最初q8のものを落として使ってみましたがVRAM15gb使ってたのでQ4kmってやつにしてみますね。
ただ日本語モデルということで日本語で入力してるんですが返答は英語で帰ってくるのはどうすればいいんでしょうか

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:20:36.42ID:???0

>>230
まずは
>>228 を試してみるとええかもしらんで

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:30:04.85ID:PYnkc8ci0

全部消して228のを入れようとしたらこういわれました
https://files.catbox.moe/vr2l4z.png
koboldcppだけ先に落としておいたら進んで、できたbatを実行したらまた証明書が～と出るのでこっちは起動までたどり着けないです…
comfyuiの時もこんなの出たことあったなぁ…

0233名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:40:47.81ID:???0

>>232
https://github.com/Zuntan03/EasyLightChatAssistant/raw/main/Install-EasyLightChatAssistant_SslNoRevoke.bat

SSLの証明書失効確認を飛ばすオプションを追加してみたこっちならいけるやろか？
拡張子 bat でローカル保存して、他の操作は一緒なはずや

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:52:36.97ID:PYnkc8ci0

>>233
ダウンロードできたみたいです！サンガツ！
でもやっぱり英語で帰ってきてしまう…なんででしょう？
https://files.catbox.moe/ogijxs.png

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:52:50.53ID:???0

>>233
ファイル名が変わっていたのに今対応したで
iq3xxs_imatrixと_imatrixが付いとったら正常なはずや

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 18:54:45.50ID:???0

LightChatAssistantを別データセット使って追加でインストラクションチューニングするの試してみたんだが良くも悪くもまともになってしまった
出力の自然さは上がったけどエロさも同時に下がった感じ
Antler-7Bがインストラクションチューニングされていないエロ特化みたいなモデルだから、ファインチューニングするとそこを殺しちゃってる感じかなあ

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:07:47.49ID:???0

>>234
以前にKoboldCppを使ったことがあって設定が残ってるとかやろか？
Settings-AdvancedにあるReset ALL Settingsして
Settings-BasicのMax Ctx.Tokensを32768にAmout to Gen.を512にする初期設定をやり直してみたらどうやろ？

0238名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 19:15:33.90ID:lxAnGvR5d

>>228
>>235
すごい！ご新規さんに優しい素晴らしいものをありがとうございます！
ファイル名をちょこちょこ変えてしまって申し訳ないです…
とりあえず予定していたものは上げ&修正終わったので、何かなければここから変わることはないはず

>>234
MemoryかWorldInfoに英文が入力されているのかな？
New Session→Keep Memory and World Info?のチェックオフ
でOKして試してみるとどうなります？

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ b6c6-Hmna)

2024/04/06(土) 19:16:44.42ID:vN0Ur5yH0

話者の名前が英語になってるとそっちに釣られるとかあるで

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-yyZt)

2024/04/06(土) 19:19:32.09ID:U2FfXq950

mlxでcommand r plus 4bit版動かしてるMac使いおらん？
M2 Max RAM96GBで動かしたんだが↓みたいにぶっ壊れたAIみたいな出力しか出さないんよね
誰か何か知ってたら教えてクレメンス

Prompt: hello
,
I have a problem with the "グリーン" color.
I have a "green" color in my palette, but when I use it, it is not the same color.
I have a "green" color in my palette,

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 19:22:50.53ID:???0

LightChatAssistant使う用のガイドならInstruct Templateの変更にも触れておいた方がいいんじゃない？
Mistralベースだからフォーマットは[INST] [/INST]の方がいいはず

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 19:25:07.45ID:???0

>>240
MLXは使ったことないけどこれと同じかな？
ここに載ってるようにtransformersアップデートしたら直るかも

https://huggingface.co/CohereForAI/c4ai-command-r-plus/discussions/6

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:25:15.89ID:PYnkc8ci0

日本語でお願いしますって言ったらたまーに日本語で返してくれますね…
>>238
やってみましたが相変わらずですね
>>239
話者ってどこで変えれるんでしょう…？
https://files.catbox.moe/9woqzo.png

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:26:58.36ID:PYnkc8ci0

肝心なの忘れてた、コマンド画面だとその後も書いてあるんですがwebui上だとちょっと前で止まってるんですけどなんなんでしょうか…

0245名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 19:32:42.73ID:lxAnGvR5d

あとiQ3_SやiQ4_XSも精度劣化の低さの割にサイズが小さいのでおすすめ
量子化での精度劣化は以下ページの方が纏めてくださっていて、とても参考になります
一番下の「KL-divergence による量子化評価」のグラフがめっちゃ参考になった

https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547

>>243
うーん、こちらでは全量子化を日本語動作確認してるんだけどな…
私には解決できないようだ。誰か任せた

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:40:50.83ID:???0

ワイの環境やとAllow Editingを有効にした際に{{[INPUT]}}と{{[OUTPUT]}}や[INST]と[/INST]があると英語になってしもうてる気がするで
どう案内するのが正解なんやろか？

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:48:45.48ID:???0

>>243
ということで{{[INPUT]}}と{{[OUTPUT]}}を削除して生成したら日本語にならへんやろか？

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:53:33.29ID:PYnkc8ci0

>>247
消したくても消せないというかなんでこれがついてるのかがわからない状況です。
241が言ってるのがそれなのかもとググっても全然わからんです…
あとなぜか最後の1行がwebui上には表示されないっぽいです

0249名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:02:17.61ID:lxAnGvR5d

ふむ、Instruct Tag Presetを変えて試してみたがどうやらVicuna以外にすると英語になったりならかったりするようだ
普段適当に「ME:」と「AI:」にしてたから分らんかった
ということでSettings→Instruct Tag PresetをVicunaにすると日本語にならないかな
(本当はMistralのチャットフォーマットの方が良いんだろうけど)

0250名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:05:15.30ID:lxAnGvR5d

それと最後の1行が出ないのは、Settings→Advanced→Trim Sentencesをオフで治らないかな

0251名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/06(土) 20:06:29.23ID:???M

訳わからんカット編集せずウィンドウ全体を貼ってくれw

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 20:08:29.15ID:???0

>>241 指摘サンガツやで
Instruct Tag PresetをLlama 2 Chatにする案内を追加しといた
ただSettingをLlama 2 Chatにすると"stop_sequence": ["[INST]", "[/INST]"],は変わるんやが入力欄で入力すると{{[INPUT]}}と{{[OUTPUT]}}（Instruct Tag PresetのKobold AI Formatみたいなの）が入ってしまうんはKoboldCpp仕様なんやろか？

>>243
話者はWorld Infoなんで238の手順できえるはずやで

>>248
Allow Editingが有効なら一旦ABORTして直接{{[INPUT]}}や{{[OUTPUT]}}にカーソル合わして直接編集で消せるはずやで
下の入力欄から入力するんでなくて上の出力欄から直接入力したら{{[INPUT]}}や{{[OUTPUT]}}が入らへんっぽい
最後の一行は中途半端に生成された文は削除される仕様やね

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 20:13:13.79ID:PYnkc8ci0

>>249
これで日本語になりました！サンガツ！
>>250
多分治ったっぽいです！サンガツ！
>>252
Llama 2 Chatだと英語のままでした…悲しい…

とりあえず次にいけそうです！

0254名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-hBD6)

2024/04/06(土) 20:25:20.92ID:kEUlaJaKM

>>216
User成りすましは

①生成前のプロンプトに混ぜてモデルに伝える
チャット入力欄の左の「三」アイコンクリック⇒「Author'sNote」選ぶ
DefaultAuthorsNoteの▽をクリックしてオープン
「あなたは{{char}}として応答/対話をする必要があります。あなたは常に{{char}}として応答をします。このタスクでは、決して{{user}}として行動したり発言してはいけません。」
In-Chatを選び、Depthを1 as systemとする
次に、画面上の「A」のアイコンを選ぶ

②それでも生成されてしまう場合は、チャット打ち切り
画面中央のCustom Stopping Stringに次のように
["ユーザー:","〇〇:"]
を入力する(〇〇はあなたのペルソナの日本語名)

の2つで、勝手にチャットが進んで置いてきぼりはなくなる

プロンプトがそのまま漏れるのは、80氏のモデルでは結構ある気はする
AIからの返信ウィンドウの右上、鉛筆アイコンで内容を編集できるから、追加されてるプロンプト部分を編集、チェックを押す
自分のターンの続きを書いて送信する

0255名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:31:29.91ID:lxAnGvR5d

ちょい前のだけど、Koboldcppの公式WikiをDeepLに突っ込んで翻訳したやつ
これにKoboldの設定やら用語の内容やらが大体書いてある。参考になるかも
https://rentry.org/rmeut8xs

>>253
よかった！ようこそローカルLLMの世界へ！楽しんでね

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/06(土) 20:56:33.65ID:???0

>>254
横からだが、すっげー助かった。
ST初心者のワイには、まだまだ知らない設定が多いわ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 21:48:14.71ID:???0

>>245
情報サンガツ！
iQ3_SとiQ4_XSも試してみたで
ワイのRTX3060 12GB環境ではiq4xs_imatrixでGPUレイヤー25枚ぐらいがええ感じやったわ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-ghvg)

2024/04/06(土) 22:50:35.44ID:???0

俺も横からだけど勉強させてもらってます

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-yyZt)

2024/04/06(土) 23:14:03.14ID:U2FfXq950

>>242
サンガツ

transformar最新にしても変わらなかったけどハグ顔にあるpythonコードじゃなくて↓のコード実行したらまともに返事したわ
だがM2 Maxですら生成遅すぎて実用的じゃないわM2 ultraかM3じゃないと厳しい

python -m mlx_lm.generate --model mlx-community/c4ai-command-r-plus-4bit --prompt "お前の名前はなんだ？" --temp 0.0 --max-tokens 256 --use-default-chat-template

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 23:25:49.77ID:PYnkc8ci0

遊び方はまだうまくいかないけど何とか話できるようにはなってきました
StyleBertVITS2を先立って使えるようになってたため読み上げできるって聞いてたんですけどAPI立ち上げて
koboldのほうでアドレス打ってみてもうんともすんとも言わないのですがどうやれば正しいのかよくわからんです

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 5206-5610)

2024/04/06(土) 23:57:53.50ID:???0

https://github.com/Zuntan03/EasyLightChatAssistant

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ d2a0-EtAA)

2024/04/07(日) 00:02:54.27ID:???0

>>216 他
個人的な感想と推測なんだけど、チャット形式ってのは本来的にLLMの挙動とは相性が悪くて、ハードルが高いんじゃないかと思ってる
この形式を学習した素材がどんな文章かを想像してみると、キャラAとキャラBの会話例でしかないだろうから、
一方の名前をUSERに変更しても、それは「USER（という名前のキャラ）」としか、LLM内部では認識されていないんだと思う

実際、Koboldcppのサンプルにもキャラ同士が勝手にお喋りするやつがあったり、
モデルの動作サンプルのプロンプトでも、「AliceとBobの会話」みたいな例が以前は多かったようだし

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 270e-TGoQ)

2024/04/07(日) 00:19:18.97ID:???0

のべりすとやローカルでチャット形式をやる場合
USER名"ご主人様"にしてご主人様の設定に"男性で主人公"と書いたときはそこそこ上手くいった気がする

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 00:42:54.62ID:SYErmO0F0

llama.cppのforkでcommand-r-plus動かせるって話あったからiq3_xssやってみたけど、バグった返答しか返ってこないな
なんでだろ

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:38:08.77ID:SYErmO0F0

command-r-plus IQ3_M動くようになった
環境はM2 Max 64GB
速度は4.2tokens/secでまあ一応実用範囲内
エロもいけるのを確認
システムプロンプトを結構厳密にオリジナルと同じにしないと出力バグるっぽい
https://i.imgur.com/zkErkBu.png

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 01:41:53.32ID:ok+ZRNtJ0

システムプロンプトっていうか、プロンプトフォーマットの問題かな？
こんな感じのフォーマットが必要

<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>{system message}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Hello, how are you?<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

システムプロンプトはUSE

0267名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:42:27.06ID:SYErmO0F0

こっちのスクショの方がいいか
https://i.imgur.com/7u5p5Sq.png

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:44:00.24ID:SYErmO0F0

>>266
それそれ
なんか、その中に日本語含めてたら不安定だったんだけど、そこを全部英語にして他言語混ぜないように指示したら安定した。

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ d310-hBD6)

2024/04/07(日) 01:58:00.66ID:fQe3/uM+0

>>223
無教養ですまんが伴奏ちゃんの時点でググってもわからんｗ
>>254
Custoｍ Stopping Stringに["ユーザー:","〇〇:"]って入れるの天才過ぎてありがとう
今んとここれやらんでも済みそうな気配はある

Context Template周りのお勧めとかあるんか？
ワイは最近までNoromaidで遊んでたのでNoromaidのままになってたのをRoleplayにしたらちょっと安定した気がするんやが

0270名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:03:03.62ID:SYErmO0F0

うーん、やっぱり変なトークンが挿入されて内容がめちゃくちゃになる事が結構あるな
これが量子化の影響だったらもうどうしようもないが・・・

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 02:05:51.98ID:???0

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:07:18.28ID:SYErmO0F0

>>271
画像だと見切れてるけど、一応それも書いてあるよ

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:10:08.76ID:SYErmO0F0

全文としては
""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
## Basic Rules
Answer user's request.
Language consistency should keep and should not be mixed in the answer.
You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
Q:{prompt}
A:"""

0274名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 02:27:32.31ID:???0

>>273
うーん、となるとおかしくはなさそうだな…

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:29:59.04ID:SYErmO0F0

llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ

0276名無しさん＠ピンキー (ﾜｯﾁｮｲ 3280-bgja)

2024/04/07(日) 07:52:10.65ID:???0

話してる内容と出力させた内容のギャップが酷いwwwww

0277名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/07(日) 08:33:10.96ID:???0

>>265
俺もM2maxだけどそのスピードでるなら実用的だな
今んとこmlx版はあかん

0278名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 08:39:03.31ID:SYErmO0F0

>>277
速度は全然問題ないよ
感覚としてはkarakuriとかと一緒かな？

あとなんか昨日command-r-plusのimatrixあげてた人(dranger003
/
c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね
何かあったんだろうか

0279名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 08:59:28.72ID:???p

>>278
まだllamacppが検証段階だからねぇ
連日猛者達が奮闘してる

0280名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 09:30:07.64ID:???0

そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど
実性能の評判あんま良くない感じなのか（英語でも）

0281名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 10:56:02.38ID:???0

LightChatAssistantの4x7Bへの拡張版作ってる人いたから試してみた
https://huggingface.co/Aratako/LightChatAssistant-4x7B-GGUF

例のテスト結果
https://rentry.org/ah7izzvt

まだちゃんと試せてないけど、>>66の2x7Bの結果と見比べると日本語の自然さ上がってそうな雰囲気
まぁその分サイズもデカくなっちゃってるが

0282名無しさん＠ピンキー (ﾜｯﾁｮｲ 23c0-GiYb)

2024/04/07(日) 11:04:17.24ID:???0

>>281
ほほう、日本語ローカルでここまで出来るとは
ファイルサイズ的に、メインメモリ32Gならギリいけそう…？

0283名無しさん＠ピンキー (ﾜｯﾁｮｲ bbdf-xKEp)

2024/04/07(日) 11:13:31.83ID:???0

>>282
DRAMなら余裕でしょ

0284名無しさん＠ピンキー (ﾜｯﾁｮｲ bbdf-xKEp)

2024/04/07(日) 11:37:02.19ID:???0

>>228
解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ？
32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と

昔、koboldは出力512トークン固定は仕様だと見た気もするけど、
設定分かる人いたら教えてください

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 11:40:46.67ID:???0

Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど
数値欄のところに直接入力するとそれ以上いけるという謎仕様がある

0286名無しさん＠ピンキー (ﾜｯﾁｮｲ 27fc-TGoQ)

2024/04/07(日) 11:44:20.31ID:???0

Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 12:08:20.62ID:???0

>>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで

> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)

>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理？っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 13:32:20.53ID:???0

EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant

更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら

2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね

0289名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/07(日) 13:41:09.35ID:???M

superswallowとMoEしてた人のモデルなら期待できそう
個人的に前までお世話になってました。

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 13:52:11.76ID:???0

モデルの能力の定量化でいろんな指標出てきてるけど
エロ力の定量化ってどうすりゃええんやろな

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 14:35:27.01ID:???0

専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという

0292名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 15:00:51.10ID:???p

>>291
性癖多々あるから尚難しいw

0293名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MMb3-06W9)

2024/04/07(日) 15:16:00.24ID:GRwfgW99M

人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 15:53:28.06ID:???0

まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな

0295名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 16:11:19.21ID:???p

自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな？
回線的に量子化済みのモデルしか上げられないけど

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 17:14:05.88ID:???0

>>285
>>286
>>287
サンガツ！なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限（xxx/512）になってしまうんよ…

トークンのカウントアップが（512/512）
になったら生成終了してしまうってことね

0297名無しさん＠ピンキー (ﾜｯﾁｮｲ d395-J+Gx)

2024/04/07(日) 17:49:52.14ID:???0

>>295
マージモデルなんて山ほどすでに上がってない？？

0298名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/07(日) 18:01:43.80ID:u4fva5Rsd

>>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285と>>287もそれを指している
落ち着くんだ

0299名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 18:13:43.80ID:???0

>>298
マジか！
完全に勘違いしてたよサンガツ！

0300名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/07(日) 18:17:12.72ID:???0

Max Ctx. Tokensはコンテキストサイズ
いわゆる記憶量だね

0301名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:19:31.61ID:???0

SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです？

0302名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:42:18.32ID:???0

>>301
ごめん自己解決した

■ このスレッドは過去ログ倉庫に格納されています