なんJLLM部避難所

1002コメント411KB

なんJLLM部避難所

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0361名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:34:54.03ID:???0

>>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群

0362名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:35:19.15ID:gYHj2M1xd

もしかしてLlamacppの最新で使えないってことだろうか

0363名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:36:07.30ID:???0

>>360
すまん、command-rの情報と間違えたｗ
こっちは問題ないわ

0364名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:39:58.90ID:???0

>>361そうなんだ。GGUFのほう入れとくわ。ありがとう。

0365名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:45:33.73ID:gYHj2M1xd

>>363
おｋ
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む

0366名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:53:26.23ID:???0

>>365
ん？
koboldはビルド済みだから、環境のllamaに影響されんよ？
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる

0367名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:04:01.43ID:gYHj2M1xd

>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった

0368名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 01:15:09.46ID:???0

>>367
ああ、そういうことか

それって、>>149の話？
というか、今時点の最新のllama.cppでも動かないのかな？

0369名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:26:37.55ID:gYHj2M1xd

どこかで見たと思っていたらそれだ！ありがとう
最新のLlama.cppだとどうなんだろう？そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな？
時間あるときに確認してみるわ

0370名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:33:33.91ID:gYHj2M1xd

Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ！って人がいたら報告していただけると助かります

0371名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f7d-lDMG)

2024/04/10(水) 11:09:11.30ID:???0

Mistral 8x22Bだと…

0372名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 11:39:04.13ID:???0

いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんｗｗｗ

0373名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 19:46:29.02ID:iP2KkLqed

>>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった

纏めると、
　　　　　　　　　　　最新ver量子化　旧ver量子化
Kobold-v1.62.1　　　　〇　　　　　　〇
Kobold-v1.61.2　　　　×　　　　　　〇
Llama.cppのmain.exe　〇　　　　　　×

この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です

>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします

0374名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 19:56:49.30ID:???0

最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな（2x7Bとかなら誤差なのかもしれんが）

0375名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/11(木) 10:24:48.92ID:???0

LightChatAssistant-2x7Bの改良版っぽいのが出てた
Chat Vectorの割合をレイヤごとに最適化したらしい
最適化不足っぽいこと書いてるけど、それでも全部0.8で雑に加算してた元モデルよりは良さそうだがどうなんだろう
家帰ったら試すか

https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental-GGUF

0376名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/11(木) 12:42:52.97ID:MNHhi1l8d

>>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる…

0377名無しさん＠ピンキー (ﾜｯﾁｮｲ d356-hBD6)

2024/04/11(木) 15:15:44.53ID:Grsx0tAb0

>>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや？

ちな、376の精子はエロくて賢くて既に最高やで？お世話になっとるで、ありがとさんや

0378名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 15:19:31.45ID:???p

>>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー･:*+.\(( °ω° ))/.:+

0379名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e63-EtAA)

2024/04/11(木) 15:58:15.53ID:???0

超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
ｕｐさせたらええんか？一度試したらupで時間切れになってもうた

0380名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:17:21.10ID:???p

>>379
ノートのメモリいくつ？
あとkoboldは公式から単一のexeファイル落とすだけやで　upが何を指してるかよく分からんけど

0381名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:18:45.40ID:???p

ああ意味わかった
↑のは忘れてくれ

0382名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 16:37:14.59ID:???0

>>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト

0383名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMd2-4QwI)

2024/04/11(木) 17:21:33.51ID:???M

0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね？
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ！

0384名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/11(木) 19:54:23.43ID:???M

>>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ

0385名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/11(木) 21:12:43.97ID:???0

>>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで

あと
>>375
のQ4_K_Mも試せるようにしといた

0386名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/11(木) 22:00:52.83ID:MNHhi1l8d

みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする！
GGUFの更新終わったらちょっと休みますわ

うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった

しかしこれからは改良版を主に使うけどな多分ｗ(でも余計愛着湧いたからたまに使います！)

>>385
検証ミスしてたかスマン。再インスト案内ありがとうです

0387名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 22:55:27.15ID:???0

最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった

0388名無しさん＠ピンキー (ﾜｯﾁｮｲ b213-TGoQ)

2024/04/12(金) 00:08:19.99ID:???0

大葉を使っている人は居ないのか？みんなkoboldなのか？

0389名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-TGoQ)

2024/04/12(金) 00:10:24.50ID:???0

大葉使ってるよ

0390名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/12(金) 00:18:38.04ID:???0

Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764

>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや

0391名無しさん＠ピンキー (ﾜｯﾁｮｲ 23c0-siMB)

2024/04/12(金) 01:20:36.40ID:???0

>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな

0392名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 03:50:47.76ID:???0

初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの？
豚の顔みたいなアイコン変更したい

0393名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:03:46.26ID:???0

>>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ

0394名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:09:16.16ID:???0

>>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やなこっちの解説は詳しい人に任すわ

0395名無しさん＠ピンキー (ﾜｯﾁｮｲ d391-LHwO)

2024/04/12(金) 07:23:28.02ID:???0

大葉の設定よくわからん時がある

0396名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f0a-eJOn)

2024/04/12(金) 07:35:23.45ID:???0

ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか？

0397名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 07:42:19.16ID:???0

サクサクって話になると現状はそうなるな

0398名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/12(金) 08:14:55.51ID:???0

>>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど

0399名無しさん＠ピンキー (ﾜｯﾁｮｲ 768e-M/hT)

2024/04/12(金) 08:54:25.30ID:???0

3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ

0400名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/12(金) 09:56:55.26ID:???0

LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク（それこそ例のテストとか）で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな

0401名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 10:49:39.06ID:2/nKvx4z0

それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう

0402名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f37-OuL/)

2024/04/12(金) 11:27:22.12ID:???0

これローカルで動かせる猛者おりゅ？
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

0403名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 11:41:59.99ID:???0

>>394
サンクス、変えられた。

0404名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 13:26:45.10ID:bcuYyZTx0

command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ？

0405名無しさん＠ピンキー (ﾜｯﾁｮｲ d2a0-EtAA)

2024/04/12(金) 13:32:57.42ID:???0

>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ（特徴）が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど

0406名無しさん＠ピンキー (ﾜｯﾁｮｲ 27be-gtJT)

2024/04/12(金) 14:34:39.57ID:???0

どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな

0407名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 14:38:55.06ID:2/nKvx4z0

ある意味chatGPTはそれを真面目にやった結果では？

0408名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 14:52:21.59ID:???0

command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの？

0409名無しさん＠ピンキー (ﾜｯﾁｮｲ d3f7-LHwO)

2024/04/12(金) 14:55:06.96ID:???0

基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか？

0410名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb3-+0oV)

2024/04/12(金) 15:26:22.70ID:???0

>>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか

0411名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 16:08:49.04ID:???0

macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって

0412名無しさん＠ピンキー (ﾜｯﾁｮｲ 1226-JXuF)

2024/04/12(金) 19:06:20.89ID:???0

>>409
macより
>>399みたいなのが安かったりして

0413名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 19:41:52.91ID:???0

>>408
VRAM24GBにしたところで大して速度は上がらないぞ

0414名無しさん＠ピンキー (ﾜｯﾁｮｲ bbb5-Zcez)

2024/04/12(金) 20:04:28.55ID:???0

Windows11proにしてメモリ2TB乗せれば解決や！
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様

0415名無しさん＠ピンキー (ﾜｯﾁｮｲ 2787-TGoQ)

2024/04/12(金) 20:20:19.13ID:HmSxQfNw0

command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな

0416名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/12(金) 20:37:33.12ID:???0

M3 ultra を待ってたら、もうM4とはｗ

0417名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 21:04:23.80ID:???0

command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな

0418名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 21:05:48.48ID:bcuYyZTx0

というか、cohereには70Bくらいの中型モデルを出して欲しい

0419名無しさん＠ピンキー (ﾜｯﾁｮｲ ff4f-pWkx)

2024/04/13(土) 02:18:11.29ID:???0

もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う

0420名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 02:32:24.26ID:q69oO3X90

M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな

0421名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fbd-dfu2)

2024/04/13(土) 06:44:11.89ID:???0

>>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね

0422名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:30:35.69ID:???0

Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy

0423名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:53:05.04ID:???0

ローカルじゃないならAPIじゃなくてSpace使えばいいか。なんか制限あるのかな。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

0424名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 10:05:32.43ID:???0

WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの？

0425名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7e-06fP)

2024/04/13(土) 10:13:07.12ID:???0

command-R＋は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん

0426名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 10:38:46.03ID:???p

model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな？

0427名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 11:38:16.70ID:???0

わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R＋のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな

0428名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 11:48:32.19ID:???0

RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ

0429名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 11:48:53.21ID:???0

分割されてるモデルの合体のさせ方がわからない

0430名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:47:30.11ID:???0

>>429
結合せずに並べて置いといたらええだけやで

https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases).

0431名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:59:18.84ID:???0

>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで

0432名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 13:12:11.38ID:???0

Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん

0433名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 13:41:11.55ID:???0

どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか？

0434名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 14:07:40.49ID:???0

>>430
そうなのか有難う

0435名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM9f-VqMq)

2024/04/13(土) 15:57:58.25ID:OV/mcBF2M

Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった

0436名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 16:18:33.30ID:???p

>>435
量子化はどのレベル使ったの？

あと思考テストいいね

0437名無しさん＠ピンキー (ﾜｯﾁｮｲ 239a-wjog)

2024/04/13(土) 16:34:05.52ID:???0

そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン！"でめっちゃ笑った

0438名無しさん＠ピンキー (ﾜｯﾁｮｲ 230b-humn)

2024/04/13(土) 16:35:25.73ID:???0

シャボン玉ってなんだよ(哲学)

0439名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 16:48:38.78ID:eGHwKOHaM

>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう

0440名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 16:50:14.20ID:q69oO3X90

command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ

0441名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 17:30:38.21ID:???0

RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ

0442名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/13(土) 17:35:40.64ID:???0

メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな

0443名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 19:17:51.76ID:???0

128GBのRAM積んだPC持ってる猛者が実験してくれんかな？

0444名無しさん＠ピンキー (ﾜｯﾁｮｲ c32d-KL4L)

2024/04/13(土) 19:22:48.53ID:???0

Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな？

0445名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 19:29:27.87ID:eGHwKOHaM

Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる

0446名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 20:09:26.44ID:???0

Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試してはう～ん、このを繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4～0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた

0447名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 20:38:11.04ID:???0

>>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの？
結局VRAM大量に積んだGPU使うしかないのか、、

0448名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 21:09:59.63ID:???0

RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも

0449名無しさん＠ピンキー (ﾜｯﾁｮｲ 83f5-ANix)

2024/04/13(土) 21:28:43.35ID:???0

>>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや？(´・ω・`)

0450名無しさん＠ピンキー (ﾜｯﾁｮｲ c387-j/Vl)

2024/04/13(土) 21:44:29.11ID:tAhny6I70

しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ

0451名無しさん＠ピンキー (ﾜｯﾁｮｲ b3b7-gqZk)

2024/04/13(土) 21:46:21.65ID:???0

HBM...

0452名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd1f-dfu2)

2024/04/13(土) 21:49:28.09ID:???d

WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな

0453名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 21:50:44.16ID:???0

そのPCだとcommand-r-plusってどれくらいの速度で動くの？

0454名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 22:00:11.34ID:???0

RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな

0455305 (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 00:29:37.76ID:???0

なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b　に
sophosympatheia/Midnight-Rose-70B-v2.0.3　をかぶせてみた結果

https://rentry.org/wbfsvhm9

思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる（ただ、語彙拡張されていないので、遅すぎて使い物にはならない）
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
（Midnight-Roseはnsfwモデルではないけど、エロには寛容）
これは>>305のswallowの変貌を見ても明らか（あのお堅いswallowがｗ）

で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した

sbtom/karakuri-midroze-mg-Q6_K.gguf

をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル（ベンチスコア高め）とのマージ　隠語の造語が笑えるｗ
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д｀)
今だと、command-r-plusとの比較もあれば（スピードは同じくらいだし）

0456名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 01:19:39.12ID:???0

全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと

0457名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 01:33:48.74ID:???0

しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ？

0458名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 02:01:57.18ID:???0

単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ

0459名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-rajz)

2024/04/14(日) 02:37:48.92ID:dmNY9iUL0

>>455
karakuriｍのchatvector、楽しみだね！
よかったら簡単な手順やコンフィグなんかも教えて！

0460名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 02:54:08.92ID:???0

HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ

■ このスレッドは過去ログ倉庫に格納されています