なんJLLM部避難所

1002コメント411KB

なんJLLM部避難所

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0387名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 22:55:27.15ID:???0

最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった

0388名無しさん＠ピンキー (ﾜｯﾁｮｲ b213-TGoQ)

2024/04/12(金) 00:08:19.99ID:???0

大葉を使っている人は居ないのか？みんなkoboldなのか？

0389名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-TGoQ)

2024/04/12(金) 00:10:24.50ID:???0

大葉使ってるよ

0390名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/12(金) 00:18:38.04ID:???0

Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764

>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや

0391名無しさん＠ピンキー (ﾜｯﾁｮｲ 23c0-siMB)

2024/04/12(金) 01:20:36.40ID:???0

>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな

0392名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 03:50:47.76ID:???0

初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの？
豚の顔みたいなアイコン変更したい

0393名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:03:46.26ID:???0

>>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ

0394名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:09:16.16ID:???0

>>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やなこっちの解説は詳しい人に任すわ

0395名無しさん＠ピンキー (ﾜｯﾁｮｲ d391-LHwO)

2024/04/12(金) 07:23:28.02ID:???0

大葉の設定よくわからん時がある

0396名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f0a-eJOn)

2024/04/12(金) 07:35:23.45ID:???0

ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか？

0397名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 07:42:19.16ID:???0

サクサクって話になると現状はそうなるな

0398名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/12(金) 08:14:55.51ID:???0

>>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど

0399名無しさん＠ピンキー (ﾜｯﾁｮｲ 768e-M/hT)

2024/04/12(金) 08:54:25.30ID:???0

3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ

0400名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/12(金) 09:56:55.26ID:???0

LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク（それこそ例のテストとか）で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな

0401名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 10:49:39.06ID:2/nKvx4z0

それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう

0402名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f37-OuL/)

2024/04/12(金) 11:27:22.12ID:???0

これローカルで動かせる猛者おりゅ？
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

0403名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 11:41:59.99ID:???0

>>394
サンクス、変えられた。

0404名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 13:26:45.10ID:bcuYyZTx0

command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ？

0405名無しさん＠ピンキー (ﾜｯﾁｮｲ d2a0-EtAA)

2024/04/12(金) 13:32:57.42ID:???0

>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ（特徴）が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど

0406名無しさん＠ピンキー (ﾜｯﾁｮｲ 27be-gtJT)

2024/04/12(金) 14:34:39.57ID:???0

どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな

0407名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 14:38:55.06ID:2/nKvx4z0

ある意味chatGPTはそれを真面目にやった結果では？

0408名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 14:52:21.59ID:???0

command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの？

0409名無しさん＠ピンキー (ﾜｯﾁｮｲ d3f7-LHwO)

2024/04/12(金) 14:55:06.96ID:???0

基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか？

0410名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb3-+0oV)

2024/04/12(金) 15:26:22.70ID:???0

>>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか

0411名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 16:08:49.04ID:???0

macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって

0412名無しさん＠ピンキー (ﾜｯﾁｮｲ 1226-JXuF)

2024/04/12(金) 19:06:20.89ID:???0

>>409
macより
>>399みたいなのが安かったりして

0413名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 19:41:52.91ID:???0

>>408
VRAM24GBにしたところで大して速度は上がらないぞ

0414名無しさん＠ピンキー (ﾜｯﾁｮｲ bbb5-Zcez)

2024/04/12(金) 20:04:28.55ID:???0

Windows11proにしてメモリ2TB乗せれば解決や！
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様

0415名無しさん＠ピンキー (ﾜｯﾁｮｲ 2787-TGoQ)

2024/04/12(金) 20:20:19.13ID:HmSxQfNw0

command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな

0416名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/12(金) 20:37:33.12ID:???0

M3 ultra を待ってたら、もうM4とはｗ

0417名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 21:04:23.80ID:???0

command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな

0418名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 21:05:48.48ID:bcuYyZTx0

というか、cohereには70Bくらいの中型モデルを出して欲しい

0419名無しさん＠ピンキー (ﾜｯﾁｮｲ ff4f-pWkx)

2024/04/13(土) 02:18:11.29ID:???0

もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う

0420名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 02:32:24.26ID:q69oO3X90

M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな

0421名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fbd-dfu2)

2024/04/13(土) 06:44:11.89ID:???0

>>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね

0422名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:30:35.69ID:???0

Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy

0423名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:53:05.04ID:???0

ローカルじゃないならAPIじゃなくてSpace使えばいいか。なんか制限あるのかな。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

0424名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 10:05:32.43ID:???0

WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの？

0425名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7e-06fP)

2024/04/13(土) 10:13:07.12ID:???0

command-R＋は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん

0426名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 10:38:46.03ID:???p

model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな？

0427名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 11:38:16.70ID:???0

わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R＋のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな

0428名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 11:48:32.19ID:???0

RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ

0429名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 11:48:53.21ID:???0

分割されてるモデルの合体のさせ方がわからない

0430名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:47:30.11ID:???0

>>429
結合せずに並べて置いといたらええだけやで

https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases).

0431名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:59:18.84ID:???0

>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで

0432名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 13:12:11.38ID:???0

Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん

0433名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 13:41:11.55ID:???0

どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか？

0434名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 14:07:40.49ID:???0

>>430
そうなのか有難う

0435名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM9f-VqMq)

2024/04/13(土) 15:57:58.25ID:OV/mcBF2M

Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった

0436名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 16:18:33.30ID:???p

>>435
量子化はどのレベル使ったの？

あと思考テストいいね

0437名無しさん＠ピンキー (ﾜｯﾁｮｲ 239a-wjog)

2024/04/13(土) 16:34:05.52ID:???0

そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン！"でめっちゃ笑った

0438名無しさん＠ピンキー (ﾜｯﾁｮｲ 230b-humn)

2024/04/13(土) 16:35:25.73ID:???0

シャボン玉ってなんだよ(哲学)

0439名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 16:48:38.78ID:eGHwKOHaM

>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう

0440名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 16:50:14.20ID:q69oO3X90

command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ

0441名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 17:30:38.21ID:???0

RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ

0442名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/13(土) 17:35:40.64ID:???0

メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな

0443名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 19:17:51.76ID:???0

128GBのRAM積んだPC持ってる猛者が実験してくれんかな？

0444名無しさん＠ピンキー (ﾜｯﾁｮｲ c32d-KL4L)

2024/04/13(土) 19:22:48.53ID:???0

Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな？

0445名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 19:29:27.87ID:eGHwKOHaM

Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる

0446名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 20:09:26.44ID:???0

Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試してはう～ん、このを繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4～0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた

0447名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 20:38:11.04ID:???0

>>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの？
結局VRAM大量に積んだGPU使うしかないのか、、

0448名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 21:09:59.63ID:???0

RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも

0449名無しさん＠ピンキー (ﾜｯﾁｮｲ 83f5-ANix)

2024/04/13(土) 21:28:43.35ID:???0

>>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや？(´・ω・`)

0450名無しさん＠ピンキー (ﾜｯﾁｮｲ c387-j/Vl)

2024/04/13(土) 21:44:29.11ID:tAhny6I70

しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ

0451名無しさん＠ピンキー (ﾜｯﾁｮｲ b3b7-gqZk)

2024/04/13(土) 21:46:21.65ID:???0

HBM...

0452名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd1f-dfu2)

2024/04/13(土) 21:49:28.09ID:???d

WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな

0453名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 21:50:44.16ID:???0

そのPCだとcommand-r-plusってどれくらいの速度で動くの？

0454名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 22:00:11.34ID:???0

RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな

0455305 (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 00:29:37.76ID:???0

なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b　に
sophosympatheia/Midnight-Rose-70B-v2.0.3　をかぶせてみた結果

https://rentry.org/wbfsvhm9

思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる（ただ、語彙拡張されていないので、遅すぎて使い物にはならない）
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
（Midnight-Roseはnsfwモデルではないけど、エロには寛容）
これは>>305のswallowの変貌を見ても明らか（あのお堅いswallowがｗ）

で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した

sbtom/karakuri-midroze-mg-Q6_K.gguf

をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル（ベンチスコア高め）とのマージ　隠語の造語が笑えるｗ
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д｀)
今だと、command-r-plusとの比較もあれば（スピードは同じくらいだし）

0456名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 01:19:39.12ID:???0

全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと

0457名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 01:33:48.74ID:???0

しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ？

0458名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 02:01:57.18ID:???0

単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ

0459名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-rajz)

2024/04/14(日) 02:37:48.92ID:dmNY9iUL0

>>455
karakuriｍのchatvector、楽しみだね！
よかったら簡単な手順やコンフィグなんかも教えて！

0460名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 02:54:08.92ID:???0

HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ

0461名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/14(日) 03:45:05.90ID:???0

RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや

0462名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 03:47:10.37ID:???0

command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ

あぁワイの環境じゃ0.5token/sが限界じゃあ・・・

>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな

0463名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 04:03:40.39ID:???0

>>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する

マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも

0464名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/14(日) 05:18:20.96ID:???0

>>463
あ～ということは3～4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや

リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【202４最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/)

0465名無しさん＠ピンキー (ﾜｯﾁｮｲ b3b7-gqZk)

2024/04/14(日) 05:53:06.61ID:???0

アドレス見てあっ……てなる人やんけ……

0466名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 08:26:39.68ID:???0

結局ｍacがお手軽だけど今だと68万の96GB版しか選べないな
そりゃwindowsでVRAM96GBのマシンが68万なら飛び付くけど用途が限られるmacじゃな

0467名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 08:32:13.23ID:???d

>>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです！
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです！

>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です！ChatVectorならぬEroticVectorですなｗ

0468名無しさん＠ピンキー (ﾜｯﾁｮｲ cf8e-RkyF)

2024/04/14(日) 08:38:34.78ID:???0

実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので

0469名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM7f-NRev)

2024/04/14(日) 08:45:21.95ID:???M

マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20％くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1％くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか？そういうスロット配置のマザボがあるか？ってところでお話が止まってしまう

0470名無しさん＠ピンキー (ﾜｯﾁｮｲ d395-RUMD)

2024/04/14(日) 11:49:41.05ID:???0

推論だけならメモリ帯域はほとんど使わないのか
そうなると数年内に推論はCPUに内蔵されるNPUが主流になるんだろうな

0471名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b6-uu0w)

2024/04/14(日) 11:53:56.66ID:???0

これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな（セリフの後そのまま続き生成させると書いてくれるが）

0472名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 12:54:56.05ID:???0

windowsのRAMで動かしてる人がみんな似たような速度ってことはCPU性能には依存しないのか？

0473名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 13:09:46.03ID:???d

推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14

メモリ帯域の話
https://vectory.work/memory-bandwidth/

※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る

0474名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾛ Sp47-uadv)

2024/04/14(日) 13:24:01.32ID:???p

koboldのamount genって直接入力で512以上にできるけど
推論おかしくならない？
なんか見当違いのこと話しだすんだが

0475名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 13:25:27.89ID:???d

あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5～6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ

0476名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b6-uu0w)

2024/04/14(日) 13:31:56.79ID:???0

>>474
めっちゃ大きくするとおかしくなるね
1024くらいならいけてる

0477名無しさん＠ピンキー (ﾜｯﾁｮｲ 43c0-dfu2)

2024/04/14(日) 14:04:01.29ID:???0

>>472
ヘボヘボCPUだと遅いのは間違いない

0478名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 14:46:49.79ID:???0

R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて

0479名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾛ Sp47-uadv)

2024/04/14(日) 14:52:52.92ID:???p

>>478
ドライバはクリンインスコしてる？　同じpcだよね

0480名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/14(日) 15:09:39.41ID:???0

>>478 メモリ64GBでのおすすめは
>>431 のIQ3利用やがいくつかエスパーしとくで

タスクマネージャでディスクアクセスが発生して遅くなってるなら起動しているアプリを減らす

gpulayersを0でなく様子見しながら4以上を設定する

ドライバのシステムメモリフォールバックポリシーをなしにする
https://github.com/Zuntan03/EasySdxlWebUi/wiki/%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%82%B7%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0#%E7%94%BB%E5%83%8F%E7%94%9F%E6%88%90%E3%81%8C%E9%81%85%E3%81%84

0481名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 15:10:24.16ID:???0

contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ

0482名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 16:00:49.56ID:???d

CommandR+　>>431のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった
ほぼRAMオンリーと変わらんね

>>445
これ気になったので、Aratako氏に直接聞いてみるわ

0483名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/14(日) 16:18:40.47ID:ad3txZsV0

お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる？
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ

0484名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:15:27.54ID:???0

sbtom/karakuri-midrose-CV.gguf

karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd

chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがｗ
また、英語で回答したがる傾向も見られました。（英語モデルのインストラクタをかぶせてるせい？）
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。

続いて、マージ手法ですが、長くなるので分けますね

0485名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:22:49.05ID:???0

続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担（特にSSD）をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。ｍ（＿＿）ｍ

0486名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:27:57.91ID:???0

ありゃ？インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16

正しくはこうです。すみません

0487名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:31:53.20ID:???0

うげ！治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16

むりやり*で埋めた（*をスペースと思ってください）

■ このスレッドは過去ログ倉庫に格納されています