なんJLLM部 避難所 ★10
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>558
LM Studioの設定どうなってる?
Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ
コンテキストサイズやCPUスレッド数はお任せ
画像は別MoEモデルの設定ね
https://i.imgur.com/jd8G4zK.png 8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような >>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする VRAM128GBとメインメモリ128GBあれば大抵のことはできる パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる 画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない >>555
詳細な情報提供ありがとうございました
>>561
迅速なアップデートありがとうございます
作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした
12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました >>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる
>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・? 5060tiのメモリ帯域はそこまで速くないからなぁ… 画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな
GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる
マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな
まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな 以前なら150万あったらxeonでメモリ1tb載せられた・・・
今じゃ多分無理やろが 今の状況で512GBのMacとかいくらになるんだ
Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう 5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ
Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない
あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと >>562
ありがてえ、2t/sが安定するようになった!!! >>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな