なんJLLM部 避難所 ★10
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ? >>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。
・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正
git pullをお願いします。
もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。 >>558
LM Studioの設定どうなってる?
Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ
コンテキストサイズやCPUスレッド数はお任せ
画像は別MoEモデルの設定ね
https://i.imgur.com/jd8G4zK.png 8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような >>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする VRAM128GBとメインメモリ128GBあれば大抵のことはできる パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる 画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない >>555
詳細な情報提供ありがとうございました
>>561
迅速なアップデートありがとうございます
作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした
12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました >>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる
>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・? 5060tiのメモリ帯域はそこまで速くないからなぁ… 画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな
GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる
マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな
まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな 以前なら150万あったらxeonでメモリ1tb載せられた・・・
今じゃ多分無理やろが 今の状況で512GBのMacとかいくらになるんだ
Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう 5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ
Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない
あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと >>562
ありがてえ、2t/sが安定するようになった!!! >>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな >>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう
>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな >>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み >>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ?
5090 1枚(32GB) 15tk/s
5070Ti 2枚(32GB) ??tk/s
5070Ti 4枚(64GB) ??tk/s
5060Ti 2枚(32GB) ??tk/s
5060Ti 8枚(128GB) ??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか? macは初速は速いけどコンテキストが大きくなってくると生成前処理が致命的に遅くなる gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい)
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど あと5090単体でも15 tpsは低すぎるし設定ミスってそう 今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや
そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・ 最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ