なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0560名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 08:09:46.00ID:UqaFaSWG0
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円 
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ?
0561名無しさん@ピンキー (ワッチョイ d20e-lw50)2025/12/30(火) 09:44:29.57ID:Xq3KgeF30
>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。
0564名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/30(火) 11:22:17.42ID:UqaFaSWG0
>>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする
0566名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 11:40:11.78ID:L/CH3/cp0
パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから
0567名無しさん@ピンキー (ワッチョイ 6ea4-JWG4)2025/12/30(火) 12:00:05.85ID:xVlh2pWI0
ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる
0568名無しさん@ピンキー (ワッチョイ 8cb9-7+Bn)2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0
画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない
0569名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/30(火) 14:31:49.12ID:+JjZad5E0
>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました
0570名無しさん@ピンキー (ワッチョイ deed-pQ3g)2025/12/30(火) 18:56:05.42ID:MMydUQFK0
>>538
わーい新しいモデルだー
0571名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 19:32:46.75ID:UqaFaSWG0
>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・?
0572名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 20:20:30.60ID:L/CH3/cp0
5060tiのメモリ帯域はそこまで速くないからなぁ…
0573名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/30(火) 20:22:28.90ID:0XYEbhmH0
画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする
0574名無しさん@ピンキー (ワッチョイ b62c-JCzX)2025/12/30(火) 20:48:09.93ID:MsEm9Rga0
Macストゥーディオが最強?
0575名無しさん@ピンキー (ワッチョイ dac7-CKxx)2025/12/30(火) 22:03:27.51ID:XOEiLvuB0
LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな
0578名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 00:24:14.44ID:nATPkOzl0
5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと
0579名無しさん@ピンキー (ワッチョイ be97-Xpyt)2025/12/31(水) 01:19:09.77ID:+SOP+Ib10
>>562

ありがてえ、2t/sが安定するようになった!!!
0580名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 01:50:43.20ID:91X6WRME0
>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな
レスを投稿する


ニューススポーツなんでも実況