なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0549名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 12:43:26.33ID:OXDLX/Y60
>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」)
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
(デフォルトから変えておりません)
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500
0550名無しさん@ピンキー (ワッチョイ d298-lw50)2025/12/29(月) 20:37:33.61ID:ewL055nu0
>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか?
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる)
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。
0551名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0
3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね
0552名無しさん@ピンキー (ワッチョイ 0a24-wKEG)2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0
>>551
何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない
0555名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:07.84ID:lMorHdVk0
>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)
0556名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:43.08ID:lMorHdVk0
>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^
0558名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/30(火) 06:44:06.82ID:3A8Anhbj0
>>552
LM Studio
ソフトで差が出るもんなの?
0560名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 08:09:46.00ID:UqaFaSWG0
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円 
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ?
0561名無しさん@ピンキー (ワッチョイ d20e-lw50)2025/12/30(火) 09:44:29.57ID:Xq3KgeF30
>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。
0564名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/30(火) 11:22:17.42ID:UqaFaSWG0
>>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする
0566名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 11:40:11.78ID:L/CH3/cp0
パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから
0567名無しさん@ピンキー (ワッチョイ 6ea4-JWG4)2025/12/30(火) 12:00:05.85ID:xVlh2pWI0
ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる
0568名無しさん@ピンキー (ワッチョイ 8cb9-7+Bn)2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0
画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない
0569名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/30(火) 14:31:49.12ID:+JjZad5E0
>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました
0570名無しさん@ピンキー (ワッチョイ deed-pQ3g)2025/12/30(火) 18:56:05.42ID:MMydUQFK0
>>538
わーい新しいモデルだー
0571名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 19:32:46.75ID:UqaFaSWG0
>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・?
0572名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 20:20:30.60ID:L/CH3/cp0
5060tiのメモリ帯域はそこまで速くないからなぁ…
0573名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/30(火) 20:22:28.90ID:0XYEbhmH0
画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする
0574名無しさん@ピンキー (ワッチョイ b62c-JCzX)2025/12/30(火) 20:48:09.93ID:MsEm9Rga0
Macストゥーディオが最強?
0575名無しさん@ピンキー (ワッチョイ dac7-CKxx)2025/12/30(火) 22:03:27.51ID:XOEiLvuB0
LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな
0578名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 00:24:14.44ID:nATPkOzl0
5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと
0579名無しさん@ピンキー (ワッチョイ be97-Xpyt)2025/12/31(水) 01:19:09.77ID:+SOP+Ib10
>>562

ありがてえ、2t/sが安定するようになった!!!
0580名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 01:50:43.20ID:91X6WRME0
>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな
0581名無しさん@ピンキー (アウアウ Saee-Rr0y)2025/12/31(水) 06:27:46.73ID:tbNiHYoda
>>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう

>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな
0582名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 07:42:31.92ID:7HEfMKtn0
>>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み
0583名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 08:21:26.45ID:nATPkOzl0
>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ?
5090 1枚(32GB) 15tk/s
5070Ti 2枚(32GB) ??tk/s
5070Ti 4枚(64GB) ??tk/s
5060Ti 2枚(32GB) ??tk/s
5060Ti 8枚(128GB) ??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか?
0585名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:13:45.23ID:A5W68e4G0
gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい)
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう
0586名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 11:41:48.05ID:7HEfMKtn0
PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど
0587名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:46:28.67ID:A5W68e4G0
あと5090単体でも15 tpsは低すぎるし設定ミスってそう
0588名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 13:19:34.11ID:91X6WRME0
今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん
0589名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 14:23:46.13ID:91X6WRME0
ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・
0590名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:11:50.24ID:A5W68e4G0
最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ
0591名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:19:32.10ID:A5W68e4G0
5090なら30前後出るのかな
0592名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 16:14:14.55ID:91X6WRME0
5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか
0593名無しさん@ピンキー (ワッチョイ d21e-lw50)2025/12/31(水) 17:28:14.16ID:PyLi1INM0
5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない?
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど)
0594名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 17:39:18.02ID:91X6WRME0
全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって
0595名無しさん@ピンキー (ワッチョイ b16a-h4RS)2025/12/31(水) 18:19:51.36ID:/BUKgy7e0
お年玉で買うか
0596名無しさん@ピンキー (ワッチョイ 8204-mqrN)2025/12/31(水) 20:12:38.30ID:A5W68e4G0
>>592
このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps)
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも?
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる
0597名無しさん@ピンキー (ワッチョイ b6aa-JCzX)2025/12/31(水) 21:14:09.72ID:x14xJQ6r0
来年はPRO6000が人権になりそうなヨカーン
レスを投稿する


ニューススポーツなんでも実況