なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0545名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 00:56:52.09ID:OXDLX/Y60
>>538
いつもありがとうございます

ソフトとモデルをアップデートしたのですが
以前には一度も出なかった以下のエラーが出てしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed

ソフトの出力窓では
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

何か設定を間違っている感じでしょうか

他のモデルを使用しても以上のように停止してしまうので
困っております
0546名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/29(月) 01:03:03.91ID:IuqqNF7w0
>>533
その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる
>>534
選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ
0547名無しさん@ピンキー (ワッチョイ d2f7-lw50)2025/12/29(月) 01:29:25.05ID:ewL055nu0
>>545
新規に環境を作り調査しましたが再現できませんでした

エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください

・koboldcppのアップデート(最新のkoboldcpp-1.104で動作確認しています)
・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001";のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる
・koboldcppを別フォルダで新規クローンしてみる

これでも問題が解決しない場合は再度状況を教えていただければ対応いたします
0549名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 12:43:26.33ID:OXDLX/Y60
>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」)
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
(デフォルトから変えておりません)
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500
0550名無しさん@ピンキー (ワッチョイ d298-lw50)2025/12/29(月) 20:37:33.61ID:ewL055nu0
>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか?
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる)
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。
0551名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0
3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね
0552名無しさん@ピンキー (ワッチョイ 0a24-wKEG)2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0
>>551
何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない
0555名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:07.84ID:lMorHdVk0
>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)
0556名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:43.08ID:lMorHdVk0
>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^
0558名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/30(火) 06:44:06.82ID:3A8Anhbj0
>>552
LM Studio
ソフトで差が出るもんなの?
0560名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 08:09:46.00ID:UqaFaSWG0
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円 
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ?
0561名無しさん@ピンキー (ワッチョイ d20e-lw50)2025/12/30(火) 09:44:29.57ID:Xq3KgeF30
>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。
0564名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/30(火) 11:22:17.42ID:UqaFaSWG0
>>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする
0566名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 11:40:11.78ID:L/CH3/cp0
パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから
0567名無しさん@ピンキー (ワッチョイ 6ea4-JWG4)2025/12/30(火) 12:00:05.85ID:xVlh2pWI0
ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる
0568名無しさん@ピンキー (ワッチョイ 8cb9-7+Bn)2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0
画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない
0569名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/30(火) 14:31:49.12ID:+JjZad5E0
>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました
0570名無しさん@ピンキー (ワッチョイ deed-pQ3g)2025/12/30(火) 18:56:05.42ID:MMydUQFK0
>>538
わーい新しいモデルだー
0571名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 19:32:46.75ID:UqaFaSWG0
>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・?
0572名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 20:20:30.60ID:L/CH3/cp0
5060tiのメモリ帯域はそこまで速くないからなぁ…
0573名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/30(火) 20:22:28.90ID:0XYEbhmH0
画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする
0574名無しさん@ピンキー (ワッチョイ b62c-JCzX)2025/12/30(火) 20:48:09.93ID:MsEm9Rga0
Macストゥーディオが最強?
0575名無しさん@ピンキー (ワッチョイ dac7-CKxx)2025/12/30(火) 22:03:27.51ID:XOEiLvuB0
LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな
0578名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 00:24:14.44ID:nATPkOzl0
5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと
0579名無しさん@ピンキー (ワッチョイ be97-Xpyt)2025/12/31(水) 01:19:09.77ID:+SOP+Ib10
>>562

ありがてえ、2t/sが安定するようになった!!!
0580名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 01:50:43.20ID:91X6WRME0
>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな
レスを投稿する


ニューススポーツなんでも実況