なんJLLM部 避難所 ★10
!extend:checked:vvvvv:1000:512 !extend:checked:vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★8 https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/ なんJLLM部 避難所 ★9 https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/ VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>543 おめでとう これでQwen3 235Bデビューできるな >>538 いつもありがとうございます ソフトとモデルをアップデートしたのですが 以前には一度も出なかった以下のエラーが出てしまいます コマンドプロンプトでは [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection attempts failed ソフトの出力窓では --- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: --- と出て停止してしまいます 何か設定を間違っている感じでしょうか 他のモデルを使用しても以上のように停止してしまうので 困っております >>533 その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる >>534 選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ >>545 新規に環境を作り調査しましたが再現できませんでした エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください ・koboldcppのアップデート(最新のkoboldcpp-1.104で動作確認しています) ・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001" ;のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる ・koboldcppを別フォルダで新規クローンしてみる これでも問題が解決しない場合は再度状況を教えていただければ対応いたします >>547 × koboldcppを新規クーロン 〇 wannabeを新規クーロン 訂正します >>547 ご返信ありがとうございます koboldcpp.exe最新版使用や環境再構築、ポート番号設定など 作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」) をしたのですが、以下のように>>545 で書いたようなエラーが出てしまいました ソフトの生成窓には --- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で --- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: --- と出て停止してしまいます コマンドプロンプトでは [ContextUtils] Failed to count tokens: [ContextUtils] Failed to count tokens: [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection attempts failed と出てその後、窓を閉じるまで後段2行が連続して出力されます なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました また、ログによると以下のようなパラメータ設定でした (デフォルトから変えておりません) "temperature": 0.5, "min_p": 0.1, "top_p": 0.95, "top_k": 40, "rep_pen": 1.1, "stop_sequence": [], "banned_tokens": [], "ban_eos_token": true, "max_length": 500 >>549 538です。 エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか? [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection atte というエラーが出ている状態でのkoboldcppの状態を教えてください。 簡易チェック ・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる) →開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。 ・上記kobold側の簡易UI経由では途切れることなく生成されるか →途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。 3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね >>551 何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない >>550 横からですが同じようなエラーに行き当たっていたので 環境としては5060ti 16GB DRAM 128GB Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます WannabeのvenvはPython 3.12.6で構築してます 動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと wanabi_24b_v03_q4km.ggufを用いた場合共に発生 またKoboldcpp+sillytavernでモデルが動作することを確認しています wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、 1度停止した後の再度連続生成でエラーが出て停止するケースが多いです ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです しばらく [ContextUtils] Failed to get true_max_context_length: が続いた後稀に通信が成功するみたいですが連続生成を中断すると koboldcpp側で正常に通信が終了せず 以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました Exception happened during processing of request from ('127.0.0.1', 62026) (略) >>555 の続き また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し 本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました 落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので Powershellごと停止する形になっています [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: (上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす) [ContextUtils] Failed to get true_max_context_length: All connection attempts failed Error calling Python override of QObject::timerEvent(): Traceback (most recent call last): File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent del self.__callbacks[timerid] ~~~~~~~~~~~~~~~~^^^^^^^^^ >>552 LM Studio ソフトで差が出るもんなの? 価格コムでVRAM16GBで見てたら RTX5060Ti 16G 8万円 5090 32GB 65万円 5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし 下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き? というか、はじめっからAIなら最上位GPUって思ってたから そもそも見てなかったんだけど、これかなり美味しい? 気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ? >>555 詳細なご報告ありがとうございます。 やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。 ・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化 ・終了時にプロセスが残りフリーズする問題を修正 git pullをお願いします。 もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。 >>558 LM Studioの設定どうなってる? Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ コンテキストサイズやCPUスレッド数はお任せ 画像は別MoEモデルの設定ね https://i.imgur.com/jd8G4zK.png 8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような >>563 5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない? リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、 2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか? もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする VRAM128GBとメインメモリ128GBあれば大抵のことはできる パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる 画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。 10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない >>555 詳細な情報提供ありがとうございました >>561 迅速なアップデートありがとうございます 作者様や>>555 様の言われたとおり、 12/28verではトークンを入力しなかったりかなり少なめにすると koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした 12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております 本当にありがとうございました >>565 ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない 実際にLLMで早くなるのか気になってる >>567 そこまで遅いならRAMつけた時とあまり変わらない? 16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない? AIさんに騙されたか・・・? 5060tiのメモリ帯域はそこまで速くないからなぁ… 画像/動画生成用途ならGPGPU性能が物を言うし LLM用途ならMac StudioやRyzen AI Max+ 395があるから 微妙なグラボ複数枚はどっちにしても中途半端な気がする LLM用途しかしないなら、Mac Studio(512GB)が最強やろな 俺だったら512GBしか買わん 実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う 画像生成はM5に期待やな GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い 画像解析などのVLM系にも有効やし、 アプリ開発でもいろんな使い方ができる マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力 ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる 最低でも10 token/s以上を狙うなら、 全スロットが PCIe 4.0 x16以上の ワークステーションクラスが欲しいところやな まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも? そのメモリが高いんだよな 以前なら150万あったらxeonでメモリ1tb載せられた・・・ 今じゃ多分無理やろが 今の状況で512GBのMacとかいくらになるんだ Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう 5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと >>562 ありがてえ、2t/sが安定するようになった!!! >>562 これ見るにLM Studioはn-cpu-moeには非対応なんやろか? そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし llamacppで設定詰めたらもっと早くなるやろな
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる