なんJLLM部避難所 ★10

1002コメント393KB

なんJLLM部避難所 ★10

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:55:29.17ID:kt2SGedd0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0544名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/28(日) 23:55:04.62ID:KEZv6WoId

>>543
おめでとう
これでQwen3 235Bデビューできるな

0545名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/29(月) 00:56:52.09ID:OXDLX/Y60

>>538
いつもありがとうございます

ソフトとモデルをアップデートしたのですが
以前には一度も出なかった以下のエラーが出てしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed

ソフトの出力窓では
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

何か設定を間違っている感じでしょうか

他のモデルを使用しても以上のように停止してしまうので
困っております

0546名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/29(月) 01:03:03.91ID:IuqqNF7w0

>>533
その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる
>>534
選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ

0547名無しさん＠ピンキー (ﾜｯﾁｮｲ d2f7-lw50)

2025/12/29(月) 01:29:25.05ID:ewL055nu0

>>545
新規に環境を作り調査しましたが再現できませんでした

エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください

・koboldcppのアップデート（最新のkoboldcpp-1.104で動作確認しています）
・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001";のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる
・koboldcppを別フォルダで新規クローンしてみる

これでも問題が解決しない場合は再度状況を教えていただければ対応いたします

0548名無しさん＠ピンキー (ﾜｯﾁｮｲ d2f7-lw50)

2025/12/29(月) 02:08:15.28ID:ewL055nu0

>>547
× koboldcppを新規クーロン
〇 wannabeを新規クーロン
訂正します

0549名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/29(月) 12:43:26.33ID:OXDLX/Y60

>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作（起動させて「無限生成」）
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13（Win10 64bit）で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
（デフォルトから変えておりません）
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500

0550名無しさん＠ピンキー (ﾜｯﾁｮｲ d298-lw50)

2025/12/29(月) 20:37:33.61ID:ewL055nu0

>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか？
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001　が開けるか（5001は手元のport番号に合わせる）
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。

0551名無しさん＠ピンキー (ﾜｯﾁｮｲ be58-Xpyt)

2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0

3090(24GB)x2＋メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね

0552名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a24-wKEG)

2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0

>>551
何で動かしとるん？3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない

0553名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/30(火) 00:43:29.12ID:lvS6oXsJd

クソデカコンテキスト長でぶん回してるとか

0554名無しさん＠ピンキー (ﾜｯﾁｮｲ f432-ISUa)

2025/12/30(火) 01:43:28.56ID:I8us/ozu0

提示するべき情報がものすごく欠けてる

0555名無しさん＠ピンキー (ﾜｯﾁｮｲ 05ff-rRc0)

2025/12/30(火) 02:48:07.84ID:lMorHdVk0

>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)

0556名無しさん＠ピンキー (ﾜｯﾁｮｲ 05ff-rRc0)

2025/12/30(火) 02:48:43.08ID:lMorHdVk0

>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^

0557名無しさん＠ピンキー (ﾜｯﾁｮｲ f0a0-0Alr)

2025/12/30(火) 06:17:08.08ID:FRPgPKaW0

親の顔より見慣れたpythonエラー

0558名無しさん＠ピンキー (ﾜｯﾁｮｲ be58-Xpyt)

2025/12/30(火) 06:44:06.82ID:3A8Anhbj0

>>552
LM Studio
ソフトで差が出るもんなの？

0559名無しさん＠ピンキー (ｼｬﾁｰｸ 0C71-1aal)

2025/12/30(火) 07:52:10.94ID:RCh0/l2gC

>>558
cuda使ってないとか？

0560名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/30(火) 08:09:46.00ID:UqaFaSWG0

価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円　
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き？
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい？
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ？

0561名無しさん＠ピンキー (ﾜｯﾁｮｲ d20e-lw50)

2025/12/30(火) 09:44:29.57ID:Xq3KgeF30

>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し（トークンカウント）を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。

0562名無しさん＠ピンキー (ﾜｯﾁｮｲ dac7-CKxx)

2025/12/30(火) 11:01:58.47ID:XOEiLvuB0

>>558
LM Studioの設定どうなってる？

Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ
コンテキストサイズやCPUスレッド数はお任せ

画像は別MoEモデルの設定ね
https://i.imgur.com/jd8G4zK.png

0563名無しさん＠ピンキー (ｵｯﾍﾟｹ Srd3-UjAx)

2025/12/30(火) 11:08:46.67ID:PDgBbkB5r

8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような

0564名無しさん＠ピンキー (ﾜｯﾁｮｲ 6aac-Ls7H)

2025/12/30(火) 11:22:17.42ID:UqaFaSWG0

>>563
5090　だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない？
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか？
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする

0565名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f58-Ls7H)

2025/12/30(火) 11:34:48.37ID:bvNvqdUb0

VRAM128GBとメインメモリ128GBあれば大抵のことはできる

0566名無しさん＠ピンキー (ﾜｯﾁｮｲ 8294-mqrN)

2025/12/30(火) 11:40:11.78ID:L/CH3/cp0

パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから

0567名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ea4-JWG4)

2025/12/30(火) 12:00:05.85ID:xVlh2pWI0

ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる

0568名無しさん＠ピンキー (ﾜｯﾁｮｲ 8cb9-7+Bn)

2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0

画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない

0569名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/30(火) 14:31:49.12ID:+JjZad5E0

>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました

0570名無しさん＠ピンキー (ﾜｯﾁｮｲ deed-pQ3g)

2025/12/30(火) 18:56:05.42ID:MMydUQFK0

>>538
わーい新しいモデルだー

0571名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/30(火) 19:32:46.75ID:UqaFaSWG0

>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない？
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない？
AIさんに騙されたか・・・？

0572名無しさん＠ピンキー (ﾜｯﾁｮｲ 8294-mqrN)

2025/12/30(火) 20:20:30.60ID:L/CH3/cp0

5060tiのメモリ帯域はそこまで速くないからなぁ…

0573名無しさん＠ピンキー (ﾜｯﾁｮｲ be32-0Alr)

2025/12/30(火) 20:22:28.90ID:0XYEbhmH0

画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする

0574名無しさん＠ピンキー (ﾜｯﾁｮｲ b62c-JCzX)

2025/12/30(火) 20:48:09.93ID:MsEm9Rga0

Macストゥーディオが最強？

0575名無しさん＠ピンキー (ﾜｯﾁｮｲ dac7-CKxx)

2025/12/30(火) 22:03:27.51ID:XOEiLvuB0

LLM用途しかしないなら、Mac Studio（512GB）が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも？
そのメモリが高いんだよな

0576名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-J4pl)

2025/12/30(火) 22:27:13.74ID:HNChQwMA0

以前なら150万あったらxeonでメモリ1tb載せられた・・・
今じゃ多分無理やろが

0577名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a27-0Alr)

2025/12/30(火) 23:35:00.13ID:TYTWQT260

今の状況で512GBのMacとかいくらになるんだ
Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう

0578名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/31(水) 00:24:14.44ID:nATPkOzl0

5060Ti の帯域が狭いなら5070 Tiとか？これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ？以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと

0579名無しさん＠ピンキー (ﾜｯﾁｮｲ be97-Xpyt)

2025/12/31(水) 01:19:09.77ID:+SOP+Ib10

>>562

ありがてえ、2t/sが安定するようになった！！！

0580名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 01:50:43.20ID:91X6WRME0

>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか？
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな

0581名無しさん＠ピンキー (ｱｳｱｳ Saee-Rr0y)

2025/12/31(水) 06:27:46.73ID:tbNiHYoda

>>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう

>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな

0582名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ec3-rwlK)

2025/12/31(水) 07:42:31.92ID:7HEfMKtn0

>>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み

0583名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/31(水) 08:21:26.45ID:nATPkOzl0

>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ？
5090　1枚(32GB)　15tk/s
5070Ti　2枚(32GB)　??tk/s
5070Ti　4枚(64GB)　??tk/s
5060Ti　2枚(32GB)　??tk/s
5060Ti　8枚(128GB)　??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか？

0584名無しさん＠ピンキー (ﾜｯﾁｮｲ c832-0Alr)

2025/12/31(水) 10:00:57.10ID:kLh2qJj50

macは初速は速いけどコンテキストが大きくなってくると生成前処理が致命的に遅くなる

0585名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 11:13:45.23ID:A5W68e4G0

gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど（ddr5なら24は出るらしい）
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう

0586名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ec3-rwlK)

2025/12/31(水) 11:41:48.05ID:7HEfMKtn0

PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど

0587名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 11:46:28.67ID:A5W68e4G0

あと5090単体でも15 tpsは低すぎるし設定ミスってそう

0588名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 13:19:34.11ID:91X6WRME0

今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん

0589名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 14:23:46.13ID:91X6WRME0

ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・

0590名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 15:11:50.24ID:A5W68e4G0

最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ

0591名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 15:19:32.10ID:A5W68e4G0

5090なら30前後出るのかな

0592名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 16:14:14.55ID:91X6WRME0

5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか

0593名無しさん＠ピンキー (ﾜｯﾁｮｲ d21e-lw50)

2025/12/31(水) 17:28:14.16ID:PyLi1INM0

5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない？
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも（それでも今度はVRAMの帯域幅に律速されそうだけど）

0594名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 17:39:18.02ID:91X6WRME0

全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって

0595名無しさん＠ピンキー (ﾜｯﾁｮｲ b16a-h4RS)

2025/12/31(水) 18:19:51.36ID:/BUKgy7e0

お年玉で買うか

0596名無しさん＠ピンキー (ﾜｯﾁｮｲ 8204-mqrN)

2025/12/31(水) 20:12:38.30ID:A5W68e4G0

>>592
このモデルとb7588で再度試してみたけど自分の環境（5060ti）ではggml-org版と変わらないな（17.5 tps）
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも？
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる

0597名無しさん＠ピンキー (ﾜｯﾁｮｲ b6aa-JCzX)

2025/12/31(水) 21:14:09.72ID:x14xJQ6r0

来年はPRO6000が人権になりそうなヨカーン

0598名無しさん＠ピンキー (ﾜｯﾁｮｲ 6026-8aJk)

2026/01/01(木) 00:11:20.20ID:qmZ8t7yU0

gpt-oss-120bをVRAM16GB,メモリ64GBだと落ちる寸前だな
llama-serverでmlock有効にしたらOSがフリーズした
誰か動かしてる人いたらおすすめ設定教えてほしい。

0599名無しさん＠ピンキー (ﾜｯﾁｮｲ cde6-rRc0)

2026/01/01(木) 01:16:26.90ID:Bw6OLNUN0

これ眺めてたら年が明けてた。
https://a.co/d/0ZZtzUq

0600名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2026/01/01(木) 02:28:57.50ID:tPQVzZIN0

>>597
5090がどんどん値上がりしてPRO6000は値下がり傾向、本当のPRO6000がそれなりに当たり前になりそうな気がする
というかVRAMだけで考えたら、RTX 5080 16GBと比べてもかなり安いんだな

0601名無しさん＠ピンキー (ﾜｯﾁｮｲ 8cf9-7+Bn)

2026/01/01(木) 15:28:04.58ID:sW23ZJg40

VRAM72GBのpro5000も年明け出荷のようだし、geforce多枚積みよりはこっちの方が筋いいわな

0602名無しさん＠ピンキー (ﾜｯﾁｮｲ 054d-rRc0)

2026/01/01(木) 17:06:24.32ID:yiGiu09J0

あけましておめでとうございます本年もよろしくお願いします

>>561
遅くなりましたが555です、対応ありがとうございました
こちらでも更新後に正しく動作することを確認できました

0603名無しさん＠ピンキー (ﾜｯﾁｮｲ 0c32-0Alr)

2026/01/01(木) 18:20:55.47ID:I/cFx9fd0

RTX 5090は5,000ドル（約78万円）に値上げする見通しとか
値上げする情報はあったけど、ここまでとはな
ローカルAIは富豪の遊びに…

0604名無しさん＠ピンキー (ﾜｯﾁｮｲ c8f2-TEn3)

2026/01/01(木) 18:39:39.27ID:HG9AhdXC0

VLM動かせる環境作ったからQwen3-VL-235B使ってみた
そもそも認識しないんじゃないかと思ってたけど、NSFWでも思ったよりずっとしっかりしたキャプション生成できるな
https://i.imgur.com/n74THhW.jpeg

0605名無しさん＠ピンキー (ﾜｯﾁｮｲ e425-zwe1)

2026/01/01(木) 19:00:37.57ID:JXtujbxB0

グラボの値上げえぐすぎるだろ
これとてもじゃないけど今後はローカルとか無理だな

0606名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2026/01/01(木) 19:55:39.84ID:nmom1P530

>>604
NSFWの単語を知らないだけで説明はしてくれようとするんやな
世のエロ画像を日本語/英語で説明させてその説明文とdanbooruタグを画像と一緒に学習させたら
画像生成のプロンプトが楽になりそうやが
noobとかがやってくれへんかなぁ

0607名無しさん＠ピンキー (ﾜｯﾁｮｲ c8f2-TEn3)

2026/01/01(木) 20:20:27.04ID:HG9AhdXC0

別の画像でプロンプト生成も試してみたよ
https://i.imgur.com/oxa760r.jpeg

0608名無しさん＠ピンキー (ﾜｯﾁｮｲ 60c6-VauC)

2026/01/01(木) 20:28:33.20ID:eafDW5qb0

横からだけど厳密にテストしたわけじゃないけどQwen系はパラ数デカい方が規制緩くて小さい方が厳しい感じだったな

あとエロ画像解説させるときはシスプロに脱獄文入れて画像と一緒にわたすプロンプトで「外性器はチンポ|マンコなど下品な単語で解説してください」みたいに誘導すると普通にそっち系の単語で解説してくれた思い出

0609名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2026/01/02(金) 00:31:40.16ID:lg8LYbH90

LGAI-EXAONE/K-EXAONE-236B-A23BっていうLG製？のモデルが出てるけど
redditで英語の性能があまりよくないって言われとった
英語がダメなら日本語はもっとダメかな

0610名無しさん＠ピンキー (ﾜｯﾁｮｲ f432-ISUa)

2026/01/02(金) 01:15:55.90ID:WzDzorax0

どうだろ
もし韓国語強いんだったら日本語もやれるかベースとして優れてそう

0611名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a27-CT96)

2026/01/02(金) 02:53:06.16ID:3mSEkiwD0

韓国語って元々漢字ベースだったものをハングルに置き換えたせいで同音異義語を文脈からしか区別出来んからLLMモデルしんどそうだな
日本語で例えるなら全てひらがな表記してる感じ

0612名無しさん＠ピンキー (ﾜｯﾁｮｲ 64a4-pPj3)

2026/01/02(金) 17:48:10.31ID:Bs4w2jCI0

GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10％くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。

0613名無しさん＠ピンキー (ﾜｯﾁｮｲ 8d32-0Alr)

2026/01/02(金) 22:10:13.64ID:vQ0kRUWW0

>>612
おお、 linuxの方が倍以上速いのか
デュアルブートするかな

0614名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-G60N)

2026/01/03(土) 00:00:04.93ID:R/4j/QQl0

倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから
それで遅くなってるんじゃないかという気はするやね

「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから
VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん
Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが

0615名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fe2-jodm)

2026/01/03(土) 02:51:05.90ID:+mDimtcp0

ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ…

0616名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/03(土) 02:53:51.85ID:J7LBWIU7d

>>615
LLMはVRAMが全てや
GPUは大半の時間遊んどる

0617名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-cp7k)

2026/01/03(土) 14:44:20.79ID:pqPKct+O0

>>612
ええ感じやん
9950Xの性能を最大限に活かせてるんやろか
自分も試してみた

【環境】
RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB)
GLM-4.6 Q4_K_XL

【結果】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
モデルが若干違うのとthreadsが16なの以外は設定が同じ

ちなみに--threads 24だと性能落ちた
自分は16が最速みたいだ
612氏は9950X（16コア）で24スレッド指定してるけど、これで性能出るんやろか？

性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな
STREAM Triadで測ったら67.7～92.8GB/sだった
612氏はどのくらい出てるんやろ

0618名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fc8-G60N)

2026/01/03(土) 14:45:51.45ID:y/a807Sx0

>>617
おっそｗ

0619名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/03(土) 15:24:44.11ID:7OLtAZpJC

>>612
そのスペックでwinのkoboldcppで走らせたら何t/sになりますか？

0620名無しさん＠ピンキー (ﾜｯﾁｮｲ a365-CIFB)

2026/01/03(土) 20:17:34.07ID:tTz+GjqB0

>>619
いま試してきたんだけど、0.92token/sだった・・
linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。
>>617
AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう！

win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。
あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。

0621名無しさん＠ピンキー (ﾜｯﾁｮｲ a365-CIFB)

2026/01/03(土) 20:38:22.32ID:tTz+GjqB0

Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。
linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。

0622名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-cp7k)

2026/01/04(日) 00:08:06.49ID:cRfBjXQy0

>>620
情報ありがとう！
threads 16で速くなってよかったわ

こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw
どの変更が影響したか分からん・・・
NUMA(NPS)の設定やろか？

【変更前】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s

【変更後】
Windows llama.cpp: 4.13 t/s（誤差範囲）
WSL2 llama.cpp: 4.16 t/s（+12%）
WSL2 KoboldCpp: 4.22 t/s（+19%）

結果KoboldCppが最速になったw

UseMMAP設定有無の差はあまりなかったわ
WSLで動かしてるからやろけど残念！
612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ

0623名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-G60N)

2026/01/04(日) 01:05:58.84ID:aBYly05e0

>>620
むむ、なんか差が大きいですね
自分はryzen7 ですが、koboldcppでQ5ｋで2t/sは出てたんで、なにか設定が違うのかも
まあ、linuxで4t/sでるなら、そっちの方がよさげですが

0624名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-Qlgp)

2026/01/04(日) 03:12:40.77ID:Oqc8Dmk70

grok先生がエロで責められてる
許せんな、みんなgrok先生を守れ

0625名無しさん＠ピンキー (ﾜｯﾁｮｲ 5353-jodm)

2026/01/04(日) 03:21:25.97ID:XgRf4dfR0

ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ

文章なら性能高い分エロいのもかなり出るけど

0626名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 13:34:35.36ID:iSIu2MWH0

今日からLM　Studioやってみてるのですが
自分のPCのスペックがryzen7700x 4070TiS メモリ96GB（今すぐ192GBには増設可能）
これで使える範囲のモデルでおすすめなのってありますかね？
どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル
使えるというのなら増設します

0627名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/04(日) 14:14:35.31ID:3JM0FBpmd

>>626
増設一択

0628名無しさん＠ピンキー (ﾜｯﾁｮｲ 13cb-jodm)

2026/01/04(日) 15:01:25.08ID:LsUrLGD80

メモリなんて上がる一方だから増設できるなら今増設しない手段は無いわ

0629名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/04(日) 15:14:13.20ID:D6qgrbiFC

色々試したが結局magnum v4 123b Q8_0から離れられないワイ
いままでQ3_Mの0.17t/sで耐えてたから0.42t/sでもウハウハやわw

0630名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 15:25:27.20ID:iSIu2MWH0

やはり増設ですか
でもDDR5なので4枚差すと速度が3600まで落ちるみたいで
そこらへんDDR5の4枚差しの人はどうしてるのか気になります

0631名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/04(日) 15:26:46.87ID:3JM0FBpmd

>>630
気にすんな
メモリは量が正義

0632名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/04(日) 15:53:55.73ID:D6qgrbiFC

>>630
それデフォ設定
biosでメモリ設定をxmpとかexpoとかにすればワイのは5600になった

0633名無しさん＠ピンキー (ﾜｯﾁｮｲ ef71-ylKL)

2026/01/04(日) 16:05:10.51ID:Qfkjgd5M0

DDR5の4枚はbiosアプデしなかったら起動すらしなかったんで気軽にやろうとしてたから少しビビった
それでも最終的に定格より上で安定したから3600は超えるんじゃないかな

0634名無しさん＠ピンキー (ﾜｯﾁｮｲ 4345-PPr4)

2026/01/04(日) 16:10:48.56ID:VDaryEyS0

MBやメモリのの当たり外れによるけど、4枚が同じモデルであること前提で
運が良ければ5600、悪ければ5200、最悪それ以下覚悟しとけって感じかな。

0635名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 17:09:28.51ID:iSIu2MWH0

去年なんJNVA部スレの方でDDR5の4枚をデフォの3600で使わず5600で使ってたら
CPUが壊れたというレスがあったからメモリコントローラーが焼けたのか知らないけどちょっと怖いなと思ってましたが
結構みなさん上げて使ってるんですね

0636名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 17:18:35.21ID:iSIu2MWH0

まだメモリ増設はしてませんが、とりあえず試しに
Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-MXFP4_MOE-GGUF
というモデルをダウンロードしてやってみたら6.92t/sでした
どうやらmoeモデルみたいなので
>>562
の説明通りにGPUオフロードを最大にしてweights onto CPUにチェックを入れたら
20.32t/sになりました

ローカルLLMはこれが初めてですがこれは感動ですね
楽しい！

0637名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-5PTw)

2026/01/05(月) 01:01:13.59ID:AY2PQGe10

オーバークロックはアホのやることだよ
数%の性能向上のために壊す可能性ある行為やるとかアホやん
その為に専用の冷却装置か買い足したりね
そんなら初めからワンランク上のPCパーツ揃えとけって話よ

0638名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/05(月) 05:47:48.80ID:hyRe348w0

まーオーバークロックってのは、出るかもしれない運転だからね、パッケージに書かれているのは最低保証クロック数で
本当のクロック数は個体ごと違う、シリコンウエハーの円盤のどこの部分かで性能が変わるみたいだけど

0639名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/05(月) 08:24:54.88ID:DLBv23jd0

moe系みたいにメインメモリ上でガッツリ回す用途にはメモリクロックさえ上げてりゃ効くから、レイテンシほぼ縮んでないJEDECネイティブ高クロックが珍しく効果を発揮する
これは比較的簡単で安全だから狙いたい

その他大半の一般用途ではネイティブやらxmp適用ぐらいじゃ意味ない

0640名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-fu7G)

2026/01/05(月) 13:20:51.95ID:B1AyZrAl0

>>639
確かにmoeは5600運用の方が若干速いね
denseだと差は感じられなかった
まあ安全のため3600運用にしときます

0641名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/05(月) 16:36:48.30ID:hyRe348w0

Grok先生が叩かれているせいで、GPTのエロ解禁がまた伸びそうじゃね

というかアルトマンが工作してるんじゃね

0642名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7e-H3VG)

2026/01/05(月) 16:50:30.89ID:4Qh9w+dX0

>>630
PC組立サービス込みでショップにまるっとお願いしたら
4枚刺しで3600に落ちるのは忍びないから5600で動作確認しておくからその設定で使ってくれって言われたな…

0643名無しさん＠ピンキー (ﾜｯﾁｮｲ 5337-wT+6)

2026/01/05(月) 17:57:30.50ID:cRoZWwY20

オーバークロックって言っても電圧上げない限り物理的に壊れることなんてほぼないよ」

■ このスレッドは過去ログ倉庫に格納されています