なんJLLM部 避難所 ★10
GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10%くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。 >>612
おお、 linuxの方が倍以上速いのか
デュアルブートするかな 倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから
それで遅くなってるんじゃないかという気はするやね
「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから
VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん
Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ… >>615
LLMはVRAMが全てや
GPUは大半の時間遊んどる >>612
ええ感じやん
9950Xの性能を最大限に活かせてるんやろか
自分も試してみた
【環境】
RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB)
GLM-4.6 Q4_K_XL
【結果】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
モデルが若干違うのとthreadsが16なの以外は設定が同じ
ちなみに--threads 24だと性能落ちた
自分は16が最速みたいだ
612氏は9950X(16コア)で24スレッド指定してるけど、これで性能出るんやろか?
性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな
STREAM Triadで測ったら67.7〜92.8GB/sだった
612氏はどのくらい出てるんやろ >>612
そのスペックでwinのkoboldcppで走らせたら何t/sになりますか? >>619
いま試してきたんだけど、0.92token/sだった・・
linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。
>>617
AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう!
win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。
あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。 Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。
linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。 >>620
情報ありがとう!
threads 16で速くなってよかったわ
こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw
どの変更が影響したか分からん・・・
NUMA(NPS)の設定やろか?
【変更前】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
【変更後】
Windows llama.cpp: 4.13 t/s(誤差範囲)
WSL2 llama.cpp: 4.16 t/s(+12%)
WSL2 KoboldCpp: 4.22 t/s(+19%)
結果KoboldCppが最速になったw
UseMMAP設定有無の差はあまりなかったわ
WSLで動かしてるからやろけど残念!
612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ >>620
むむ、なんか差が大きいですね
自分はryzen7 ですが、koboldcppでQ5kで2t/sは出てたんで、なにか設定が違うのかも
まあ、linuxで4t/sでるなら、そっちの方がよさげですが grok先生がエロで責められてる
許せんな、みんなgrok先生を守れ ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ
文章なら性能高い分エロいのもかなり出るけど 今日からLM Studioやってみてるのですが
自分のPCのスペックがryzen7700x 4070TiS メモリ96GB(今すぐ192GBには増設可能)
これで使える範囲のモデルでおすすめなのってありますかね?
どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル
使えるというのなら増設します