なんJLLM部 避難所 ★9
RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん 4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ やっぱりアクティブパラメータ漏れて遅くなるんやねぇサンガツ
Airの高量子化とかにメモリ増設の価値はあるんやろか…… 検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ >>64
63だけどAirのQ4_K_Mなら5トークン/s前後だったよ
ローカルで動画生成とかもするならメモリ増設の価値はあるかも >>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの?
96gbメモリーで動くかな? >>68
96GならQ5_k_mかな
Q6_kはギリギリいけるかどうか
2ファイル落としてcmdで結合させて読み込む >>69
Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの? >>70
あ ごめん 複数って書こうとして間違えた
連番全部ね >>70
あれ?
見てるとこ違うかな
mradermacher/command-a-reasoning-08-2025-GGUF
こっちなら2ファイルですむで command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの?最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに