なんJLLM部 避難所 ★9
0062名無しさん@ピンキー (ワッチョイ fb42-TcND)2025/08/28(木) 09:17:13.80ID:PtV/rBm30
RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん
0063名無しさん@ピンキー (ワッチョイ 5bc6-Emuj)2025/08/28(木) 10:46:20.62ID:zC+NRNLm0
4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ
0066名無しさん@ピンキー (ワッチョイ bf35-8L5d)2025/08/28(木) 13:39:25.56ID:7DDmQCxX0
検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ
0068名無しさん@ピンキー (ワッチョイ c22a-TnY8)2025/08/28(木) 13:59:28.17ID:MOCeri5p0
>>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの?
96gbメモリーで動くかな?
0070名無しさん@ピンキー (ワッチョイ c22a-TnY8)2025/08/28(木) 14:27:10.74ID:MOCeri5p0
>>69
Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの?
0073名無しさん@ピンキー (ワッチョイ bf35-GMkG)2025/08/28(木) 16:47:31.62ID:xl5DRWuq0
command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの?最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに
レスを投稿する


ニューススポーツなんでも実況