GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10%くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。