なんJLLM部 避難所 ★9
個人で中古B100持ってる人いたな
仕事でa100 4つ使った時は 超喜んでたなー
deepseek-r1とか軒並み大きな奴をロードできたし qwen3-nextはどっかの天才がllamacpp対応今頑張ってるから待つんやで qwen3nextもglmもMoEだから割とどうにでもなっちゃう
denseモデルをメインメモリ展開してたらまあまあキツいんだけど 最近はMoEモデルが増えたせいでGPUもだがメインRAM256GBだの384GB積めるXeonかスリッパが欲しくなる問題。デスクトップRyzenの限界近い192GBでもGLM4.5あたりだとQ3ぐらいまでが限界で >>814
Qwen3-Next-80B-A3BはぶっちゃけコアのA3BさえVRAMに収まってりゃそこそこの速度で動く。上の方でlammacppより先にQwen3-Next対応したfastllmで試したニキいるけどA3Bだけ置いてVRAM8GBも使わずに20tok/s出たって言ってたはず