なんJLLM部 避難所 ★9
command-a-03-2025とqwen3-235b-a22b
近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか?
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの(エキスパート数とか)がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏