0513名無しさん@ピンキー (ワッチョイ 4b00-3WT3)
2025/09/30(火) 01:14:40.06ID:z5KqAsk90近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか?
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの(エキスパート数とか)がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏