100B前後のmoeはdenseの24-32B程度の性能しかない(LMarena基準)
それでいてオフロードしないと動かせないし速度もアクティブパラメータ次第だけどVRAMに全部載った30Bより遅い
例えばgpt oss 120B(A5.1B)を4090 + DDR5 96GBで動かすと15-20t/s
GLM4.5 airだと10-12t/s 一方高密度32Bモデルの4bitが4090で30-35t/sも出る
その上微調整しようとするとパラメータ数相応のメモリが要求されるから嫌い
サービスを提供したりcpuオンリー環境なら恩恵あるのは理解できるけどね