VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない?設定が悪いだけ?