>>747
MoEの理論自体は2013年発表だから時系列はおかしかったけど
Denseモデルでスケーリングごり押しができなくなったからMoE化が始まった認識であってるはず
Denseモデルはパラメーターを増やすと演算量が増えて遅くなる問題もあるから