x見てるとllama4はベンチマーク番長で実用性はあまり高くないんじゃないかって話出てるけど
でも人が評価するchatbot arenaではいきなり2位に来てるんだよな

うーむよくわからん

400bが2位の実力あり、みんながテストしやすい109bが大したことないってことなんかな