1.58bitってそれなりに精度は犠牲になるけど、それ以上に行列計算がなくなることによる
演算量削減というメリットの方が圧倒的にでかいって手法なんだと思ってる
だからむしろでかいモデルのほうが効果あるんやないかなぁ
あくまでワイの考えやが

DeepseekR1がそのいい例やないかと