qwen3nextもglmもMoEだから割とどうにでもなっちゃう
denseモデルをメインメモリ展開してたらまあまあキツいんだけど