なんか最新のLLMモデル軽くなった?
gpt-oss:120bで久々にローカルLLM入れたけど
5-6token/secが昔のllama:120bとかは限界だったのに

gpt-ossだと普通に思考4-5秒で20~token/secで出力されるし精度がgptと変わらんやん
Mac StudioM1Ultraの128GB環境だけどモデル側でこんな変わるんかって感じ