5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか