なんJLLM部 避難所 ★10
5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが
llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか 5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない?
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど) 全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって >>592
このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps)
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも?
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる