モデルの量子化タイプは?
たぶんGGUF使っててGPUへオフロードされてないだけな気がする