ローダーをllama.cppにしてn-gpu-layersの値をVRAMから溢れない程度に設定してみたら?
それかOllamaをバックエンドにしちゃうとか