7Bモデルだと量子化無しなら14GBくらいのサイズだからVRAMに乗り切ってないよ
GGUFの方で8bit以下の量子化モデルなら高速に生成できるはず