>>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな