>>977
待てるならvramいっぱいにモデルを詰めていいし、そうでないならkvキャッシュ用に空けておくべき
モデルによってkv量子化だったりオフロードしなかった時の精度や速度が違うから試しながら調節してみ