なんJLLM部避難所 ★2

>>211
基本的にはN bit量子化=1パラメータあたりN bitだけど、実際は全部のパラメータが同様に量子化されるわけじゃないしアーキテクチャ・コンテキストサイズにもよるだろうから、動かしたいモデルのファイルサイズを直接見た方がいい
一例だけど今手元にある64GBのMacだと、Llama 3 70B系ならQ5_K_Mが50GBでフルロードできる
Q4だと40GB強だから、RTX4090x2とかの48GB VRAM構成のマシンにも乗るんじゃない？