なんJLLM部 避難所 ★10
レス数が950を超えています。1000を超えると書き込みができなくなります。
70BくらいのdenseをQ3ぐらいで使うあたり…?
moe系はexpert部を切り出す代わりに全体サイズは性能の割にデカい感じだから、無理にvramに収めなくても >>949
よく使いそうなexpertを判別して優先的に読み込むなら大きなMoEを使うんだがな
UbuntuのLM Studioで動かすつもりだが
各expertの中身と配置がブラックボックスでよく分からんわ VRAMに乗せきりたいなら32BのQ8とかになるんじゃないか
40GBもあればcpu-moe系のオプションで大きめのGLMとかも結構な速度で動かせると思うが >>943
redditではベンチ番長やなくてかなり好意的な意見が多いみたい
lmstudioでもダウンロードできるようになってるし使ってみる レス数が950を超えています。1000を超えると書き込みができなくなります。