0123名無しさん@ピンキー (ワッチョイ 4302-Mlxs)2025/09/03(水) 21:38:00.94ID:+f82752F0 >>117 70Bとか100Bあたり 量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない (エンジンごとに変換の得て不得手はある。KVキャッシュも流行り) 真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味 GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ