なんJLLM部 避難所 ★10
レス数が950を超えています。1000を超えると書き込みができなくなります。
Heretic-Qwen3-VL-235B-A22B-Instructいい感じなんだけど読点句読点とか鉤括弧がめちゃくちゃ多いのはモデルの特徴なんかな
いい感じに抑制したいけど適当に指示すると今度は全く使わないで文章書こうとしだすから難しい >>957
Qwen3 235Bはひと昔前のGeminiやClaudeに迫る性能だが
現行バージョンほどのプロンプト追従性は無いな
GeminiやClaude向けのRPプロンプトがまともに動くこともあればダメな時もある
Qwen3 Next 235Bが待たれる 俺のVRAM40GB環境では70B〜80BならギリVRAMに乗るが
235BはVRAM128GB級でないとVRAMに乗り切らない
⚙70B〜80B…チャット、リアルタイムアプリ
⚙235B〜…バッチ処理
と用途別に使い分けるのが現実解
MoEのエキスパート配置が賢くなればVRAM32GB以下でも235Bがサクサク動きそうだが現状では夢物語 見栄張んなよ
本当は8GBとかのグラボ使ってんだろw? >>962
しつこい奴やなぁ
s://files.catbox.moe/8qinpa.mp4 量子化のビット数小さくするのは元々パラメータ数小さいのとはまた違ったところが劣化する感覚があるんよな
パラメータ数小さいのはドジっ子なんだけど量子化で小さくしすぎると認知症みたいな
なんかうまく説明できないんだけど
コーディング用だとこの辺が結構聞いてくるんよなぁ
パラメータ数にかかわらずQ4はどのモデルもコーディングで使えない >>963
粘着質なやつに構うと調子乗るからほっといたほうがいいよ VRAM12GB+LM Studio(RAM96GB)環境で16GBに交換したんやが
モデルのサイズはVRAMに全部入る容量を選ぶべきか、gguf版で少しVRAMの空きを残した方が良いのかどっちなんやろか
会話のやり取りがそこそこ続くようならVRAMは数GB開けた方が良いんやろか
数回限りのやりとりならギリギリ15GBぐらいのモデルとかのほうが精度優先にしたほうが良い? >>964
パラメータ数小さいけど量子化ビット数は大きいモデルはアホの子なんだけどやってることは納得できるしガイドしてやればちゃんと仕事してくれるイメージ
QWEN3ぐらい小説書ける100B〜150BぐらいのMoEモデルがあればQ6とかでいい感じの文章をストレス無く書いてくれそうなんだけどなぁ レス数が950を超えています。1000を超えると書き込みができなくなります。