なんJLLM部 避難所 ★10
レス数が950を超えています。1000を超えると書き込みができなくなります。
単独で使うものではないんでは
アシスタントで使うかオーケストレーションで使うかでないの
Vide codingの時代から事前プランニングの時代に一気に変化しつつあるから、合否/採点が容易なタスクは全部切り出して安いコーディングLLMでループさせる形になりそう
SOTAモデルで採点カンストするまで回したカンストSkillsをGLMに使わせる、とかになるのかな コーディングは一度でもClaudeかCodexの手軽さを味わったらローカルに戻れないよ
ほんとに小さいスクリプト単位なら使用の余地はあるんだろうけど
ローカルがClaudeに追いつける日はくるのだろうか
中華LLM + openclawに期待するしかなさそう 安いので試してだめだったら高いの使う、という手間がもうめんどいので最初から高いやつ使うよね 誰か >>966にアドバイスしてクレメンス・・・
空きが無いと話がループして止まらないとかVRAMとモデル選択のバランスがようわからんのや >>977
待てるならvramいっぱいにモデルを詰めていいし、そうでないならkvキャッシュ用に空けておくべき
モデルによってkv量子化だったりオフロードしなかった時の精度や速度が違うから試しながら調節してみ Kilinskiy/Step-3.5-Flash-Ablitirated
これ試してみるか
ところでabliratedとhereticってどっちが精度落ちないんかな? >>979
hereticはわりと新しい方式で精度良いはず
モデルカードの下の方に拒絶率と精度低下率が書いてあったりする heretic 8bitならメモリ256GあればギリいけるかもってAIに言われたが実際やってるニキいる?
あ、step3.5でね Q8はパラメータ数≒GBだから方式とか関係なく200Bなら乗るやろ 今ってQwen3-VL-235BとGLM4.6V以外に>100Bで日本語NSFWいけるVLMある? >>978
サンガツやで
これcontext長=kvキャッシュなんやろか
事前に確保するとVRAM量が増えるからkvキャッシュと思ったんやが会話が長くしたいなら12GB(model)+4GB(KVcache)
数回のやりとりで良いなら15GB(model)+1GB(KVcache)なんかなと思ったけど考え方はあってるやろか レス数が950を超えています。1000を超えると書き込みができなくなります。