なんJLLM部 避難所 ★10
レス数が950を超えています。1000を超えると書き込みができなくなります。
>>977
待てるならvramいっぱいにモデルを詰めていいし、そうでないならkvキャッシュ用に空けておくべき
モデルによってkv量子化だったりオフロードしなかった時の精度や速度が違うから試しながら調節してみ Kilinskiy/Step-3.5-Flash-Ablitirated
これ試してみるか
ところでabliratedとhereticってどっちが精度落ちないんかな? >>979
hereticはわりと新しい方式で精度良いはず
モデルカードの下の方に拒絶率と精度低下率が書いてあったりする heretic 8bitならメモリ256GあればギリいけるかもってAIに言われたが実際やってるニキいる?
あ、step3.5でね Q8はパラメータ数≒GBだから方式とか関係なく200Bなら乗るやろ 今ってQwen3-VL-235BとGLM4.6V以外に>100Bで日本語NSFWいけるVLMある? >>978
サンガツやで
これcontext長=kvキャッシュなんやろか
事前に確保するとVRAM量が増えるからkvキャッシュと思ったんやが会話が長くしたいなら12GB(model)+4GB(KVcache)
数回のやりとりで良いなら15GB(model)+1GB(KVcache)なんかなと思ったけど考え方はあってるやろか >>985
サンガツ4GB増えた分だけエロもどれだけ変わるかわからんがまだmugnum v4の8GBやわ
今は良いのが出てるかも知れんけどスレでnsfwで検索しても0件でワイむせび泣く エロに何を求めるかで話が全く違ってくるからな
セックスシーンさえあればいいならQwen235bとかの中華モデルでも脱獄すれば余裕で出るが
エロシーンの描写に厚みを持たせたいならGrokみたいな既知外学習したモデルを使うかプロンプトで補充するしかない
古臭い24B以下のモデルに固執するのは画像生成でSD1.5に固執するのと同じでスレ民の共感は得られないだろう >>987
いや、古いのに固執してなくて浦島なのでモデル何か無いかなと
nsfwで検索したら0件だったが本文じゃなくて名前欄で検索してたわ
と言うことで出てきたaratakoなどやってみるわ >>988
よっぽどのモノ好きしかLLMの日本語エロチューンなんかやらんからな
実質aratakoニキだけやないか
ワイはGrokがプンルーで無料Alphaやってた時にあらゆるエロシーンを100本以上抜いとるから
そのうち脱獄中華モデルでチャンク化してRAGに放り込むつもりや レス数が950を超えています。1000を超えると書き込みができなくなります。