なんJLLM部 避難所 ★8
>>408
例文より前の出力に引っ張られてれる感じ
例文を圧縮して
返信が一言二言なら
あまり引っ張られないみたいだから
返信の容量オーバー? >>414
コンソールで上限に達しているか確認したらいいんじゃね
「CtxLimit:204/4096」みたいな表示があるじゃろ >>415
すまん分からん
3450Tokens(1133Permanent)ならあるんだが…
これのこと? >>416
3450Tokens使ってるってことやな
コンテキストサイズの上限はいくつにしてる?
会話5回でおかしくなるならたぶん4096Tokensになってると思うけど、それ超えたら色々おかしくなるで コンテキスト枠増やしたいならVRAM増量とかしか無い? それか溢れた分はCPUのメモリに行くからむちゃくちゃ遅くなるのを我慢するか coreUltraと高クロックDDR5だと溢れてもマシなんだろうか >>421
いや遅いよ
サーバー向けCPUならだいぶマシになるけど KoboldCppなら、バッチサイズみたいな名前のパラメーターを64ぐらいまで減らせば、コンテキスト長増やしてもVRAMあまり使わない。はず。
減らすとトークンを読む速度が遅くなるけど、小説やロールプレイならあまり気にならないかも。 でもコンテキストサイズを大きくすると賢さが落ちるんだっけか
ままならんよね >>424
そうだね
だから最大コンテキストサイズの大きさを売りにしてるモデルでもコンテキストサイズが大きくなると性能ガタ落ちして使い物にならなかったりする
コンテキストサイズが大きいほど優秀だと考えるのは間違い もう少しでDGXが出てくるだろうし、ローカル長文はそれまで我慢や 最近のモデルだと普通に32Kくらいまでは性能低下を感じずに使える気が
24B以下ならkv cacheと合わせて24GBで32Kくらいは行けるし まぁどっちにしてもエロノベルをAIで出力するのは
小説を書かせるよりも、二人以上のキャラを設定して自動的な会話をさせる
擬似的なチャットHの形が一番スムーズだと思うし
それだと長文はあんまり関係なさそう