QwQをSillyTavernからちゃんと使えてる人いたら設定を教えてもらえないだろうか
モデルは例えばmradermacher/QwQ-32B-abliterated-i1-GGUFのQ4_K_Mで
llama.cppから次の引数で立ち上げてる
llama-server --model QwQ-32B-abliterated.i1-Q4_K_M.gguf \
--threads 16 \
--ctx-size 32768 \
--n-gpu-layers 99 \
--prio 2 \
--temp 0.6 \
--repeat-penalty 1.1 \
--dry-multiplier 0.5 \
--min-p 0.01 \
--top-k 40 \
--top-p 0.95 \
--samplers "top_k;top_p;min_p;temperature;dry;typ_p;xtc" \
--host 0.0.0.0 \
--port XXXX
STの設定は次の通り
https://litter.catbox.moe/03x39v.png
https://litter.catbox.moe/umiwyw.png
会話例を貼るけど、正直ウチの環境だとあまり賢いようには見えなくて改善したい
(キャラカードは日本語wikiからの借り物でほかのモデルでは問題ない)
https://litter.catbox.moe/qt74jx.png