538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか?
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。
簡易チェック
・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる)
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。