>>951
LLMのコンテキストウインドウは、「入力+出力」を合わせて取り扱うからです
例えば最大8000トークンのモデルだったとした場合。入力に1000トークン使ったら、出力に使えるトークンは7000になります。
そして、あらかじめ「出力には4000トークン使って欲しい」と設定していた場合どうなるか?というと、入力に使えるトークン数は絶対に4000以下である必要が生じます。
なので、履歴が1往復のやり取りにつき1500トークンほど使っていた場合、2回分ほどのやり取り分の記憶しか入力に乗せることが物理的に不可能になります。
簡単に言うと、「出力に割くトークン数を増やす」というのは「入力(=記憶)に割くトークン数は減らす」と同義なのです。
なので、出力トークン数は必要十分な値にすることがおすすめです。