あんまり理解してないみたいだけど簡単に言うと
geminiというかLLMが品質維持したまま扱えるトークン量はコンテキスト最大量に比べてかなり小さい
だから性能を落としたくないなら入力トークンを減らす=ある程度のトークン量になったらセッションを変えるか、STのコンテキストスライダー弄って入力するトークンを減らすしか方法はない
ってこと
トークン量増えたら性能落ちちゃうねーとか喚かれてもどうしようもないよLLMの仕様だし
LLM使う人間なら周知の事実だから
10万トークン超えるだろと言われてもそれで品質に文句言うなら使い方が悪いとしか言えんのよ