一応マジレスすると過去の文脈も踏まえて4K、8Kトークンも処理するGPTが
1回ぶんの回答を半分くらいに短縮してもろくな負荷軽減にならん
「近似的手法を用いて時間を短縮する」ためにはモデルを変更する必要がある
ローカルレベルのモデルに関する説明を強引にGPTに関する説明っぽく誘導して答えさせているネタ