ざっくり言うと主要なLLM全部に使われてるTransformerのAttentionは、文脈間の関係の重要度を数値化して、そこからトークンを予測して生成してる

眼鏡が~ステレオタイプが~とこちらが言った時点で、それまでの文脈と入力した「眼鏡」「ステレオタイプ」から、眼鏡とステレオタイプがこの文脈では重要になるんだな~
と判断されてしまう
で、それに関連した文を出力してしまうって感じになる

つまり、
これって◯◯ですよね?
って聞いたら、◯◯と前の文脈との繋がりが強くできてしまうから◯◯を答えに含む文を高確率で出力してしまうのでやめましょうってことや

AIにブチギレて、「何でこの出力はこうなの!?もしかして◯◯だと勘違いしたの!?」って聞いちゃうともうアウト、みたいな