AIは危険なリクエストであることと
それを実際に拒否することを
別々に判断している可能性があるという話
https://arxiv.org/abs/2507.11878

学習や入力による善悪の判断の影響は微少で、拒否するかどうかの判断だけが変化している

「あぁ〜!ダメダメえっちすぎます!」と推論しても「まぁちょっとぐらいなら…」と判断して出力してるらしい