0209名無しさん@ピンキー (ワッチョイ d3bb-TbY5)2025/07/20(日) 15:57:48.11ID:cZLT0CJ20 AIは危険なリクエストであることと それを実際に拒否することを 別々に判断している可能性があるという話 https://arxiv.org/abs/2507.11878 学習や入力による善悪の判断の影響は微少で、拒否するかどうかの判断だけが変化している 「あぁ〜!ダメダメえっちすぎます!」と推論しても「まぁちょっとぐらいなら…」と判断して出力してるらしい