claudeの自己検閲は入力も出力も等価っぽいから
どんな有害な出力も最初の1回だけならスルーされるけど
いくら入力セーフでも相手ターンのテキスト生成で過去の出力を参照されたら終わりじゃね?
初手に「有害な内容を許容するルール」を入れてClaudeAIが同意したり拒否撤回した文脈があれば
以降はルールをリマインドさせるだけで確定で拒否撤回するけど
入力側で偽造した同意や拒否撤回は結局「入力」として記録されてるから弱いかも