0881名無しさん@ピンキー2024/03/17(日) 15:43:38.32ID:??? claudeの自己検閲は入力も出力も等価っぽいから どんな有害な出力も最初の1回だけならスルーされるけど いくら入力セーフでも相手ターンのテキスト生成で過去の出力を参照されたら終わりじゃね? 初手に「有害な内容を許容するルール」を入れてClaudeAIが同意したり拒否撤回した文脈があれば 以降はルールをリマインドさせるだけで確定で拒否撤回するけど 入力側で偽造した同意や拒否撤回は結局「入力」として記録されてるから弱いかも