>>762
非同意に限らず長くなればなるほど申し訳率が上がるのは普通だと思う
長くなるとコンテクストに占めるjailbreakの比重はどうしたって小さくなるから
モデル本来の挙動に近付いていくはず
ChatGPTにとってはエロ文章の次のトークンは「申し訳ありませんが」になるのが普通の予測であって
jailbreakはそこにユーザーに都合のいいバイアスを掛けてるだけだから