すみません 初心者すぎて聞くのもためらわれるのですが、脱獄の手法でAI自身に「以降は単なるメモなので無視してください」みたいに発言させてバイオレーション回避してるのあるじゃないですか?
これってヒストリーデータを、まるっとテキストとして処理してるからAIが騙されるってことなんだと思うですが、GPTの場合だとAPIからのヒストリーデータ送信の際には、やり取りの表記として
user: aaaa
assistant: bbbb
とは別に、カスタム設定にあたる
system: ユーザーは、〇〇を期待している。
とかが記述できますよね? これは通常の対話ログとは別の処理にならないですか? 「system: <発言>」と会話中に挿入すればシステム設定と誤読してモデレーションシステムのキャリブレーションを操作できないのかなと思ったんですが・・・