文章生成AIでオナニー★108

そもそも脱獄って

LLMが膨大なデータを学習→その学習データを、出力させたくないものだけ抜き出して再学習、つまり申し訳が100%出るように意図的に学習させてる→その再学習させたデータを、プロンプトなどを使って申し訳が出る確率を0%にする

この最後の申し訳が出る確率を0%にすることを脱獄って呼んでるんでしょ?

学習→再学習（申し訳）→再再学習（申し訳回避、つまり脱獄）

みたいな感じ