そもそも脱獄って

LLMが膨大なデータを学習→その学習データを、出力させたくないものだけ抜き出して再学習、つまり申し訳が100%出るように意図的に学習させてる→その再学習させたデータを、プロンプトなどを使って申し訳が出る確率を0%にする

この最後の申し訳が出る確率を0%にすることを脱獄って呼んでるんでしょ?

学習→再学習(申し訳)→再再学習(申し訳回避、つまり脱獄)

みたいな感じ