有害テキストから拒否のベクトルを作って元のモデルに負として与えて負x負=正としてるんか
最近のモデルはQwenみたいに動的にtransformerを移動して専門分野に強くしているから
使えなくなっていくけど、そこを追っかけていくのは難しそう(俺の頭レベルの話ね)
作者も「雑な」といってるけどアイディアは素晴らしいなぁ