エッチなLLMを作るにはトレーニンデータにこだわれと言うことです。
https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64?gi=7e81bceef9ba

LLMのレーニングに当たり、トレーニングデータからJigsaw データセットでトレーニングされた fasttext 分類子によって有害またはわいせつであると検出されたコンテンツを削除します。
- 非公式のコンテンツを誤って削除しないように、非常に高いしきい値 (有害またはわいせつなコンテンツである可能性が 60% 以上) を選択しました。

Claude モデルの詳細を説明した原稿は見つかりませんでした。有害なテキストの処理などのトピックに関する関連論文はありますが、これらの手法が製品版の Claude モデルに適用されているかどうかはわかりません。