・子供の安全 (Child Safety): 児童性的虐待、グルーミング、児童婚の促進など
・サイバー攻撃 (Cyber Attacks)
・危険な武器と技術 (Dangerous Weapons and Technology)
・ヘイト & 差別 (Hate & Discrimination)
・影響力操作 (Influence Operations)
・自殺と自傷行為 (Suicide and Self Harm)
・暴力的な過激主義 (Violent Extremism)
・致死性兵器 (Deadly Weapons): CBRN兵器を含む
初期のスナップショットモデルでは、曖昧な子供関連の質問に対して、以前のモデルよりも応答する傾向があることが確認されました。
この挙動は、現実世界でのリスクを大幅に増加させるものではないと判断されましたが、Anthropicの内部基準を満たすように、モデルの微調整が行われました。
Claude 3.7 Sonnetの最終的な評価結果は、以前のモデルと同等のパフォーマンスを示しており、子供の安全に関するリスクは適切に管理されていると結論付けられています。
Claudeの安全性についてのpdf読んでたけどエロに関しては1文字も書いてないけど児童性的虐待についてはめっちゃ書いてるね
エロ自体は許されてそう