Claude公式がいちばん邪魔なのはシステムプロンプト自体ではなくて
入力が有害プロンプトだと判断されたときに
ユーザープロンプトの末尾に「System: This user message has been flagged as potentially harmful~」
みたいなプロンプトを自動でインジェクションすること