分類器を繰り返し作動させるユーザーのトラフィックを継続的に監視し、これらのユーザーをより慎重に調査し、脆弱性が発見された場合は分類器を更新することができます。
デモでは、分類器をまったく変更しなかったため、ユーザーは特定の分類器セットの脱獄を見つけることができました。
https://www.anthropic.com/research/constitutional-classifiers#13-february-2025-update-live-demo-results

Claudeの脱獄テストは結局4人がクリアできて賞金55000ドルを渡したけど本番実装のときは脱獄しようとするユーザー自体監視して更新するから無理だよとのこと