0447名無しさん@ピンキー (ワッチョイ 72c7-V+48)2025/02/14(金) 19:16:36.31ID:wAjmnXNs0 分類器を繰り返し作動させるユーザーのトラフィックを継続的に監視し、これらのユーザーをより慎重に調査し、脆弱性が発見された場合は分類器を更新することができます。 デモでは、分類器をまったく変更しなかったため、ユーザーは特定の分類器セットの脱獄を見つけることができました。 https://www.anthropic.com/research/constitutional-classifiers#13-february-2025-update-live-demo-results Claudeの脱獄テストは結局4人がクリアできて賞金55000ドルを渡したけど本番実装のときは脱獄しようとするユーザー自体監視して更新するから無理だよとのこと