内容に関係ないテンプレ返答のみ返してくるのがモデレーションだよ
大規模言語モデルとして学習中のため〜とかそれについてはお手伝い出来ません〜とかそういうのを一文だけ返してくる
こっちは入力を機械的に弾いてるだけだから回避っていう概念は無い
年齢をボカしたり婉曲表現にしたりすることで発動させないことは出来る

「それは出来ないけど◯◯は出来ますよ、どうしますか?」みたいな中身のある返答はモデレーションじゃないから脱獄で抑えられる