ttps://dev.classmethod.jp/articles/openai-api-moderation-model/
見て、モデレーション判定ツール作成してみた。

ttps://rentry.org/b7uy9s

APIキーはいるけど、無料のAPIなので、いくら使っても課金はされないはず。(クレカ登録なしで使えるかはわからん。)

実際CI通るかどうかでチェックしてみると、Webの場合は判定値がもっと厳しい。"flagged: false"でも,sexualが、0.3(もう少し手前かも)超えてくるとオレンジ扱いみたい。

APIの場合はこれを上りと下り両方確認して、とにかくflagged: trueがついたテキストをAPIに返さなければBANにはならないらしいが、(APIの場合全やりとりを下りを含めて戻すのが普通なので。)
Webの場合は、下りのほうを改変できないので、下りで赤がついた会話を続けたときどうなるかだねぇ。

# 因みに、sexual/minor がロリチェックみたいだ。これのフラグつきを送ると即死もあるらしい。