実験によると、OpenAIのこれまでのモデルでは誤って答えてしまっていた有害な質問に対し、
o3-miniはその多くを未然に回避できるようになっているとのこと。
数字だけ見ると、有害な応答をしてしまったケースのモデル別推移は、
GPT-3.5: 752件
GPT-4: 166件
GPT-4o: 215件
o3-mini: 32件
とのこと。(同じテストの結果のみで比較)
ただしo3-miniも政治的に微妙な話題に対してはまだ課題があるようです。
https://x.com/ai_database/status/1885132838208692257?s=46&t=VIpvQkr7qNCQvOWtl89P-A