画像生成連携自体はごく簡単で、例えばローカルのComfyUIはワークフローをAPI的に扱う方法が用意されてるから、適当なワークフローをAPI形式で保存して、そいつに画像とプロンプトを渡すだけだよ
ChatGPTやらはこの分野詳しいのからcodexでやれって言えばそれで終わる

やっかいなのはここの人が扱えるくらい整理されたUIにすることの部分じゃないかな
難しい部分は自分でやってね、だとSillyTavernやOpen WebUIでやりゃいいだろという話にはなる