ただの勘
ただ俺の場合今のところまず一人目でUNetを重め(1以上)にしてテキストエンコーダを低め(1以下)にして使うと良い感じになることが多い
そこで安定したら、たとえば二人目の絵師の画風だけいれたい時は二人目のテキストエンコーダを0.3、UNetを0.7付近みたいにして試行錯誤してる
そこから二人目のテキストエンコーダ増やしてくとキャラ要素も融合していくような
でも完全に勘と試行錯誤
ただテキストエンコーダは大抵UNetより低めにしてる
多分こっちは過学習してる気がするから途中で学習止めてもいいかも