>>622
SDのプロンプトは根本的にそういうことをやるのに向いてないのよね
人物を個別に認識するみたいな概念がないし
プロンプトに色々文章書いても内部的にはタグの羅列的なものに変換されて一列に処理されるから

すごい端折って動作を説明すると
右の人物はスカート、左の人物はズボン と書いたとして
スカートというタグを持つ絵、ズボンというタグを持つ絵、右の人物以下略、左以下略の学習情報を参照して
なんとなく1枚の絵をそれっぽく仕上げるということしかしてない

右の人物とプロンプトに書いても、画面の右にいる人物を表すんじゃなくて
「右の人物というタグを持つ絵の画面全体のピクセル情報」を参照するだけ