自然言語を解さないモデルは左右すら分からないので対物の認識も怪しい
欲しい構図が決まってるならi2iでズバッとやるのがいいと思う
プロンプトだけでチマチマやるとするなら
モノに向かって手を伸ばすというより
ポーズの先にモノがある構図を作るのが簡単なのでは
reaching は手前か上に手を伸ばすので
perspective と組み合わせるとそれっぽいのが作れる
https://tadaup.jp/BbM3R5SQ.png
https://tadaup.jp/BfqJQ801.png
https://tadaup.jp/BZwK1UtP.png
あるいは hand on や imminent ◯◯ で擬似的にそう見える絵を作るとか
https://tadaup.jp/BXTOebgF.png
https://tadaup.jp/BcxW9C62.png