文章の構成要素をパーツとしてそのまま拾うのではなく、文章を内部で変換して出来た要素に対して反応するのだと解釈した(エンコーダが〜って言ってるので)
deepLとかで変換した英文をそのまま貼ってもそれなりに文章に寄せた絵を吐き出してくれるのでそういうことかと

>>186
乙です
調べて試してみます