ようやくテスト回せた。おそらくわかりやすい例になるだろうと思って初音ミクでテスト。
結果的にはもう少し多めのデータと教育ステップは要りそうだけど、Text inversionよりは結果に影響を与えそうで
二次創作レベルなら安易に作れそうという所感

入力に使った画像:512x512が4枚、1024x1024が1枚
https://i.imgur.com/OiejdFJ.png

600Step後のモデルを使った結果

"photo of sks girl, digital painting" のみの結果
https://i.imgur.com/hEa7Iqr.png

extremely detailed sks girl at the comic market, bishoujo (sks) cosplayer wearing sks clothes ・・・みたいな形で髪型や色、服装に他の指定は入れていない結果
https://i.imgur.com/JvWdMqs.png