ウザ絡みぽくなってごめんな。付き合ってくれてありがとう。
「学習元の大半が決まった形だから、擬音文字はうまく出力(つまりコピペ的な)できて、吹き出しはいろいろな文字が入る画像があるから結果が安定しない」
って、説明してくれているのはなんとなく分かるんだけど、
そうなると、擬音も謎文字になったり、吹き出しもうまくいってることがある例とか、擬音文字言うほどブレないか?とか、
あと苦手とされる手は、確かに角度によっていろんなパターンがあるとはいえ、6本とかあり得ない出力してることもあるよなぁ、とか
つまり、SDの大本のところと関係するんだろうけど、安定するパターンと安定しないパターンの違いって何なんだろうな、と。
論文でも読んでろって話かw