そんな高等な話じゃなく、書き文字擬音の大半が「ぱん」「あっ」「お゙っ」とか決まった形だから学習データがブレずに結果として読める形で出力されるってだけだよ
人間の身体を出力するのと原理は同じ

吹き出しの中が安定しないのはAIはあくまでも形として認識してるだけだから
文字を出力してる訳じゃないから「フキダシの中に置いてあるものってなんかこんな形だよな」をAIは出してるだけ