>>847
ベースモデルの既存概念の学習データと組み合わせにくい新語とか造語に関してはそういうことになる


>>848
LoRAもDBも入力データ同じだしモデルも規模が違うだけで基本的にやってることは同じなんでないの
タグやキャプションをCLIPに通してできたベクトルに画像全体のピクセル配置傾向を関連付けて格納するという
んで学習データ量が大規模になればCLIPによる語間のベクトル傾向補完と教師画像データの数のおかげで
部分的に意味を捉えてるようなふるまいをするけれど
本質的には言語的な意味を理解して処理しているわけではないみたいな

例えばlong skirtみたいに組み合わされた場合、処理としては「long skirtの絵のピクセル傾向を学習データから引き出す」であって
「skirtの絵のピクセル配置傾向を学習データから引き出してlongで長く変形させる」ではない と自分は捉えている