WD1.4

>トレーニング中に条件付きマスキングを使用して、さまざまなアスペクト比での画像生成を改善します。 これにより、中央のトリミングされた画像ではなく、
トレーニング中に画像全体を見ることができます。これにより、全身画像、ポートレートを生成し、構図を改善するときに、より良い結果が得られます。

>入力コンテキストを 77 トークンから 231 トークン、または無制限のトークンに拡張しました。 入力用の 77 個のトークンのうち、使用できるのは 75 個だけです。 これでは、多くの詳細を必要とする複雑なプロンプトを表示するのに十分な余地がありません。

>顔の生成と手のパフォーマンスを向上させるための、より高い画像解像度のトレーニング。 512x512 の解像度での詳細の多くは、VAE によって保持されません。これにより、より細かい詳細を生成してモデルの機能を改善するために、
ますます多くのサンプルが必要になるため、トレーニング中にモデルの学習が非効率になります。 そのため、トレーニング中に使用される画像の解像度は最大 768x768 になります。

>より良い分類子のないガイダンスのための無条件生成。 Waifu Diffusion 1.3 のトレーニング プロセスには、無条件の生成が含まれていませんでした。 これにより、モデルは生成中に独自の知識を使用できるようになり、より小さなプロンプトでその機能が強化されます。