【CLIP設定ってどうしたらいい?】
イラスト系モデルならCLIP2、リアル系はCLIP1とCLIP2の両方を試してみる

【そもそもCLIPって何?】
ざっくり簡単に言うと、プロンプトから受け取ったテキスト情報を層ごとに処理して画像を生成するという、Stablediffusionが採用してる処理方式のこと
CLIP1設定なら『最後から1番目の層まで処理(※ようは最終層まで処理)してから画像生成』という設定であり、SD1.x系モデルはそれが標準設定となっていた
その後、StableDiffusionをベースにしているNovelAIというお絵描きAIサービスが『最後から2番目の層で処理を止めて(※ようは最終CLIPを省略)画像を生成』という特殊な追加学習方法を実施
これは最終層で処理されるノイズなどの情報を省略することで、イラスト絵の再現度を上げるためであり、この方式で学習したモデルの場合はCLIP2設定ののほうがプロンプトの反映が正確になるとのこと
そしてご存知の通りNovelAIが作ったモデルはネットに流出して各モデルへと派生、よってNovelAIを源流とするイラスト系モデルは基本的にはCLIP2設定が推奨となっている

実写系モデルは暫くは公式準拠でCLIP1を推奨していたが、最近の実写系モデルにもNovelAIが混ざっていることもあり、推奨設定が1か2かはモデルごとに違うとしか言えない
またCLIPskipは結果的にプロンプト処理の一部を省略するため、モデルによってはCLIP2設定よりもCLIP1設定のほうがプロンプトの効き自体が良くなることもある
ちなみに現在StableDiffusion公式モデル最新版であるv2.1はCLIP2が標準設定になっている

もちろんだがどのモデルもCLIP設定は自由に変更でき、また1か2でないと出せない絵柄というのもあるので、両方試しつつ好みの絵柄を探ってみるのが良い
と思われる
ただ、CLIPを飛ばし続けるとどんどんプロンプトを無視していくので、仕様的にも2までにしておくのが無難である

https://preview.redd.it/clip-skip-test-you-use-it-v0-0ebigxvwz9ca1.jpg?auto=webp&s=89ba70e253577f4dbd6727b9d5ceac318ffb7176