【StableDiffusion】AIエロ画像情報交換31
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001...φ(・ω・`c⌒っ 転載ダメ (ワッチョイ 93c6-yzHn)2023/09/07(木) 16:20:26.23ID:zx3ev36D0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに理想のエロ画像を生成させるためのノウハウについて語り合うスレ
単なる娘自慢も可、だが児ポはダメゼッタイ!

前スレ
【StableDiffusion】AIエロ画像情報交換30
http://mercury.bbspink.com/test/read.cgi/erocg/1692070086/

環境構築方法等の技術系の質問はこちらでお願いします
【StableDiffusion】画像生成AI質問スレ17
http://mevius.5ch.net/test/read.cgi/cg/1693401315/

【初めての人は読んでね】テンプレまとめ・編集コード「5ch」
https://rentry.co/pinkaiero

次スレは>>980が立ててください
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0847...φ(・ω・`c⌒っ (ワッチョイ 3210-9wB7)2023/09/28(木) 01:49:56.78ID:JKiEQTTx0
black hairで黒髪が出るのはbalckという色とhairという概念を別個に学習して組み合わせているわけではなく
black hairという塊で「黒い髪」を学習しているから、ということ?
つまり新しい概念(たとえばabcdefという新種の生物)をカラバリも含めて出力できるようにしようと思ったら
black abcdefとかwhite abcdefとかblue abcdefとか別個に学習させないといけない、ということ?
ほんと?
0848...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/28(木) 01:57:21.03ID:H2woatsT0
>>845
それは loraから抽出するときは、設定したラベルでおk。文章はいらない。
という証明にしかなっていない。
全部loraで補って画像作るなら、確かに文章は無意味だよ。
0849...φ(・ω・`c⌒っ (ワッチョイ d200-BjmR)2023/09/28(木) 02:01:33.60ID:twLY/ZJw0
何もわからんやつは初めに
RTX 3060の12gb 買えばいいんだって
結局 RTX 4090 H100は買うんだから
一番ダメなのは 20万ぐらいで
RTX 4070とかの BTO を買うやつね
それはゲームとか色々やるために
ゴテゴテ余計なのがついてるのであって
目的は AI のみなんだから AI だけやれればいいじゃん
0854...φ(・ω・`c⌒っ (ワッチョイ 678a-R73r)2023/09/28(木) 03:09:21.86ID:ASnAVs3S0
>>847
ベースモデルの既存概念の学習データと組み合わせにくい新語とか造語に関してはそういうことになる


>>848
LoRAもDBも入力データ同じだしモデルも規模が違うだけで基本的にやってることは同じなんでないの
タグやキャプションをCLIPに通してできたベクトルに画像全体のピクセル配置傾向を関連付けて格納するという
んで学習データ量が大規模になればCLIPによる語間のベクトル傾向補完と教師画像データの数のおかげで
部分的に意味を捉えてるようなふるまいをするけれど
本質的には言語的な意味を理解して処理しているわけではないみたいな

例えばlong skirtみたいに組み合わされた場合、処理としては「long skirtの絵のピクセル傾向を学習データから引き出す」であって
「skirtの絵のピクセル配置傾向を学習データから引き出してlongで長く変形させる」ではない と自分は捉えている
0855...φ(・ω・`c⌒っ (ワッチョイ 678a-R73r)2023/09/28(木) 03:14:31.06ID:ASnAVs3S0
まあ何が言いたいかというと、SDは本質的に言葉の意味を理解していないから
SDに特殊なふるまいを期待して英文で語りかけるみたいなことやっても
プロンプトにノイズ増えて生成されるベクトルが変化しただけで
語りかけた英文の言語的な意味を理解してその通りに動いたわけではないだろうなということ
0858...φ(・ω・`c⌒っ (ワッチョイ e267-wzUv)2023/09/28(木) 07:04:21.96ID:0HQVnW5e0
教師データがどうなってるかは推測しかできんが
pubic hairは色を指定しても黒以外出にくいとか
そういうのはあると思う
出力の肌の色が偏ってるのは差別だって団体もあったかな
0860...φ(・ω・`c⌒っ (ワッチョイ 1b17-zgip)2023/09/28(木) 09:37:10.89ID:l+JS1aIO0
プロンプトはこの人の説明で合ってるんじゃないかな
https://aioe.fanbox.cc/posts/5387176
0864...φ(・ω・`c⌒っ (ワッチョイ 767a-/va4)2023/09/28(木) 11:49:15.84ID:ynzGWitR0
>>854
「skirtの絵の傾向を引き出してlongで長く変形させる」という処理に近い処理はしてるよ
そもそもそれができるのが生成AIの出発点だからそれができないなら生成AIは意味がない
skirtの意味ベクトルとlongの意味ベクトルの演算でlong skirtの意味ベクトルを得るという発想は生成AI初期のVAEだけで生成していた頃から存在している考え方(その頃はTEと連動してないけど)
0865...φ(・ω・`c⌒っ (ワッチョイ 678a-R73r)2023/09/28(木) 12:04:58.78ID:ASnAVs3S0
>>856
わざわざっていうか普通に学習で皆やってることでは
taggerみたいな自動タグ付けの仕組みもあるし
モデル作る時なんかはものすごい量のデータ食わせるから色んな方面で語の分類・関連付けが自動発生する感じで

>>859
色に関してはベースモデルの学習量の賜物で
例えばred hair,red shirt,red tree,red bakground…等あらゆる分野の画像につけられたredの情報を総合して
「redというトークンにはキャンバスの一部・あるいは全体においてR値が高くなる作用がある」のような感じの動作をしていると思ってる
概念を獲得するってやつか
形状に関しても同じように統計的情報から概念を獲得みたいな感じ

ちなみに白パンツ画像ばかり用意してwhite pantiesてタグつけてlora作ったらパンツ色を変えるのは難しくなるよ
追加学習部分でpantiesに白ピクセル配置を関連付ける影響が強くなるから
0866...φ(・ω・`c⌒っ (スップ Sd52-wzUv)2023/09/28(木) 12:15:09.82ID:5ZNAcZuNd
つまりプロンプトでnippleをlongにすることも可能というのか?
0867...φ(・ω・`c⌒っ (ワッチョイ 678a-R73r)2023/09/28(木) 12:20:43.83ID:ASnAVs3S0
>>863
また時間取れたらやってみるよ

>>864
なんかその辺学ぶのにオススメのサイトとかありますかね
今んとこのイメージって物量で殴って概念を獲得、ベクトル演算で疑似的にそれらしく振る舞うけど
タグ付け・キャプショニングが性善説的に"正しく"運用される前提があってのもので
本質的には人間の理解してる言語とは全く別の体系で動いているという感じなんだけども
0868...φ(・ω・`c⌒っ (ワッチョイ 767a-/va4)2023/09/28(木) 12:36:29.65ID:ynzGWitR0
>>867
SDとCLIPとUNETのあたりの概念はググればそれなりに出てくるけど動作の詳細を満足いくだけ書いてるサイトも書籍もあまりないと思う
生成AI全般についての概論ならいろいろ書籍は出てるけど、オライリーのGenerative Deep Learning, 2nd Edition(英語版)が分かりやすいし割と新しい情報まで出てるかな、日本語版がもう出てるかは知らない
でもこれ読んでも基礎や概論は分かるけど直接SDのプロンプトの作り方の参考にはならんよ
0869...φ(・ω・`c⌒っ (ワッチョイ cfc6-CSnM)2023/09/28(木) 12:36:59.29ID:cuGx5+F60
>>866
googleで nipple long で画像検索しても配管の継ぎ手みたいのしか出てこないけど
長い乳首 で検索すると長すぎて泣きたくなる
0871...φ(・ω・`c⌒っ (スップ Sd52-wzUv)2023/09/28(木) 12:53:04.46ID:5ZNAcZuNd
>>860を見てると
「,」を3個使って区切った方がいいのだろうとか
形容詞は名詞の前ってのを無視して
「bright light hair blue long 」はどうだろうかとか考えてしまうな
帰ったら試してみよう
0872...φ(・ω・`c⌒っ (ワッチョイ 2772-/va4)2023/09/28(木) 13:00:26.06ID:/el6aKI90
秋とか火とか、赤を連想するトークンが入っているPromptで出したimgをimg2imgで同一Promptでアップスケールさせると絵全体がどんどん赤くなっていくってのはよくあるので色系トークンは絵作り全体に影響を及ぼすってのは結構納得いく
0874...φ(・ω・`c⌒っ (ワッチョイ 767a-WMZf)2023/09/28(木) 21:20:41.81ID:/Yo1Y9vB0
カンマがいらないってことはスペースもいらないってことなん?
見た目を無視するならひたすらプロンプトを詰め込んでもええのかな
区切りはAI側が勝手にトークンごとに区切って反映させるってことで
0875...φ(・ω・`c⌒っ (ワッチョイ 332c-/va4)2023/09/28(木) 21:23:26.97ID:zTShyDpY0
>>860
>Blong hair, bright light blue hairは最もダメな記述方式です。なぜなら、long hairを最初に置くと何かしらの色の長い髪になることが多く、後からbright light blue hairと指定しても遅いからです。
お気に入りのcheckpointやみんなが使っていそうなCounterfeit, hassakuHentaiModelを使っても特に水色以外の髪が出ることはないな、たまにセンター部分に白が混ざるとか二人目の髪色が白とかがあるぐらい
指定した複数の色あたりを除けばそこまで神経質になるほどでもないかも
0876...φ(・ω・`c⌒っ (ワッチョイ f27e-Qv+N)2023/09/28(木) 21:25:06.55ID:EwYAP3ZG0
>>874
単語によっては繋がること、もしくは分離することでまったく意味が変わるものがあるからスペースはないとあかん
そもそもSDプロンプトの基本はタグの羅列ではなく簡易英文だし
0877...φ(・ω・`c⌒っ (スップ Sd52-wzUv)2023/09/28(木) 21:49:50.87ID:5ZNAcZuNd
>>874
スペースはカンマと違ってトークン数0らしい
少なくともうちの環境だと実際にたくさん書いても何も変わらなかった



単語の順番をめちゃくちゃにした場合
hair blue longは青くて長い髪は確かに出るし
hair light blueは水色の髪が出やすいけど
hair blue lightは水色の髪も出るけど髪や背景が光るパターンが多くなるから順番の影響は場合によるっぽい
おもしろい
0878...φ(・ω・`c⌒っ (ワッチョイ 767a-/va4)2023/09/28(木) 22:02:25.65ID:ynzGWitR0
>>874
CLIPのトークナイザーはスペースでまず分割してその後で単語を部品にトークン分割するはずなのでスペースで区切らないと正しくトークン分割されないと思う
0880...φ(・ω・`c⌒っ (ワッチョイ 6752-xAvD)2023/09/28(木) 22:30:11.54ID:N2Ovv3PV0
>>860
こんな考察あるんだな
自前のプロンプト組み直してみるか
0884...φ(・ω・`c⌒っ (ワッチョイ 3209-ZhfB)2023/09/29(金) 06:31:35.36ID:fe1pZrVY0
古い情報だしまたオカルトか?って思ったけど経験則でカンマ入れなくて羅列した方が思い通り出る時もあって判断に困る
0885...φ(・ω・`c⌒っ (ワッチョイ f27e-Qv+N)2023/09/29(金) 07:26:41.97ID:rYMauN0J0
重要なのはカンマ入れない、というより
Nai流のカンマで区切ったタグの羅列より従来通りの英文のほうがいいよ、って話でしょ
初期の初期から言われてたことだぞ
0886...φ(・ω・`c⌒っ (ワッチョイ 836a-25nm)2023/09/29(金) 08:04:54.80ID:bKtDWXtt0
その考察にある「トークンは置いた位置から後ろにかけて影響します。」って
ちょっと検証すれば分かるけど普通に置いた位置より前にも影響するよな

色によって影響力が違ってて特にpinkが影響させやすい色だと思う
0887...φ(・ω・`c⌒っ (スップ Sd52-wzUv)2023/09/29(金) 08:16:06.75ID:ESbFOVsJd
long hairだと(long のみ)と(弱めlong + hair)で
hair longだと(hairのみ)と(long + 弱めhair)で前後関係なく隣り合えばどのみち混ざるでしょ
0888...φ(・ω・`c⌒っ (ワッチョイ 13d5-TBC/)2023/09/29(金) 08:38:35.11ID:pRau30Zi0
wakame法みたいに空トークン埋めた方が良くなる説とかオカルトが多いな
0889...φ(・ω・`c⌒っ (ワッチョイ 27b9-lUDo)2023/09/29(金) 08:47:37.56ID:FmP2PUef0
SDと会話するとか言ってる馬鹿より遥かに有益な情報
0891...φ(・ω・`c⌒っ (ワッチョイ 836a-25nm)2023/09/29(金) 08:58:27.49ID:bKtDWXtt0
例えばwhite shoes, ... , pink shirt, ...
みたいなプロンプトでピンクの靴が出てくる
そしてピンクのシャツは出てこなかったりする
0895...φ(・ω・`c⌒っ (ワッチョイ 767a-/va4)2023/09/29(金) 10:26:17.58ID:mUdFMt6C0
>>882
単語をさらにトークン分割するときは分割されたと分かるようにマークされて単語の一部という認識になるはずだから、それ3つとも一応は違う扱いになる(その後の処理で結果同じような結果になることもある)
CLIPの詳細は知らないけどトークナイザーの一般で言えば、例えば「babyface」は「baby##」と「##face」みたいに、ここになんか続けて入ってたよっていうマークが入る
0899...φ(・ω・`c⌒っ (ワッチョイ bec8-7LBr)2023/09/29(金) 13:12:12.82ID:oT7jc2ua0
>>882
https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer
を入れてTokenizerタブのTokensでToken IDを調べてみればわかるけど

baby face => 7268, 1710
babyface => 1794, 1710
baby-face => 1794, 268, 1710

全部別々のtokenの組み合わせへの変換だよ

そもそもCLIPは単語を区切ってToken変換みたいな単純な処理じゃない

カンマ区切りなんかもこんな感じ
1girl school uniform jacket => 272, 1611, 267, 1794, 1710
1girl, school uniform, jacket => 272, 1611, 267, 1228, 11075, 267, 6164
0900...φ(・ω・`c⌒っ (ワッチョイ 760c-XYgb)2023/09/29(金) 14:30:05.31ID:MtuCL/pa0
@micro white bikini
Awhite micro bikini

@はほぼ白になるけど
Aは他の指定に負けることが多い気がする、black hairがあったら黒水着になったり
0901...φ(・ω・`c⌒っ (ワッチョイ 3221-EsWz)2023/09/29(金) 14:32:26.59ID:zmlZfyx/0
トークン解析によって全然別のtokenに変換されるとともに、
事前学習情報によって近しい語のtoken(babyfaceの例だと1794と7268)は関連性を持っているので
結果としてそれなりに近しいベクトルが出力されるみたいな感じかな

CLIPの学習情報がエンドユーザからはブラックボックスみたいなもんだからややこしく感じるところだとは思う
0905...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 15:13:08.96ID:Mjf+UsZC0
>>899
そのToken IDの例で、おぼろげながら見えてきたよ。
ありがとう。
0906...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 15:41:23.11ID:Mjf+UsZC0
>>903
今までエロ画像の生成が出来ていて、いきなり画像が崩れだした。
とかってに解釈する。

1、loraの影響。(画質を引き込むことがある。)
2、nsfwの限界突破。
3、embeddings(埋め込みの悪さ。勝手に出てくる時がある。)
4、プロンプトのバランスが異常に崩れた。
5、顔だけ極端にゆがむ。(有名版権物に多い挙動)

画像を作る前にどういう行動をとったか、など
状況が分かれば助言できるかもしれない。
0908...φ(・ω・`c⌒っ (ワッチョイ 2772-/va4)2023/09/29(金) 15:44:59.08ID:4ZT5/a7Z0
negativeに変なembeddings突っ込むと、ままある
0909...φ(・ω・`c⌒っ (ワッチョイ 3221-EsWz)2023/09/29(金) 15:46:53.71ID:zmlZfyx/0
一旦再起してPNG info等から生成情報送って同じ条件で作り直してみるとどうなるか確かめてみるのもいいんじゃない
「メモリ内に変な情報残って描画がおかしくなる」の実例を記録できればヒーローになれるかもしれん
0910903 (ワッチョイ 36c6-CSnM)2023/09/29(金) 16:42:32.51ID:qXs0PWPm0
>>903 です

まあ、よそからコピペしてきたプロンプトと自前のプロンプトをごちゃまぜにしたのと
プロンプトが多すぎたのと汗とか涙とか開脚とか突っ込み過ぎたのかなと思いますが
久しぶりにこんなクオリティ低いの出来たので一応貼っておきます

https://dotup.org/uploda/dotup.org3054598.png
https://dotup.org/uploda/dotup.org3054599.png
https://dotup.org/uploda/dotup.org3054600.png

生画像ファイル
https://dotup.org/uploda/dotup.org3054601.zip
0912...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 17:05:08.63ID:Mjf+UsZC0
>>910
パッと見、鼻が大きくなっているから、nsfwの挙動だと思うけど、
気になったプロンプトは、idol, M legs, open legs, spread legs, skirt bikini,
私なら
idol→model
M legs, open legs,→raise leg,
skirt bikini→bikini,
と変換して、とりあえず刷ってみるかなぁ。
0913...φ(・ω・`c⌒っ (ワッチョイ 36c6-CSnM)2023/09/29(金) 17:13:03.02ID:qXs0PWPm0
ちなみに私は以前プロンプトに badhandv4 を含めて居ないのに画像が変化したと言ってた者です
それは完全に私の勘違いヒューマンエラーでした
そういう、そそっかしい奴の話だと思って聞いて下さい

普段というか その前に作ってたのはこんな感じです
https://dotup.org/uploda/dotup.org3054614.png

それで一旦、元に戻そうとしてPNG Infoから同じの出そうとしたら
アホ顔に成ってたとです
https://dotup.org/uploda/dotup.org3054615.png

メモリにアホ顔DNAが残ってしまった!と思ったんですが
以前のチョンボの事もあったのでStable Diffusion Prompt Reader を使って
両ファイルのプロンプト等の情報をテキストファイルに書き出して徹底比較したところ
Adetailer のネガティブプロンプトに closed eyes, と入力して居ました。

完全にヒューマンエラーでした。
今回もおさわがせしてすみませんでした。
0914...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 17:13:35.49ID:Mjf+UsZC0
あと
30 years old→20age
0915...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 17:20:34.86ID:Mjf+UsZC0
それで改善されなければ、ネガを見ていく。
気になったのは、(navel), bad-hands-5, badhandv4,
navelは削除
bad-hands-5, badhandv4,何方か採用する。
badhandv4,は後から入れたほうだからこれを一旦削除してみる。
0916...φ(・ω・`c⌒っ (ワッチョイ 9b02-/va4)2023/09/29(金) 17:37:50.95ID:RVMXI1++0
>>913
>両ファイルのプロンプト等の情報をテキストファイルに書き出して徹底比較

そういうときはWinMergeを使うと便利だよ
ファイルやテキストの差異をビジュアルで示してくれる
0917...φ(・ω・`c⌒っ (ワッチョイ 674d-xAvD)2023/09/29(金) 19:13:42.57ID:ZzK1OHxi0
カンマ区切りの件だけど確かに文章にした方が良く出るのかも知れない
今まで単語のカンマ区切りで指定してたけどこれで出し易くなりそう
0918...φ(・ω・`c⌒っ (ワッチョイ f27e-Qv+N)2023/09/29(金) 19:48:14.31ID:rYMauN0J0
前にも言ったがそもそもSDの基本は英文記述なんよ
NAIの登場で「カンマ区切りのdanbooruタグの羅列でもそれっぽく出ます」っていうのが一気に広まっちゃったけど
0919...φ(・ω・`c⌒っ (ワッチョイ a79f-oRtz)2023/09/29(金) 20:22:42.40ID:Mjf+UsZC0
プロンプト欄も行の初めが小文字だと、
たまに大文字にしなさいと、二重青線が付くよね。
そこも、文章を意識したものっぽいですね。
0920...φ(・ω・`c⌒っ (ワッチョイ 674d-xAvD)2023/09/29(金) 20:45:33.56ID:ZzK1OHxi0
そうか英文基本の方が性能発揮するのか
組み直さなきゃだわ
0922...φ(・ω・`c⌒っ (ワッチョイ 0f30-29+V)2023/09/30(土) 01:07:55.94ID:Sat3CDuz0
普段3090で生成してるけど
ファンが壊れてお蔵入りになってた1080Tiのファン交換して生成してみた
3090で18秒のが1080Tiだと50秒も掛かった
まぁそんなもんだろうと思ってたけど結構ショック
0923...φ(・ω・`c⌒っ (ワッチョイ 0f30-29+V)2023/09/30(土) 01:12:48.14ID:Sat3CDuz0
>>920
それさ、そうでもないっていうか
カンマ区切りと文章体では別の物が出来るんだよ
だからどっちが良いとは一概に言えないと思う

色々やった限りだとカンマ区切りのほうがダーティな物が出来やすい気がする
0927...φ(・ω・`c⌒っ (ワッチョイ 0bd5-YUNq)2023/09/30(土) 07:00:34.41ID:WOWCekfm0
>>919
それブラウザの文法チェックかスペルチェックのどちかかに引っかかってるだけ
0928...φ(・ω・`c⌒っ (ワッチョイ 5f7e-oWzW)2023/09/30(土) 10:31:35.72ID:kD1YSR1m0
>>923
仕様に沿った方法のほうが正しい結果が出やすいというのは当たり前
そうでない方法が違う結果になるのも当たり前
ただ、どちらの結果が好みに沿っているかは別問題
0936...φ(・ω・`c⌒っ (ワッチョイ 0b2a-yfp5)2023/09/30(土) 14:29:54.14ID:0oXqnOhT0
pcなのであながち間違ってないというか上位の存在なのでは!?
レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況