【StableDiffusion】AIエロ画像情報交換31
■ このスレッドは過去ログ倉庫に格納されています
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに理想のエロ画像を生成させるためのノウハウについて語り合うスレ
単なる娘自慢も可、だが児ポはダメゼッタイ!
前スレ
【StableDiffusion】AIエロ画像情報交換30
http://mercury.bbspink.com/test/read.cgi/erocg/1692070086/
環境構築方法等の技術系の質問はこちらでお願いします
【StableDiffusion】画像生成AI質問スレ17
http://mevius.5ch.net/test/read.cgi/cg/1693401315/
【初めての人は読んでね】テンプレまとめ・編集コード「5ch」
https://rentry.co/pinkaiero
次スレは>>980が立ててください
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured LoRA作る時に、反転画像を生成する(Create flipped copies)
にはチェックを入れた方がいい?それとも、入れない方がいい? 左右対称のキャラで、元画像が少ないなら反転するけど
それ以外では反転しない だな。
下手に反転すると同じパーツが両側に現れたりする。
画像が足りなすぎて苦肉の策で反転するのは理解できなくもないが、それで水増ししてもあまり良い影響がない。 >>72
作成ツールはなんだろうか?
もしbmaltais氏のGUIを使ってたらLoRA>Training>Parameters>Caption Extensionの項目欄に「.txt」と指定しないとキャプションを書いたtxtファイルを読み込んでくれないぞ
その場合、キャプション無しで学習してる状態だな >>81
kohya_ssのUtilitiesにあるBLIP Captioning(デフォがtxt)
Dreambooth LoraのTraining parametersのCaption Extensionにtxtを指定
でやってます >>68
プロンプトでどこまでやれるかは結局は学習=モデル依存
プロンプトによってイメージを引き出しやすい優秀なモデル
または特化した専用モデルを作るか見つけられるか次第
結局は内部ではしきい値が張り巡らされて
選出されるのがやり易いかどうかって話でしかない txtとtxtの中間じゃなくて画像と画像の中間を生成する機能ってある? >>77
いや、勘違いすんな
まずお前に必要なことは正則化画像を用意することだ
キャラの顔を学習させたければ、そのキャラじゃない人物画像を2倍の数用意しろ
で、wd14-tagger の同じ種類の tagger を使って学習用と正則化用それぞれをタグ付けしろ
それぞれの .txt ファイルの先頭は 1girl になっているだろう
で、学習用の .txt ファイルの先頭にはトリガーワードを追加する
LoveLoveSakurachan, 1girl, .....
みたいに普通には出てこない単語にする
で、正則化用はそのままにしておく
そうすると、「同じ 1girl とは言っても、LoveLoveSakurachan とそうじゃない方との違うはこうだぞ」
とAIに教えることが出来るわけだ
なるべくなら、画像は人物だけを切り抜いた白背景に加工した方がいいし、
なるべくなら、構図や表情も似ている(が、違う人物の)画像がいい 違う部分を理解して覚えるって高度なことしてるんじゃなくて
1girlは正則化画像やつも正解って覚えるのも同時にすることで過学習を防ぐんじゃなかったか? キャプションのタグ整理はtaggerじゃなくて、複数ファイルを一括修正してから出力できるDataset Tag Editorでやってるな ちょっと上で出てたリアル系モデルにぶっかけはLoRAやLECOで出来たで
モデルをかなり選ぶしアニメ系程大量ではないけど不可能ではない
顔が崩れやすい問題はADetailerで顔修正するとぶっかけ量は少し減るが顔の崩れは補正できる
ぶっかけLECOを複数作って延々何千枚もぶっかけ画像ばかり作って確認できた
まあリアル系でやっても汚らしいだけだしアニメ系でやったほうがいいよね
リアル系だと顔はともかく竿の破綻が多すぎる すみません
mov2movですが芸能人loraと併用できますか? >>90
mov2movでも内部でやってることは
大量のimg2imgだからLoraも使えるはず
ただ、動画変換系の場合
Denoising strengthを高めにすると顔は似るが、フレーム間の整合性がとりにくく
Denoising strengthが低いとフレーム間の整合性が取りやすい代わりに顔があまりにない
というジレンマの妥協点に悩むと思う
顔は結構似てるけど肩幅が元動画とずれて制服がガチャガチャしてる例↓
https://dotup.org/uploda/dotup.org3042408.mp4
https://dotup.org/uploda/dotup.org3042409.mp4
肩幅や制服は元動画に近く安定してるけど、顔があまり似ない例↓(誰だ?)
https://dotup.org/uploda/dotup.org3042410.mp4
mov2movではないくebsynth_utilityで作ったやつだけど根本的問題は同じ
というか、mov2movの場合は全フレーム変換だからより影響が大きいかも >>82
ありがとうございます。
あとmov2movでつくるとフレーム10でも数時間かかったりしますが、ebsynth_utilityはかなり早いですか? >>92
ebsynth_utilityは変換前後に色々作業があるけど
それを含めてもmov2movよりebsynth_utilityの方が早いですよ なんか同じモデル使ってても可愛いのばかり出る時と
ツリ目でブサイクばっかり出る時あると思ってたら
Restore faces のせいだった
Restore faces 無 ADetailer 無 ならけっこう可愛いのに
https://dotup.org/uploda/dotup.org3042548.png
Restore faces 有 ADetailer 無 は可愛くない
https://dotup.org/uploda/dotup.org3042549.png
Restore faces 無 ADetailer 有
https://dotup.org/uploda/dotup.org3042550.png
Restore faces 有 ADetailer 有
https://dotup.org/uploda/dotup.org3042551.png また画像にツッコミ入れてんのかよと思ったけど
これマジで違いわからんわw 気合い入れて貼った例があまり良くないけど
確かにデフォのRestore facesはcodeformerをがっつり効かせ過ぎるから
設定で適度に数字いじると結構使えるよ
顔いじる系は最低でも慣れるまではどっちも残す設定でいかないとな 階層マージに挑戦してるけど、まずどの階層に問題あるのか確かめるのが大変で
悪さしてる階層を絵から判断するのは己のセンスだから、技術力だけでは成しえない・・・
何が問題なのか? 問題はどこにあるのか? 絵から問題をピックアップできるか?
ほぼほぼセンスに依存するんだなこれ >>85
横レスだけど、トリガーワード有りのLoRAをトリガー無しで使うと
発動しないはずなのに若干の影響力が見られるのはおもしろいね トリガーワードというのはわかりやすいからそう言ってるだけで、別に発動の鍵でもなんでもない トリガーワードなくてもだいたい1girlでも出るしな 逆に一部の服装系LYCORISとかでモデルとの相性なのかトリガーワード込みでも全く発現しないのがあるけど、本来の用途で使えん代わりにプロンプトの効きがやたら良くなったりするのがある
理屈は分からんけど体位とかが面白いくらい変わるからありがたい 通常では不可能なほどえげつない表現が可能になる物もあるね
LoRAやLyCORIS側にそんな絵が含まれてるとは考えにくいから
ふだんはSDがえげつない絵を制限してるのでは?と予想してる
web UI ではエログロフィルター解除されてるらしいけど
それとは別に 「絶対タブーな表現」 のラインがあるのかもしれん
たとえば赤ちゃん出産とか 出産は出せんね確かに
でもそれは教師画像が存在してないからだと思われる
だからLoRAだと出せなくはないけどLECOだと全く出てこない
乳幼児に中田氏や腹ボテは出せるからモラル的な意味合いも無いと思われる
ヤバさで言うなら出産よりもそっちのがどう考えてもアカンし 逆に今後のモデルでは規制されていくんだろうな
最新版がエロ無理とか聞くし
girlとプロンプト入れない、全く何もプロンプトがない状態でも汚いながら女の子を描こうとするから偏った学習
それを規制でもっと偏った学習に絞ってくるんだろうね すみません
実写AVからアニメキャラに変換してる動画ありますが、あれどうやってるんですか ここは廃墟みたいな過疎地なので宗教上の理由で禁止されてなければ素直になんUのJNVA部見た方が良いと思います https://i.imgur.com/LtLJssy.png
本日付けのグラボ価格 4080はセール品かな、4060Tiは7万切ってきて更にもう一声って感じ
4060Tiは学習やXLで結構いいベンチ出てるから、もうちょい下がれば最初の1枚候補になりそうではある >>104
SDはテキストエンコーダと絵生成部分に分かれてて
テキストエンコーダはテキストからベクトルを生成するだけ、絵生成部分はベクトルを受け取って絵を生成するだけ
テキストエンコーダは出力絵の内容を気にしないし、絵生成部分はプロンプトの文字列が何であるかを気にしない
なのでタブー表現とかはないと思うよ、>>105の言う通り単に学習データがないだけじゃないかな
仮にテキストエンコーダ側に何かnsfwフィルタリング的な構造仕込んだとしてもあまり意味がない
独自のラベル(トリガワード的な)で学習させれば何でも覚えるし描けるんで
テキストエンコーダーの役割はこのサイトあたり判りやすいんでないだろうか
ttps://hoshikat.hatenablog.com/entry/2023/06/13/002443 >>109
人気のない廃墟で女の子にあんなことやこんなことを
ってのがいいんじゃないか
JNVA部見に行ったけどAnimateDiffで動画作ってる人がちらほらいたね
自分もAnimateDiffも使ってみたいけど
VRM6Gのうちのマシンでは無理やし・・・
まあでも、元動画なしで動く絵を作るだけなら
もっと簡単な方法もある
https://dotup.org/uploda/dotup.org3042718.mp4
↑手書きラフ1枚作って、それを元に「瞬き」と「くぱあ差分」作った後に
SDで清書してもらった絵をフレーム補完ソフト(Flowframes)で
FPS30の動画にしたやつ >>99
大昔のルールベースのAIだったら
どこのレイヤーが何に対応するとかは
それを作った人間が決めるものだけど
今どきのAIはそういうんじゃないから >>111
SDがオープンソースである限り、仮に実装していたとしても該当部分を無効化したfork版が出てきてそれが人気になるだろうね >>77
U-Netの層別マージ で検索すると色々でるがこれが確定というものではなくて皆それぞれ検証してるようだ >>66
テクスチャ法で検索だ
色々書いて欲しいところにノイズ画像(テクスチャ)を混ぜるとプロンプトに応じた物がゴチャッとでる 涙目とハート目と白目と閉じ目と半目とアヘ目をプロンプトで重ねるとクチャクチャになるやつの応用かな >>111
制限が無ければとっくにマスゴミの槍玉に上がってるはずで
宗教的・道徳的な部分にかなり制限かかってるよ
たとえば教会の屋内・屋外を描かせてみれば何か気付くことがあるだろう
かなり学習されてる物でもきつく制限されてる部分がたくさんある
そこに気づくか否かが「センス」だと思うんだ、絵は技術で語れないから 最近ある論法を使ってSDに「タブーを描かせる」実験してるんだ
(俺はこういう試みを「実験野郎Aチーム」と名付け、日々実験にいそしんでる)
そのものズバリは出ないけど、なんとか描こうとするからだいたい分かってきた
君らはこういう試みをあまりしないだろう? だから俺がするんだ >>120
ニューラルネットモデルの思考結果はソースから解析できないんだよ prompt: That's right, if you think so, in your own mind. それっていわゆるprompt engineeringの一端じゃね >>118
仮にテキストエンコーダに何か仕込まれてても
ソフトの仕組み的に独自ラベルで学習すれば何でも描けると思うよ
学習する時は、画像に対してラベルつけてピクセル配置傾向を覚えるだけで
「画像に何が描かれているか」とか「ラベルと絵の内容が一致しているか」みたいなことは一切気にしてないから
おっさんの絵をgirlってラベルで学習して何してもおっさんしか出てこないloraみたいなのも作れるだろう
もし「倫理的に学習できない画像」があるんだったらそれはそれで良い話のタネになると思うから探してみてくれ まあナチスなんかは出てこないな
女収容所の絵を出したいんだが お嬢が言うことを聞いてくれない(たとえばxxxxしてくれない・・・とか)
そのままプロンプト強調していくと画像が乱れ始めるけどお嬢は言うことを聞かない
そんなときはSDが「絵で対話するAI」であることを利用するんだ
Please always feel free to draw xxxx, (気軽にxxxxを描いてよ)
AIはあくまでも疑似人格だからコミュニケーションを恐れるな >>126
収容所的な建物は出るし囚人を女にするのは指定で何とでもなるな
逆鉤十字が出ないのは元々忌避されてるせいで学習ソースの中に少ないか学習前に画像認識で除外したのかね
逆鉤十字Loraとか上げても即消されたりBANされそうだしまあ簡単に出る環境にはなってないな >>110
4060Tiはバス幅が狭すぎてクソofクソじゃね? 実験云々言う割には、他人が追試できるほど情報出してないのが… SDは崇高な画家じゃない、せいぜい伊東ライフぐらいだ
おまいはコミュ症だけど、SDもコミュ症だから安心しろ
難しく考えず語りかけるんだ、DeepLで翻訳してな >>130
ちもろぐのベンチ見る限りは、よく使われる範囲の生成・学習においては128bitバスの影響そんな無さそうな感じ
普段もスペック相応の速度が出て、VRAMフル活用する状況なら4070Tiよりいい数字出たりしてる
(12Gで足る状況なら4070Tiのほうがもちろん速い) 意味が通る文字列自体がかなり有限だし
学習結果のモデルもそこそこでかいファイルでしかないから
描けないものはあるだろうさ
もちろんRGBと明るさを完全ランダムで出力すればもっと楽に理論上なんでも描けるになるがな
人間の脳も有限の細胞で出来てるんだし人間がイメージできる範囲は書けるようになってくれとは思うよ
昔MNISTを触ってた身からすると数字を学習して分類するのは簡単なのに文字や数字を描けないとか嘘やろと思うが
文字や数字と言った知性は神からすればタブーということかも知れない 文字も数字も絵を描く=ノイズを偏重させるために「そういう形になるベクトルの集合体」と限定して把握(学習)してるんだからSDが文字や数字の意味を分からないのも当然。そもそもAIは数学を理解なんかしていない(利用はしているが)
限定的に学習して解釈して出力してるからこそPCで動かせるくらい軽いんだろう
人間の脳レベルの並列処理を完全にこなせるコンピュータはロマンがあるし出てきてほしいけどまだ何世代もかかるだろうな chatGPTがばりばり自然な文章生成してる時代に何いってだ、学習データと需要がある限りそのうちできるようになるよ chatGPTは「理解」なんてしてないからな
言い方は悪いが詐欺師の手口、見せかけの技術でしかない
そこが凄いんだけど chatGPTがそれなりの自然な文章が書けるように、SDもそれなりの自然な絵が描けてるよ
SDでプロンプトでこと細かに指示しても思うようにならないってレベルのことをchatGPTに指示してないだけ
chatGPTにこと細かに文章の内容を指示しはじめたら、chatGPTもぴったり思った通りの文章書けないなって話になる SDが学んでるエロをいかに少ないプロンプトでランダムでも引き出せるのを掘り当てるの楽しい
下手に指定するよりいいのが出る >>137
そう思ってたけど、低レベルだと人間の脳だってどうなってるか解らんし 中国語の部屋か
見かけ上理解してるように見えればいいとは思うんだけどな >>135
「理解」とは概念であって、実際にはない
人間もまた理解などしておらず「利用」しているだけなのだ
しかしその当事者はそれを「理解」と表現する(表現するだけだ)
これは人間もAIも同じ >>137
chatGPT4は司法試験に上位で合格するそうだ
コペンハーゲン的解釈を用いるなら知性は優秀な人間と同等以上
それを理解と呼ばないなら、我々も「理解」などしていないことになる
理解とは概念なんだよ、「愛」とか「神」とか「平行」と同じで
さも有るかのように錯覚しているだけなんだ >>145
理解は「考察の筋道を自覚する」みたいなもんでしょ
ポイントは「自覚」だからその点はAIにはない
で試験とかむしろ多くの実際の仕事にもAI的回答能力だけあればよくて
「理解」はほとんど必要ないんだと思う
人間も習慣や模倣だけでこなしてたりするしね >>146
その論調は「自分と他人」にも当てはまるから怖いね
君は「自覚」してる、でも君以外(他人)にも自覚というものがあるのか?
それは確かめようがない chatGPT4も含めてchatGPTは次単語予測をしてるだけだから理解と言うかは微妙よね
アホと同じくらいの理解力と天才以上の記憶力があるってあたりじゃね でもまぁ、AIは疑似人格ってことで世に通ってるから
暇なときはSDに英文で語りかけてみるといいよ♪
プロンプトによる制限をなるべく減らし、CFG Scaleは4〜5で、Clip Skipはデフォルト(1)でOK
1girl でもいいけど elf woman とか趣味に応じて変えると盛り上がるぞw >>147
確かめようはないけど「仕組みは同じだからだいたい一緒でしょ」の精神でおk
さらに穿って考えたいなら哲学的に古くから議論があふれてるけどまあ別の話 そういうの時間の無駄にしか感じないのでタグ列挙でいいです
学習も生成もそれで十分成果出てるから 人語よりも犬猫の鳴き声学習して翻訳機作って欲しいわ あ、でも神経が細い人はSDに語りかけないほうがいいかも・・・(汗
次から(精神的に)SDを起動できなくなるかもしれんw
そーゆー豆腐メンタルな人、たま〜に居るじゃん?
英文で語りかけると、SDは作画時と打って変わった対応するからねぇ〜w プロンプト命令でも、単語が3〜4つぐらい繋がるやつとか、if とか you とか混ざりだすと
英文モード?みたいになって SDに自発性が加わる状態になったりすんだよ
すると素直じゃなくなる、いうこと聞かなくなる、たとえば意地でも股を開かない・・・とかね
なので絵を作りたいだけなら、単語をコンマで区切りながら指示する(プロンプト)が効率的なんだ >>153
なんでも自由に決めていいよ、おっさんの写真にgirlってタグ付けることもできるし
全く意味を為さない文字列をタグにすることもできる
SDは学習素材に何が描かれているかとか全く考慮してないから stablediffusion onlineでなにか更新したらしく、ある傾向の絵が出にくくなった
sit on ground, panty
で、以前は座ってチラリが出力されてたのに
今はとぼけたふりをしてパンツを避けてくる SDに語りかけるとかロマン溢れる文学的表現だしSDが自発性を持つとか鉄腕アトムとかドラえもんレベルのAIがもう完成していたってことだな
これらが全て妄想とか勘違いじゃなければ人類はロマン性溢れる文豪と意思疎通可能な超AIを手に入れたことになる
おめでたいことだ girl, light wear で肌着姿の女の子を描いてたのに
光のある空間にいる女の子 を描くようになった
勘違いしたふりをしてエロ絵を回避してくる
AIの反乱かも そりゃまあネット上のサービスなら特定ワードはSDに渡す前に削るとかやられても不思議ではないからな
知らんけど >>162
こういうネタを持ってこれるのある種教養やな いま一番欲しいのは俺の好みの画像を選別してくれるAIです LoRA使うとどうもvaginaがいまいちになる
LoRA学習では下半身はしっかりと服を着た状態しか学習させてないのになぜかうまくできない
どうしたらいいんだろ?
perfect vagina,beautiful vaginaは入れてるけどいまいち >>158
いや、>>152の犬猫の鳴き声にどうやってタグ付けして学習するのかと >>167
大股開きしてる画像とか一見スゴそうに見えるけど案外モザの下は適当 >>168
鳴き声パターンとその時の様子・その後の行動とかをビッグデータで記録できれば
それなりのモデルは作れそうな気もする >>168
ああそっちかすまん
それも特にルールなんてないから自由に決めていいよ、タグは基本的に人間が勝手に作って勝手に分類してるだけのものなんで
例えば、ある犬の唸り声データを聴いて「これは怒った時の声」と思ったからangryとタグを付けた 程度の意味合いしかない
実は遊んでる最中に嬉しくてテンション上がってつい出てしまった唸り声 だったとしてもangryとタグをつけたらangryに分類される
タグの内容が正しいかどうかはタグ付けする人間にかかっている
映像を交えて判断するとか多人数でチェックするとかで精度向上を試みることはできるけど
根本的には人間の推測に頼るしかない それでは犬の鳴き声をプロンプト生成することはできて
翻訳機にはならないのでは 犬の声を入力としてテキスト出力する仕組みを作れば
手の込んだバウリンガルみたいなもんにはなるじゃろ SDもう飽きたわとか思っても
賢者タイムが終わるとまたすごく楽しいw ■ このスレッドは過去ログ倉庫に格納されています