アヒルプレイがダイナミックだった。
https://i.imgur.com/G4YTsIR.jpeg
https://i.imgur.com/iQVKmnM.jpeg

>>673
環境はクラウドGPUで一番安いのを借りてやってる。アドレスとかに気をつけるくらいで、あとはローカル変わらない。
処理の速度としては音声生成後に画像生成に入るからどうしても画像の表示が遅くなるけど、Geminiの応答受信から音声再生までは2〜3秒ほど、画像表示は音声のテキスト量で左右されるが、5秒〜くらいかな。
フローは前にも書いたけど単純で、Geminiにテキストと一緒に出させた画像生成プロンプトを整形してWaiNSFWへ送信して、音声も同じくテキストをStyle-Bert-VITS2へ送信したらあとは返ってきたのを再生するだけ。
画像生成プロンプトも以前はカテゴリ分けて細かく指示してたけど、守られないと破綻に繋がるので今はもうあまり縛らずに出させて後工程で整える方式になった。
画像生成プロンプトの部分は>>595の中にあるやつがGeminiの癖を抑え込んでいく記述もあって参考になると思う。
こういう抑え込んだり書き換えたりする項目が、調整しまくった結果200くらいあるのが今のこっちの状態。