なんか面白そうなことをやっているね
最終的にはChrome拡張とかSillyTavernとかみたいなUIを使いつつ、下記みたいな動きを実現させたい感じ?(色々違っていたらごめん)
1.{なんかのUIの拡張機能(以下拡張機能)で}チャットの発言を検知
2.(なんかのNLPモデルを使って)ストーリーを要約してtxtファイルに保存
3.最新の発言をtxtファイルに保存
4.「2.」と「3.」のtxtファイルを基にキャラクターの表情やポーズをなんかのNLPモデルに推測してもらい、タグを生成してもらう。
5.拡張機能からStable Diffusion API呼び出し
6.Stable Diffusionからチャットにて最後に発言したキャラクターのガイド画像(事前作成済想定)と、「4.」で作成したタグを基に画像を生成
7.拡張機能にて、チャットしているUIに生成された画像を表示