https://github.com/litagin02/Style-Bert-VITS2
このStyle-Bert-VITS2ってやつでテキスト読み上げモデル作ってみた
1個のモデルからいろんなタイプの声出せるの結構すごいわ
GPTオナニーの良いお供になりそう

・かなり囁き声のスタイル
吾輩は猫である
https://12.gigafile.nu/0115-b9cb8e6d97539418e325224c66d886d72
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-d67ab54190fa57e832ad6e65d1c8b23b1

・少し囁き声っぽいスタイル
吾輩は猫である
https://12.gigafile.nu/0115-c3a26adbeae207b1474c1a7f4b81ef6a8
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-bf47247b9fcf25d0564541c87850e82c9

・普通の読み上げ、無感情に近いスタイル
吾輩は猫である
https://12.gigafile.nu/0115-bd35d5b55a54f6af3301e9f08c065e7b9
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-db5129d89adc03027e5c72a7515dfe368

上の3つ全部同じモデルから出せて、API呼び出し時に使い分けられるんだけど
テキスト出力時にどのスタイル使うかもLLMに考えさせれば上手いこと声色使い分けられそう