0903名無しさん@ピンキー
2024/01/08(月) 20:24:58.39ID:2JNmTorbこのStyle-Bert-VITS2ってやつでテキスト読み上げモデル作ってみた
1個のモデルからいろんなタイプの声出せるの結構すごいわ
GPTオナニーの良いお供になりそう
・かなり囁き声のスタイル
吾輩は猫である
https://12.gigafile.nu/0115-b9cb8e6d97539418e325224c66d886d72
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-d67ab54190fa57e832ad6e65d1c8b23b1
・少し囁き声っぽいスタイル
吾輩は猫である
https://12.gigafile.nu/0115-c3a26adbeae207b1474c1a7f4b81ef6a8
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-bf47247b9fcf25d0564541c87850e82c9
・普通の読み上げ、無感情に近いスタイル
吾輩は猫である
https://12.gigafile.nu/0115-bd35d5b55a54f6af3301e9f08c065e7b9
適当なエロいやつ読み上げ
https://12.gigafile.nu/0115-db5129d89adc03027e5c72a7515dfe368
上の3つ全部同じモデルから出せて、API呼び出し時に使い分けられるんだけど
テキスト出力時にどのスタイル使うかもLLMに考えさせれば上手いこと声色使い分けられそう