0404名無しさん@ピンキー
2025/03/02(日) 14:46:42.71ID:iwpqrJae声質にもよるんやけど、このサンプルの子の場合は表現薄いフツーの発話が7割、ピロートーク調が2.5割、喘ぎ声0.5割とかそんなもんだったと思うで
トータルの音源の長さは10分ぐらいやったと思う
音源は書き起こしの誤字修正の際に同時にキュレーションして狙った表現の抑揚の物を厳選して学習させる感じや
わいは403さんと違ってトータル時間短い分、エポック数も少ない、つまり短い時間で学習終わらせる感じやね