GPT-SoVITS模型训练教学【炼丹师会员专属】
什么是TTS
TTS(Text-To-Speech)这是一种文字转语音的语音合成。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。
GPT-SoVITS-V1实现了:
- 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
- 可以少量语音微调训练,也可不训练直接推理
- 可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种
GPT-SoVITS-V2新增特点:
- 对低音质参考音频合成出来音质更好
- 底模训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少
- 增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成
- 更好的文本前端:持续迭代更新。V2中英文加入多音字优化。
GPT-SoVITS-V3新增特点:
- 训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)
- s2结构变更为:shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低,s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了,整体训练时长不变】s2原理的变更(基于参考音频扩散补全)导致音色相似度大幅提升。由于没用端到端合成,使用了开源的24k的BigVGANv2参数从mel谱得到波形。
- s1结构不变,更新了一版参数
语种主持(可跨语种合成) | GPT训练集时长 | SoVITS训练集时长 | 推理速度 | 参数量 | 文本前端 | 功能 |
中日英 | 2k小时 | 2k小时 | baseline | 90M+77M | baseline | baseline |
中日英韩粤 | 2.5k小时 | vq encoder2k小时,剩余5k小时 | 翻倍 | 90M+77M | 中日英逻辑均有增强 | 新增语速调节,无参考文本模式,更好的混合语种切分,音色混合 |
中日英韩粤 | 7k小时 | vq encoder2k小时,剩余7k小时 | 约等于v2 | 330M+77M | 不变 | 大幅增加zero shot相似度;情绪表达、微调性能提升 |
请登录后查看评论内容