声学和韵律一致性的基于文本的语音编辑

声学和韵律一致性的基于文本的语音编辑

本次分享由内蒙古大学计算机学院S2Lab实验室(https://ttslr.github.io)刘瑞研究员团队投稿在 InterSpeech 2024的论文《FLUENTEDITOR: TEXT-BASED SPEECH EDITING BY CONSIDERINGACOUSTIC AND PROSODY CONSISTENCY》。该论文提出了一个名为FluentEditor的基于文本的语音编辑(Text-based Speech Editing, TSE)模型。FluentEditor引入了声学一致性约束和韵律一致性约束,以确保编辑区域的语音与原始话语的上下文和风格保持一致。
论文地址:
https://arxiv.org/pdf/2309.11725
代码地址:
https://github.com/AI-S2-Lab/FluentEditor

0

摘要

基于文本的语音编辑(Text-based Speech Editing, TSE)技术主要关注于缩减编辑区域内生成的语音片段与参考目标之间的差异,而忽视了其在上下文和原始话语中的局部和全局流畅性。为保持语音的平滑过渡,本文提出了一种流畅性语音编辑模型,称为FluentEditor,通过在TSE训练中考虑流畅性感知的训练准则,分别从声学和韵律两个方面提升编辑边界处的平滑度。具体来说,声学一致性约束旨在平滑编辑区域与其相邻声学片段之间的过渡,使其与真实音频一致;而韵律一致性约束则确保编辑区域内的韵律风格与原始话语的整体风格保持一致。在VCTK上的主观和客观实验结果表明,FluentEditor在自然度和流畅性方面均优于所有先进的基线方法。

1

Introduction

基于文本的语音编辑(Text-based Speech Editing,TSE)[1] 通过编辑文本而非音频本身来修改输出音频。随着互联网的快速发展,音频相关的媒体传播已成为我们日常生活中的普遍活动。值得注意的是,TSE能够为音频生成过程带来极大便利,并可应用于多种个性化语音需求的领域,包括社交媒体视频创作、游戏和电影配音。
在过去的几年中,许多学者尝试采用文本到语音(Text-to-Speech,TTS)系统来构建基于神经网络的TSE模型。例如,CampNet [2] 在基于Transformer的上下文感知神经网络上进行掩码训练,以提高编辑后语音的质量。A3T[3]提出了一种对齐感知的声学和文本预训练方法,通过文本输入和声学文本对齐重构被掩码的声学信号,可直接应用于语音编辑。最近,扩散模型逐渐成为基于神经网络的TSE的骨干,取得了显著成果。例如,EdiTTS [4] 将基于扩散的TTS模型作为骨干,提出了一种基于评分的TSE方法,用于精细的音调和内容编辑。FluentSpeech [5] 提出了一种上下文感知的扩散模型,在上下文特征的指导下迭代优化修改后的梅尔频谱图。
然而,在训练过程中,现有方法只是约束待预测的梅尔频谱与真实值之间的欧几里得距离 [6],以确保TSE的自然性。尽管它们考虑了使用上下文信息来缓解编辑语音的过度平滑问题,但其目标函数并未设计为确保输出语音的流畅性 [7, 8]。本文认为,有效的语音流畅性建模需要解决两个挑战:1)声学一致性(Acoustic Consistency):待编辑区域与其邻近区域之间拼接的平滑性应接近真实拼接点 [9];2)韵律一致性(Prosody Consistency):合成音频在待编辑区域的韵律风格需与原始话语的整体韵律风格一致 [10,11]。
为了解决上述问题,本文提出了一种新颖的流畅性语音编辑方案,称为FluentEditor,通过引入声学和韵律一致性训练准则,以实现自然且流畅的语音编辑。
具体来说,
    1)为实现声学一致性,设计了声学一致性损失LAC,用于计算边界处的方差是否接近真实拼接点处的方差;
    2)为实现韵律一致性,引入韵律一致性损失LPC,使待编辑区域合成音频的高层韵律特征接近原始话语的高层韵律特征。高级的韵律特征由预训练的基于GST的韵律提取器[11]提取。在VCTK [12]数据集上的主观和客观结果表明,FluentEditor的声学和韵律一致性显著优于先进的TSE基线模型,同时能够确保高度流畅的真实语音。

2

FluentEditor: Methodology

本文提出了一种通过考虑声学和韵律一致性来确保语音流畅性的TSE模型–FluentEditor。

2.1

Overall Workflow

图片[1]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

如图1所示,FluentEditor采用基于掩码预测的扩散网络作为骨干网络,包括一个文本编码器和一个谱图去噪器。谱图去噪器采用去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM),通过固定长度为p(⋅)的马尔可夫链的反向过程逐步去噪一个正态分布变量来学习数据分布。

假设输入音素序列的音素嵌入为X=(X1,…,X|X|),其对应的声学特征序列为Y^=(Y^1,…,Y^|Y^|)。通过根据概率λ将Y^的随机区间替换为随机向量,可以得到掩码后的声学特征序列Y^mask=Mask(Y^,λ)。具体来说,文本编码器旨在为X提取高层次的语言特征HX。然后,谱图去噪器聚合HX和条件输入C,以指导扩散模型Θ(Yt|t,C)的反向过程(t∈T),其中Yt是干净输入Y^0的噪声版本。类似于[5],条件输入C包括帧级语言特征HfX、声学特征序列Y^、掩码后的声学特征序列Y^mask、说话人嵌入espk和音调嵌入epitcℎ。在基于生成器的扩散模型中,pθ(Y0|Yt)是神经网络fθ(Yt,t)施加的隐式分布,给定Yt输出Y0。然后,使用后验分布q(Yt−1|Yt,Y0)在给定Yt和预测的Y0的情况下采样Yt−1。

为了建模语音流畅性,在原始重建损失的基础上设计了声学一致性损失LAC和韵律一致性损失LPC,以确保编辑区域生成的语音的声学和韵律性能与上下文和原始话语一致。对于重建损失,本文遵循[5]采用平均绝对误差(Mean Absolute Error, MAE)和结构相似性指数(Structural Similarity Index, SSIM)[13]损失来计算Y0与对应的真实片段Y^0之间的差异。声学一致性损失LAC和韵律一致性损失LPC的目的是确保编辑语音区域与相邻声学片段之间的连接点的平滑性,以及掩码语音的局部韵律与真实语音的全局韵律一致。

2.2

Fluency-Aware Training criterion

2.2.1

Acoustic Consistency Loss

拼接代价(Concatenation Loss)是单位选择式语音合成(Unit-selection Text-to-Speech, TTS)中的两个重要训练准则[9,14,15]。其中,目标损失(Target Loss)用于计算候选单位与目标之间的接近程度[15],而拼接代价(Concatenation Loss)[9] 用于计算待连接语音单元的连接平滑度。受到拼接代价[9]的启发,本文提出了声学一致性损失来量化编辑区域与相邻上下文之间的平滑过渡。

声学一致性损失LAC在预测的声学特征Y0的左右边界都采用了平滑度约束。将左右边界的欧氏距离ΔρLY0和ΔρRY0与相应边界处的地面真实语音Δρ^L/RY^0的欧氏距离进行比较,以作为整体平滑度LAC的近似指标。

具体而言,LAC包括LLAC和LRAC两部分,使用均方误差(Mean Squared Error, MSE)[16]来衡量预测片段与地面真实片段之间的接近程度:

图片[2]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

值得注意的是两个相邻帧之间的欧氏距离是通过平滑度提取器获得的。以ΔρLY0为例,

图片[3]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

其中,YLpre0表示掩码区域左边界之前的语音帧。换句话说,相邻非掩码区域的结束帧在左侧。方差被用作数据离散度的统计度量,以描述声学特征值的变化[17]。较小的方差可能表明两个频谱之间的相似性较大,而较大的方差可能表明它们之间的差异较大。为了全面捕获音频信号的统计特性,利用方差来表征每个梅尔频谱帧的特征信息,记为ρLY0和ρLpreY0。

类似地,计算右边界的平滑度约束LRAC,其中YRnex0表示掩码区域右边界之后的语音帧,换句话说,相邻非掩码区域的开始帧在右侧。

2.2.2

Acoustic Consistency Loss

韵律一致性损失LPC负责从预测的掩码区域Y0中提取韵律特征HPY0,同时分析原始语音中存在的整体韵律特征H^PY^,然后采用均方误差(MSE)损失来进行韵律一致性约束。

图片[4]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

请注意,韵律特征HPY0和H^Y^P是由预先训练的韵律提取器获得的。具体来说,局部韵律提取器和全局韵律提取器都使用了全局风格标记(GST)模型[11]中的参考编码器[11],将Y0和Y^转换为具有固定长度的高级韵律向量,以便进行简单的比较。

图片[5]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

最后,按照[5]的做法,总损失函数是重建损失和两个新的损失函数LAC和LPC在所有非连续的掩码区域上的总和,因为一个句子中的掩码区域可能包括多个非连续的段[5]。简而言之,FluentEditor的LAC和LPC被引入以确保具有一致韵律的流畅语音。

2.3

Run-time Inference

在运行时,给定原始文本及其语音,用户可以通过编辑文本来编辑语音。需要注意的是,我们可以手动定义修改操作(即插入、替换和删除)。给定文本中编辑单词的相应语音片段被视为图1中的掩码区域。与[5]类似,FluentEditor读取编辑后的文本以及原始语音的剩余声学特征Y^−Y^mask来预测编辑单词的Y0。最后,Y0及其上下文Y^−Y^mask被连接成最终的流畅输出语音。

3

Experiments and Results

3.1

Dataset

本文采用VCTK \cite{veaux2017cstr} 数据集验证FluentEditor模型,这是一个由110名具有各种口音的英语发音者发音的英语语音语料库。每个录音采样频率为22050 Hz,量化为16位。通过Montreal Forced Aligner (MFA) [18]实现了精确的强制对齐。本文将数据集随机划分为训练集、验证集和测试集,比例分别为98%、1%和1%。

3.2

Experimental Setup

文本编码器和频谱去噪器的配置参考了[5]。FluentEditor系统的扩散步数T设置为8。按照GST [11]的方法,韵律提取器包括一个卷积堆栈和一个RNN。基于GST的韵律提取器的输出韵律特征的维度为256。本文根据[3]采用随机选择策略,以固定的80%掩码率掩盖特定音素跨度及其对应的语音帧。预训练的HiFiGAN [19]声码器用于合成语音波形。批次大小设置为16,初始学习率设置为2×10^−4,并使用Adam优化器[20]来优化网络。FluentEditor模型在一张A100 GPU上训练了200万步。

3.3

Evaluation Metric

为了主观评价,本文进行平均意见评分(Mean Opinion Score, MOS)[21]听觉评估,以语音流畅度为指标,称为FMOS。需要注意的是,FMOS允许听众感受到编辑后的语音片段相对于上下文是否流畅。并在不同模型之间保持文本内容和文本修改的一致性,以排除其他干扰因素,仅检验语音流畅度。此外,还使用了比较FMOS(C-FMOS)[21]进行消融研究。在客观评价方面,利用MCD [22]、STOI [23]和PESQ [24]来衡量编辑语音的整体质量。

3.4

Comparative Study

本文开发了四个神经网络TSE系统进行比较研究,包括:1)CampNet [2]提出了一个上下文感知的掩码预测网络来模拟基于文本的语音编辑过程;2)A3T [3]提出了对齐感知的声学-文本预训练方法,该方法将音素和部分掩码的频谱图作为输入;3)FluentSpeech [5]将扩散模型作为骨干,并在上下文语音的帮助下预测掩码特征;4)FluentEditor (Ours)设计了声学和韵律一致性损失。本文还添加了Ground Truth语音进行比较。需要注意的是,本文构建了两个消融系统,分别是“w/o LAC”和“w/o LPC”,以验证这两个新损失的有效性。

3.5

Main Results

在本节中,介绍了研究的主要结果,侧重于重构和编辑语音的综合评估,包括客观指标和主观评估的综合分析。

3.5.1

Main Results

图片[6]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

Objective results: 从测试集中随机选择400个测试样本,并在表1的第二至第四列中报告客观结果。请注意,本文遵循[5]并仅使用重建的语音测量被掩盖区域的客观指标。FluentEditor在整体语音质量方面取得了最佳性能。例如,FluentEditor的MCD和STOI值获得了最优的结果,而PESQ在所有系统中获得了次优的结果。它表明FluentEditor对要编辑的语音区域进行了正确的声学特征预测。请注意,客观指标不能完全反映人类的感知[25],还需进一步进行主观听力实验。

3.5.2

Evaluation of Edited Speech

Subjective results: 为了进行FMOS评估,我们从测试集中选择了50个音频样本,并邀请了20名听众对语音流利度进行评估。在[26]之后,我们测试插入和替换操作,并在表1的最后两列中展示FMOS结果。FluentEditor始终取得更高的流利性相关感知分数。例如,FluentEditor在插入时获得4.25的FMOS值,在替换时获得4.26的FMOS值,非常接近真实值。这证明了流畅度感知训练标准的有效性。FluentEditor通过考虑声学和韵律一致性约束,削弱了编辑痕迹,提高了编辑语音的韵律性能。

3.6

Ablation Study

图片[7]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

为了进一步验证LAC和LPC的消融实验,表2报告了插入和替换的主观和客观消融结果。按照上一节的内容准备示例和聆听者。当去除LAC和LPC时,两种消融系统的C-FMOS和MCD值均下降,说明声学和韵律一致性约束对增强编辑后语音的自然度和流畅度都起着至关重要的作用。值得注意的是,韵律一致性在编码和提取语音韵律特征后表现出更显著的预测结果,强调了其在语音编辑韵律流畅性方面的有效性。

3.7

Visualization Analysis

图片[8]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊
图片[9]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊
图片[10]-声学和韵律一致性的基于文本的语音编辑-AI星球|配音工坊

如图2所示,将FluentEditor产生的梅尔语谱图和流利语音基线\footnote{由于篇幅限制,只报告流畅语音基线。更多可视化结果和语音样本请参考网站:\url{https://anonymous.4open.science/w/FluentEditor-B684/}。}可视化。红框表示随机掩码及其编辑的语音片段”It‘s a matter of finding balance”。可以看到,FluentEditor可以生成比基线更丰富的频率细节的梅尔语谱图,从而产生自然和富有表现力的声音,这进一步证明了声学和韵律一致性损失的有效性。尽管如此,我们还是建议读者听一下我们的语音样本1,更好的感受Fluenteditor的优势。

4

Conclusion

本文提出一种新的基于文本的语音编辑(TSE)模型FluentEditor,涉及两个新的流利度感知训练标准,以改善编辑后语音的声学和韵律一致性。声学一致性损失LAC用于计算边界处的方差是否接近真实拼接点的方差,韵律一致性损失LPC用于让待编辑区域内合成音频的高层韵律特征接近原始语音。通过这种方式,FluentEditor可以在语音流畅性方面提升语音编辑性能。在VCTK数据集上的客观和主观实验结果表明,结合LAC和LPC可以获得更好的效果,并保证语音流畅和韵律一致。在未来的工作中,我们将考虑多层次的一致性,并进一步改进FluentEditor架构。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容

收藏我们,及时查看最新的模型。按Ctrl+D收藏我们 或 发现更多