FastSpeech:慢、强、高效的文本语音模型:亚新体育app官网

【照片来源:论文】与其他文本语音模型相比,FastSpeech模型结构独特,性能优异(梅尔谱分解速度比基线慢270倍,语音分解速度比基线慢38倍)。更重要的是,FastSpeech包含长度调节器,可以协商梅尔谱序列和音素序列(即感觉度不同的声音单位)的不同。

本文摘要:【照片来源:论文】与其他文本语音模型相比,FastSpeech模型结构独特,性能优异(梅尔谱分解速度比基线慢270倍,语音分解速度比基线慢38倍)。更重要的是,FastSpeech包含长度调节器,可以协商梅尔谱序列和音素序列(即感觉度不同的声音单位)的不同。

语音

的双曲馀弦值。的双曲馀弦值。

目前,基于神经网络的终端到终端文本-语音合成技术发展迅速,许多模型的制作方法是从文本中分解梅尔谱(Mel-Spectrogram,即展示声音功率的谱图),用于语音编码器(分析声音信号的编解码器但是,这种制作方法没有不可避免的问题。主要是速度慢:从末端到末端的模型一般以自返方式分解梅尔谱,用声音器制作声音,语音梅尔谱一般可以达到数百帧,制作速度快的稳定性差:序列分解的错误传播和注意力的偏移不能引起反复吐词和漏词的可控性不足:自返的神经网络模型自动要求语音分解长度,难以控制语速和节奏中断等。为了解决这些问题,微软公司(亚洲)网络工程院语音团队领导浙江大学明确提出了新的机械学习模型FastSpeech,在论文《FastSpeech:慢、强、高效的文本-语音模型》中详细说明了该模型。

此外,值得一提的是,这篇论文已经被温哥华NeurIPS2019年会议使用。【照片来源:论文】与其他文本语音模型相比,FastSpeech模型结构独特,性能优异(梅尔谱分解速度比基线慢270倍,语音分解速度比基线慢38倍)。不仅如此,还有必要防止单词跳过等错误,反对详细调整语速和单词中断。更重要的是,FastSpeech包含长度调节器,可以协商梅尔谱序列和音素序列(即感觉度不同的声音单位)的不同。

简而言之,由于音素序列的长度总是大于梅尔谱列的长度,一个音素对应多个梅尔谱。然而,长度调节器不会根据持续时间扩展音素序列,以确保梅尔谱序列的长度(补充时间预测器组件确认音素的长度)。

减少或增加与音素或音素持续时间给定的梅尔谱数,可以比例调整声速。【图像来源:论文】为了检查FastSpeech的有效性,研究者与开源的LJSpech的数据集进行了比较,该数据集包括13100个英语音频段(相当于24小时的音频)和适当的文本mRNA。将数据集随机分为训练中使用的12500个样本、用于检查的300个样本和用于测试的300个样本后,他们对语音质量、稳定性等进行了一系列评价。

论文中,研究团队主要从语音质量、分解速度、稳定性、可控性等方面评价FastSpech模型的性能。研究团队回应,FastSpeech的质量与谷歌的Tacotron完全相同,语音模型非常稳定,是主流的Transformer模型。

同时,与基线的34%有效错误率相比,FastSpeech的有效错误率为零。(但不可否认的是,它的稳定性测试只涉及到50个语义简单的句子)。此外,FastSpeech在维持保持准确性的前提下将分解的语音速度从0.5倍增加到1.5倍。

因此,研究团队应对FastSpeech兼备慢、鲁棒、效率高等特点。【照片来源:论文】论文的最后,研究团队也提到将来将FastSpeech和速度更慢的声码器组合成单一模型,获得基本末端的文本语音解决方案。viaVentureBeat(公共编号:)编译器。原始文章允许禁止发布。

下一篇文章发表了注意事项。

本文关键词:亚新体育app官网,照片,序列,长度,音素,语音

本文来源:亚新体育app官网-www.polafestival.com

相关文章

网站地图xml地图