随着复杂的自然语言处理的出现,文本到语音(TTS)系统 - 旨在表达文本的软件程序 - 变得越来越高效。以Google的Tacotron 2为例,它可以仅基于频谱图构建语音模型。
这些“神经TTS”方法的一个缺点是它们需要比传统方法更多的数据,但这可能不是很长时间。在亚马逊Alexa部门的科学家们的一项新研究中,一个受过多个扬声器语音数据训练的AI TTS系统产生了比在更多样本上训练的单个扬声器模型更自然的语音。此外,该团队发现前一个模型整体上更“稳定”:它减少了更少的单词,减少了“嘟”“的频率,并且避免了快速连续重复单个声音。
该研究计划于下个月在布莱顿举行的声学,语音和信号处理国际会议上进行。
“[r] ecent [研究]表明,在几个不同发言者的例子中训练NTTS系统可以用更少的数据产生更好的结果,”Alexa Speech应用科学家Jakub Lachowicz在博客文章中写道。“[我们]提出我们认为首次系统研究NTTS系统培训对多个发言人数据的优势。”
正如Lachowicz所解释的那样,神经TTS模型通常由两部分组成:一部分将文本转换为mel-频谱图(特定频带的50毫秒快照)和第二部分网络 - 一个声码器 - 将mel频谱图转换为更细粒度的音频信号。Lachowicz及其同事使用单热矢量(一串0和其中单个“1”)对来自七个不同发言者的数据进行了这些系统中的一个训练 - 将个别样本与发言者联系起来。
在为70名人类参与者设计听取人类演讲者的现场录音和在同一个演讲者上建模的合成语音的实验中,在多个演讲者上训练的神经TTS模型与在单个演讲者上训练的那个一样好。也许更重要的是,科学家观察到,对来自不同性别的说话者的样本训练的模型的“自然性”和来自与同一性别的说话者的样本进行训练的模型之间的“无”统计差异。
Lachowicz指出,与单扬声器模型15,000相比,多扬声器模型吸收了5,000多个训练样本,超过15,000个话语,他预计单扬声器NTTS模型将胜过多扬声器模型。然而,他和该研究的共同作者认为,混合模型可以使开发人员更容易获得合成声音。
“这开启了语音代理可以提供各种可定制的扬声器风格的前景,而不需要声音表演者在录音棚中度过几天,”他说。