任何曾经使用打字机的人都会想起修复拼写错误或选择不当的单词记忆白痴和修正带的难度吗?
现在,普林斯顿大学计算机科学家开发的技术可以用于人类语音的录音,文字处理软件为书面文字做了什么。
该软件名为VoCo,通过编辑录音的抄本,提供了一种在人声录音中添加或替换单词的简便方法。即使在录音机的其他任何地方没有出现,新的单词也会自动以扬声器的声音合成。
该系统使用复杂的算法来学习和重新创建特定语音的声音,有朝一日可以更轻松地在视频中编辑播客和旁白。更广泛地说,该技术可以提供创建听起来自然的个性化机器人声音的起点。
“VoCo提供了一种用于编辑音轨的非常实用的技术,但它也是未来技术的预兆,它将使人类的声音以显着的方式合成和自动化,”计算机科学教授Adam Finkelstein说。普林斯顿大学。
由Finkelstein建议的普林斯顿大学研究生Zeyu Jin将于7月在计算机协会SIGGRAPH会议上展示这项工作。普林斯顿大学的工作由X项目基金资助,该基金为工程师提供种子资金以进行投机项目。普林斯顿大学的研究人员与Adobe研究院的科学家Gautham Mysore,Stephen DiVerdi和Jingwan Lu合作。
该团队在7月份的“ 图形交易 ”杂志上发表的一篇论文中描述了VoCo的发展。
在计算机屏幕上,VoCo的用户界面看起来类似于其他音频编辑软件,如流行的播客编辑程序Audacity或Apple的音乐编辑程序GarageBand。它提供了音轨波形的可视化以及一组用于编辑的剪切,复制和粘贴工具。然而,与其他程序不同,VoCo还使用轨道的文本记录来增强波形,并允许用户仅通过键入脚本来替换或插入轨道中尚不存在的新单词。当用户键入新单词时,VoCo更新音轨,通过将来自叙述中其他地方的音频片段拼接在一起来自动合成新单词。
“目前,音频编辑可以剪掉一段叙述曲目并将剪辑从一个地方移动到另一个地方。但是,如果你想添加一个在录音中不存在的单词,那么只有通过艰苦的试验才能实现。搜索小音频片段的错误过程,这些片段可能很好地融合在一起,足以合理地形成这个词,“Finkelstein说。“VoCo自动化搜索和拼接过程,产生的结果通常比音频专家手动创建的结果更好。”
VoCo的核心是一种优化算法,该算法搜索录音并选择最佳可能的部分单词声音组合,称为“音素”,以在用户的声音中构建新单词。要做到这一点,它不仅需要找到单独的音素,还要找到拼接在一起而没有突然过渡的序列,并将它们装入现有的句子中,以便新单词无缝融合。单词的发音具有不同的强调和语调,这取决于它们在句子中的位置,因此上下文很重要。
关于这个背景的线索,VoCo寻找一个句子的音轨,该句子是从人工语音中自动合成的文本记录 - 一个听起来机器人到人耳的句子。该记录用作构建新单词的参考点。然后,VoCo匹配来自真实人类语音录音的声音,以匹配合成音轨中的单词 - 一种称为“语音转换”的技术,这启发了项目名称VoCo。
如果合成的单词不太正确,VoCo会为用户提供多个版本的单词供您选择。该系统还提供了一个高级编辑器来修改音高和持续时间,允许专家用户进一步完善音轨。
为了测试他们的系统是如何有效地产生真实的声音编辑,研究人员要求人们听一组音轨,其中一些是用VoCo编辑的,而另一些是完全自然的。全自动版本在超过60%的时间内都被误认为是真正的录音。
Jin的研究兴趣跨越了音频和机器学习,他表示语音转换技术有望为编辑音轨以外的一系列应用提供支持。例如,由于受伤或疾病而失去声音的人可能能够通过机器人系统重建他们的声音。
“我们被一个患有神经退行性疾病的人接近,只能通过由他的眼睑控制的文本到语音系统说话,”Jin说。“声音听起来很像机器人,就像Steven Hawking使用的系统一样,但是他希望他的小女儿听到他真实的声音。有一天可能会分析他过去的录音,并创造了一个用他自己的声音说话的辅助设备“。
在较轻的一面,Jin说语音转换可能会用来带回Bugs Bunny或Popeye等标志性卡通人物长期失落的声音。这些声音 - 以及着名演员或历史人物的声音 - 可用于制作新电影的旁白,甚至可以整合到Apple的Siri或亚马逊的Alexa等自动智能个人助理中。
普林斯顿研究人员目前正在改进VoCo算法,以提高系统将合成单词更顺利地集成到音轨中的能力。他们还在努力扩展系统的功能,以创建更长的短语甚至是从叙述者的声音合成的整个句子。
Finkelstein说,像VoCo这样的编辑软件提出了一些关于如何处理数字内容的重要问题,当我们知道它可能已被改变以改变其含义时。“几十年前随着Adobe Photoshop等数字图像编辑软件的出现,这个问题成为了摄影的最前沿,”他说。
他说,快速简便的照片编辑的出现引发了对新闻报道中照片可靠性的长期讨论。即使在数字编辑可用之前,专业摄影师也有许多修改其打印的技巧,但新程序使其更快更容易,并且不需要相同程度的专业知识。
“今天我们理所当然地认为照片可以编辑,我们会对照片进行更多的怀疑,”他说。“我们理解照片上有新闻职责。”
他说现在正在讨论数字音频。编辑长期以来能够修改音频文件以清理音轨,他们可以选择更改其含义,例如只需删除“不”字样。但他表示像VoCo这样的节目,通过简化这一过程,可能会引起关注。
Finkelstein说:“这个工具几乎可以肯定会引发关于音频的谈话,之后会谈到照片。” “很快,就会有关于视频的对话。”