亚马逊的Alexa继续学习新的派对技巧,最新的是一种“新闻播音员风格” 的语音,将在几周后在启用的设备上启动。
你可以听下面演讲风格的样本,结果,他们说话。声音不能被人们误认为,但它确实将压力融入到句子中,就像你期望从电视或广播新闻播报员那样。根据亚马逊自己的调查,用户在听文章时更喜欢Alexa的常规演讲风格(虽然从智能音箱获取新闻仍然有很多其他问题)。
亚马逊称,新的发言风格是由该公司开发的“神经文本到语音”技术或NTTS开发的。这是下一代语音合成,它使用机器学习更快地生成富有表现力的声音。目前,Alexa使用连接语音合成,这种方法已经存在了几十年。这涉及将语音样本分解成不同的声音(称为音素),然后将它们拼接在一起以形成新的单词和句子。
连接语音合成可以产生令人惊讶的好结果,但新的AI注入方法正在快速超越。去年10月,Google为Google 智能助理推出了一种新形式的语音合成,使用其伦敦AI实验室DeepMind开发的机器学习技术。亚马逊告诉The Verge,Alexa应该在未来几周内转向神经文本到语音合成(配有新闻播报员的声音)。
通过录制来自现实生活新闻频道的音频片段,然后使用机器学习来发现新闻播报员如何阅读文本的模式,创建了新闻播音员讲话的声音。说起边缘,亚马逊的特雷弗·伍德,谁在亚马逊负责AI的文本到语音的应用,说这种做法更容易捕捉人类说话风格的细节。“很难用语言精确地描述这些细微差别,数据驱动的方法可以比人类更有效地发现和推广这些细微差别,”Wood说。
值得注意的是,亚马逊表示只需花费几个小时的时间就可以向Alexa传授新闻播音员的语音,这表明未来可以很容易地融入各种风格。到目前为止,亚马逊已经为Alexa 添加了一个耳语模式,在未来几周升级到NTTS后,我们可能会期待2019年的全部声音。