您当前的位置:首页 > 指南 > 正文

为什么人们会在长时间识别语音时击败机器

导读: 想象一下Siri总能理解你的世界,谷歌翻译完美无缺,而且他们两个创造了类似于Doctor Who风格翻译电路的东西。想象一下,无论你走到哪里都...

想象一下Siri总能理解你的世界,谷歌翻译完美无缺,而且他们两个创造了类似于Doctor Who风格翻译电路的东西。想象一下,无论你走到哪里都能自由交流(不必在学校用法语嘀咕你的巴黎服务员)。这是一个有吸引力的,但仍然遥远的前景。推动这一现实向前发展的瓶颈之一是语言的变化,特别是口语。技术无法很好地应对它。

另一方面,人类在处理语言变化方面非常擅长。事实上,我们真的很好,当事情偶尔崩溃时我们真的会注意到。当我访问新西兰时,我想了一会儿,人们称我为“宠物”,这是纽卡斯尔式的昵称。事实上,他们只是说出我的名字,帕特。我的时刻发生在一家咖啡店(“宠物的平白!”让我停顿了一下)。

这个故事说明了不同的英语口音如何具有略微不同的元音 - 一个众所周知的事实。但是让我们试着去理解当我把Pat的Kiwi发音误解为宠物时发生了什么。我们将一些声音与元音相关联,如a或e。这些范围不是绝对的。相反,它们的边界不同,例如在不同的重音之间。当听众无法对此进行调整时,正如我在这种情况下所做的那样,声音到意义的映射可能会失真。

人们可以费力地教授语音识别系统的不同口音,但口音变化只是冰山一角。元音也可能因年龄,性别,社会阶层,种族,性取向,醉酒程度,谈话速度,与谁交谈,我们是否处于嘈杂的环境而有所不同......列表只是去在,等等。

问题的关键/骗子

考虑到我最近参与的一项研究表明,即使搬家(或不搬家)也会影响一个人的元音。具体而言,北方英语的发音者如何在诸如症结之类的单词中发音元音与他们在过去十年中移动了多少次之间存在相关性。谁没有在所有移动的人更容易发音症结一样的骗子,这是传统的北英语发音。但是那些已经四次或更多次移动的人更有可能在两个单词中使用不同的元音,类似于英格兰南部。

当然,没有任何关于移动的行为导致这种情况。但是多次搬家与其他生活方式因素相关,例如与更多人交流,包括不同口音的人,这可能会影响我们说话的方式。

其他变异来源可能与语言因素有关,例如单词结构。一个引人注目的例子来自标尺,意思是“测量装置”和标尺,意思是“领导者”。

这两个词在表面上是相同的,但它们在更深层次的结构层面上有所不同。一个RUL-ER是谁的人的规则,就像唱歌儿是谁的人唱的,所以我们可以分析这些词作为由两个有意义的单位。相反,标尺意味着“测量装置”不能进一步分解。

'crooks'和'crux'元音类别之间的重叠程度,取决于过去十年的房屋移动数量。来自英格兰北部的143名发言人的数据。

事实证明,统治者的两个含义与南方英国英语的许多发言者的元音不同,并且近年来这两个词之间的差异有所增加:对于年轻的说话者而言,它比年长的说话者更大。因此隐藏的语言结构和说话者年龄都会影响我们发出某些元音的方式。

结束永远不会在眼前

这说明了语言变异的另一个重要特性:它不断变化。因此,语言研究人员不断地审查他们对变异的理解,这反过来又需要继续获取新数据并更新分析。我们在语言学方面做到这一点的方式正在被新技术,仪器数据分析的进步以及记录设备的普遍存在所彻底改变(2018年,82%的英国成年人拥有录音设备,也称为智能手机)。

现代语言项目可以通过各种方式从技术进步中获益。例如,英语方言应用程序通过智能手机远程收集录音,以构建一个大型且不断更新的现代英语口音语料库。例如,该语料库是关于北方英语中的关键元音的发现的来源。积累来自这个和许多其他项目的信息使我们能够跟踪变化,增加覆盖范围,并建立更准确的模型来预测单个声音的实现。


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: 歼20战机最新,派出的飞机却无比寒酸

下一篇: 老面的最正宗做法,老面馒头老面的制作方法



推荐阅读