Mozilla发布了转录模型和巨大的语音数据集

导读： Mozilla(Firefox浏览器制造商)宣布推出开源语音识别模型以及大型语音数据集。该发布标志着开源语音识别开发的出现。Mozilla首席执行官肖恩...

Mozilla(Firefox浏览器制造商)宣布推出开源语音识别模型以及大型语音数据集。该发布标志着开源语音识别开发的出现。Mozilla首席执行官肖恩·怀特(Sean White)在声明中表示，它将“产生更多能够聆听和响应我们的互联网连接产品。”

到目前为止，几乎所有商用语音识别产品都来自一家大公司，如微软或谷歌。White指出，这是因为这些应用程序需要巨额投资和同样庞大的语音数据集来学习如何识别和解释人类语音。他补充说，Mozilla致力于为开发人员和用户提供更多技术。为此，该公司设定了开发语音识别的目标可以免费公开发布的模型，它称之为Project DeepSpeech。随着这一目标，该公司创建了Project Common Voice，这是一个人们可以自愿记录他们的声音并转录他人录制的网站。怀特称，该数据集现在拥有超过20,000人的语音数据，可下载400,000个样本，使其成为全球第二大公开数据集。

项目DeepSpeech基于百度深度语音项目所做的工作，并使用Google的TensorFlow机器学习工具，该工具是开源的。新发布的模型允许开发人员创建具有语音识别功能的应用程序，而无需支付版税，Project Common Voice数据集允许使用庞大的免费语音数据集对其进行培训。最终结果可能是新应用程序的冲击，有些可能是智能手机用户可用的应用程序形式。White声称转录引擎的错误率仅为6.5%，这与人类可以做的非常接近，这意味着新应用程序应该更好地识别用户所说的内容而不是早期的产品。

White还指出，目前，模型和语音数据集仅适用于英语，但承诺很快也会支持多种语言，有些语言最早也会在明年使用。他还鼓励人们访问Common Voice网站以添加到数据集中，使其更适合每个人。

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读