微软对话语音识别再获打破,初次抵达人类专业程度

(记录 分享 博亿堂在线娱乐官网)的点点滴滴


1 新智元举荐1

源头:微软研讨院AI头条

【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%,初次达成与专业速记员持平且优于绝大少数人的表现。该告成归功于他们采取了一种神经言语模型,该模型在空间中被表现为连续的向量,谋略功能经过该模型得知比如“fast”和“quick”是具有紧密联络的近义词。

 

一个月前,2016年9月14日,微软的对话语音识别技艺在财产标准Switchboard语音识别基准测试中完成了词错率(word error rate, 简称WER)低至6.3%的打破,发明事前该范畴内错误率最低记录。

一个月后,10月18日,微软进一步将词错率低落至5.9%,初次达成与专业速记员持平而优于绝大少数人的表现:上周末,微软人工智能研讨部分的研讨员和工程师宣布论文 “Achieving Human Parity in Conversational Speech Recognition”,展现了这一创记录的语音识别零碎。

  

对话语音识别 5.9%的词错率意味着什么?

外行业标准Switchboard语音识别任务测试中,人类比较组(由专业速记员构成)将对话语音转录成笔墨,如今有记录的最低词错率便是5.9%,这就意味着微软的语音识别零碎的语音识别才能曾经高于天下上绝大少数人而与人类专业能手持平,发明了一项新的天下记录。

 

愈加令人感触高兴的是,从6.3%到5.9%,微软人工智能与研讨部分只花了一个多月的工夫,这让我们有来由相信,谋略机真正跨越人类语音识别才能那一天曾经不远了。

微软首席语音迷信家黄学东博士表现,“在对话语音识别中,我们曾经完成了和人类划一的程度,这是一个汗青性的打破,意味着有史以来第一次有谋略功能像人类一样识别对话中的每一个单词。并且,我们团队花了不到一年工夫就完成了这个目标,这远远高出大家的希冀。”就连担任微软人工智能与研讨部分的微软环球实行副总裁沈向洋博士也笑言,“要是在五年前,我是相对不敢相信我们可以完成这个目标的。”

 

针对语音识别的研讨可以追溯到上个世纪七十年代DARPA(Defense Advanced Research Projects Agency,美国国防部先辈研讨项目局,主要努力于美国国防高新技艺的研讨、开辟和使用)资助的一个相干项目。此后几十年,越来越多研讨机会谈大型公司连续参加此中。“这次打破是过去二十多年语音识别技艺时时积聚的后果,”微软主管言语及对话研讨组的研讨员Geoffrey Zweig称。

这次语音识别的里程碑式打破将对耗费者和贸易产品发生深远影响,由于语音识别技艺可以明显加强者们的一样平常谋略体验。这些产品包括像XBOX的文娱配置、像微软小娜(Cortana)的消费力东西以及能完成及时语音到文本转录的集团人工智能助手。“这项技艺将使小娜变得更强大,真实地让小娜的助理效力更智能。”沈向洋补充道。  

“筑梦为马”

Geoffrey Zweig将他们这一零碎的告成归功于他们采取的最新的神经网络技艺;让研讨完成质的奔腾的关键就在于他们采取了一种神经言语模型,该模型在空间中被表现为连续的向量,谋略功能经过该模型得知比如“fast”和“quick”是具有紧密联络的近义词。“这让模型能充分见解化每一个词汇。” Zweig表明道。

 

随着深层神经网络在语音识别和图像识别等范畴大显技艺,这一技艺正变得炙手可热。

 

深层神经网络运用少量数据(称为训练集)来训练谋略机零碎识别来自图像或声响等输入的形式。为抵达和人类划一识别程度的里程碑,微软团队运用微软基于多年技艺积聚开辟的一个外地化深度学习零碎CNTK,CNTK东西包已于一年前在 GitHub上开源,如今包括微软人工智能集团助理小娜和稠浊理想全息眼镜 HoloLens 的语音识别都是基于CNTK完成的。

黄学东博士表现,CNTK跟其他开源软件最大的区别是它能做大范围、分布式的板滞学习,同时保证强大的功能;可以说,微软的语音识别技艺可以一次又一次革新记录,在很激流平上就要归功于CNTK这个开源东西,它极大地进步了团队的研讨速率,终极在今天完成了与人类专业才能看齐的目标。

报答来得云云敏捷,从事语音识别研讨已有三十多年的黄博士告诉我们,“5.9%的后果是在野晨三点半获得的,我直到几小时后一大早醒来才得知,事前已有团队成员第临工夫在交际媒体上分享自己告成的高兴……这对我来说几乎是多年幻想一朝成真。”

后排左起:Wayne Xiong, Geoffrey Zweig, Frank Seide;前排左起:黄学东, Dong Yu, Mike Seltzer, Jasha Droppo,Andreas Stolcke;拍照:Dan DeLong

与此同时,来自微软亚洲研讨院视觉谋略组的研讨员也完成了自己地点范畴的里程碑式打破,在图像识别MS COCO(Microsoft Common Objects in Context,罕见物体图像识别)图像联络应战赛中获得第一名。这项应战赛主要调查在图像中确定某些东西的地位的技艺。微软亚洲研讨院常务副院长郭百宁博士表现,图像细分技艺的难度远超人们的想象,由于谋略机必需精准标识出物体在图像中呈现的界线,“这应该是图像识别中最难的部分。”

 

该团队客岁设计了一个极深的深层神经网络零碎,称为深层残差网络(简称 ResNet,deep residual networks)。该系分歧入手就屡获殊荣,比如这次在图像联络上的打破结果也是基于该零碎,成果比第二名高出11%,并且,相较于客岁COCO图像联络应战赛第一名的成果也有奔腾性的进步。对此,郭百宁博士骄傲地表现,“微软不断以来都是图像识别范畴的导游者。”

 

从识别到真正理解,“我们不会止步于5.9%”

固然比年来迷信家们在谋略机视觉和语音识别等方面都获得了宏大打破,但他们深知后面另有很多任务要做。

 

仍以对话语音识别技艺为例,微软团队的词错率固然完成了与人类专业速记员持平的5.9%,但这并不代表谋略机就能完满识别出每一个单词。理想上,即使是人类也无法做到完满,谋略机的错误率就意味着谋略机一样会在人类常常难以精确区分的内容面前目今败下阵来:无论是谋略机还是人类,都市发明“蓝瘦”、“香菇”(“舒适”、“想哭”)不好凑合。

“必需持续高兴!”Zweig说。他们接上去的高兴偏向之一,便是确保语音识别技艺能在类似人声哗闹的冤家聚会或背景声喧闹的高速公路上开车如许一些更宏大的理想生活场景都能鉴别精确,同时重点存眷怎样美满完成的办法,帮忙谋略机在多人言语的场合为每位发言者分派名字,还要确保谋略功能不论发言者的年龄、口音和音量大小而识别出种种语音。

 

从长远来看,研讨职员将重点研讨怎样教谋略机不但将人们嘴里收回的声响信号变为笔墨,更要理解人们话语中的含义。如许一来,谋略机就能精确答复用户的题目或采取相应举动。“下一个前沿技艺便是从识别到理解。“Zweig 说。

 

从更微观的角度,沈向洋博士指出,我们正在阔别我们必需理解谋略机的天下而逐步接近谋略机必需理解我们的天下,真正的人工智能仍在悠远地平线那一边,“在谋略功能真正明白我们的言语或表示之前,我们另有很长的路要走。”

阅读原文

看过本文的人还看过

(看完/读完)这篇文章有何感想! 来看看博亿堂在线娱乐官网是怎么评论的吧!

发表评论

电子邮件地址不会被公开。 必填项已用*标注