首页 >> 小程序 >>小程序专业知识 >> 技术盒子 | 语音识别揭秘，如何让微信“听懂”你的心？-绍兴网站建设为你呈现

小程序

详细内容

技术盒子 | 语音识别揭秘，如何让微信“听懂”你的心？-绍兴网站建设为你呈现

时间：2021-04-19 作者：绍兴网站建设【转载】来自：微信派

从1972年，一个孤独程序员对着电脑敲下第一句“hello world”开始，人类与人工智能的沟通与对话，便从未停止。

1.人类真能让冰冷的AI听懂我们吗？

现实中我们常常是这样的——

一位山东大汉想用车载语音打电话，只用三分钟就被系统逼疯了……

芭妖扒拔（8188）俺是说芭妖扒拔！你聋了吗！

再比如，游戏中的你带队与敌军激烈厮杀，和战友语聊时，竟收到一条这样的命令：

Excuse me？

被暴打一顿后才得知，老大的原话是“去杀1到5 boss”。

团灭……友谊的小船说翻就翻。

人机沟通的基础之一，是语音识别。

人与人说话都容易误解，更何况是人与机器？

也许你会觉得，微信的语音聊天和识别体验都还不错。其实，幕后的技术团队，微信技术架构部语音技术组花了整整4年的时间来“教会”微信，如何更好地听懂人话。

对人工智能而言，微信语音识别团队犹如专业而威严的老师，让微信从上线之初的“小学生水平”，成长进化为一个善解人意、能说会道的尖子生:语音识别准确率达到业内领先的95%以上，能听懂英语，普通话和粤语等多种语言。

我们先不讲复杂的技术，回到前面闹笑话的“五泡屎”问题——

2.为什么手机常常听不懂你说的话？

1.你没有“好好说话”

别误会，这不是说你有没有大舌头、不识字或重口方言，而是你说话的语气。

举个例子，苹果Siri挺聪明吧？通常我们在跟siri说话时，会下意识采用朗读化语音。这种情况下，我们的声音会将近标准，大大降低了识别难度。

而在游戏对战、对话聊天时，因为环境比较轻松，语速，口音，吞字，叠字的现象就会非常多，比如“哎卧槽，快快快我快没血了，奶妈快来加血撒”，这些则大大影响了识别率。

对于中文口语化识别的难题，全世界的科技公司都很头疼。一旦脱离朗读化环境，把“布莱恩”听成“睪丸炎”、“久石让”听成 “就是了”的案例比比皆是。

微信语音识别团队解释，由于随意性较大，音频质量参差不齐、语速快，这种情况下，目前较好的语音识别系统也会有将近25%左右的错误率哦。

2.噪音和距离是识别“杀手”

也许有人拍案而起，我普通话一级甲等，也做到吐字清晰精准了，为啥语音识别起来还是有误差？

这就要看，你说话时的环境是否嘈杂，距离话筒是不是过远了？

比如车载场合，具有回声或者室外噪音，会导致语音识别正确率急剧下降；再比如如今移动互联网使用的语音识别方式一般叫近景识别，也就是麦克风和声源距离较近，但即使在室内如果距离超过1米，也属于距离较远的情况，信号在路径传递中会衰减，也会导致正确率降低。

3.人工智能做作业速度慢

如何让人工智能更懂事？三个字，做作业！

对语音识别来说，让机器“听到”更多的数据，可以让它越来越聪明。但是我们在让机器学习的时候，必须要告诉他这句话说的是什么字（即所谓的有监督学习），但这样做数据积累是很缓慢的。

所以，如何让老师不用一天到晚拿着皮鞭监督，实现无监督训练或者半监督训练，让机器自己能进化，不断提高自己的性能，也将是技术发展的重要方向。

4.机器还不够聪明

当程序把一段语音变成文字以后，它并不知道这句话哪里对，哪里错，更不知道这句话是不是一句通顺的人类语言。

而且实际使用中，人们说话的语速、吐字、频率、音强都不一样，再加上方言、周边环境等问题。总而言之，达到一定的识别率比较容易，但要达到较高标准的识别准确率却很难。也就是说识别率越往上走，就越难。

不过，微信在介入语音识别领域之后，只用了短短的几年的时间即跻身行业领先水平，而且还在不断优化和提升中。

3.微信是如何“耳听八方”的？

既然无法左右天南海北的用户怎么说，那就只能好好教导微信如何“洗耳恭听”了。

2012年，微信团队悄悄开始投入语音系统的研究。

不过，当时的尝试也仅仅是“谨慎”地上线了个语音提醒的公众号，并未过多发挥。

直到2013年，微信推出的语音输入在业界获得了巨大成功，随后在2014年，才正式上线了语音转文字功能。

有意思的是，这个功能，入口被微信“藏”的极深，但用户量却越来越多。

你发现了吗？

语音输入是在附加菜单里，语音转文字必须长按语音消息才能看到。

微信团队解释说，微信对每一个接口和功能的上线都是极为“克制”的，所有的设计都是跟随用户实际需求，而非炫耀技术。入口藏的深一点，可以避免骚扰那些不需要使用该功能的用户。

4.微信采用了深度学习法并迎难而上

回到技术——

首先，微信采用了深度学习法。

简单而言，语音识别系统输入的是语音，输出的是汉字，机器要学习从语音到语言的映射关系。

先说语音，我们要教会微信怎么听。人的发声从声带的震动，要经过声道，口腔，受到其中很多肌肉组织运动的影响，类似原始信号要经过复杂函数的变换，深度学习框架由于具有多层结构，能很好的模拟这种复杂函数。

再说语言，我们要教会微信怎么懂。通常我们说的话是要符合句法的（组合性），而且要符合搭配习惯（因果性），我们要让机器学习到这种规律。其中的难点是词义，比如“知道”和“了解”读音截然不同，但词义有时是差不多的。

“研表究明，汉字的序顺不影阅响读。”

“比如当看你完这话句后，会发这现里的字全是都乱的。 ”

——小派

你看，很多时候，我们可能不会百分百听清楚一句话，但是我们还是能够根据语境和词语的组合发音方式明白它的意思。

机器深度学习的方式模仿了人类大脑的神经元，当处理的语言越来越多时，这种网络就可以逐渐理解语言。简单点说，语音识别系统就好比一个人学一门语言，同等聪明的情况下，听到的话（训练数据）越多，越容易识别出好的结果。

微信采用深度学习技术，并且微信拥有庞大的用户基础，有天然的语音交互场景，也拥有大量的语音资源的积累，这也成为微信语音交互技术迅速发展的重要原因之一。

同时，疯狂的技术团队一直在知难而上。

除了深度学习以外，微信还做过哪些努力让语音识别更好用呢？

微信语音识别团队一口气举了太多例子，小派深思熟虑后，挑了自己能听懂的来说……

比如，针对口语风格（比如电话）下的性能问题，微信采用了一个良好的分段断句引擎，融合了音频属性，说话人以及部分语义信息，能够良好的断句；

为克服噪声的影响，微信通过模拟真实场景的算法，可以把过去的无噪数据转换成包含多种不同场景的噪声数据，让模型在学习内容的同时也学习到了如何应对不同的环境干扰。

对大数据下的难题，由于每个用户的声音都不一样，通用模型的长尾问题是导致错误发生的重要原因。微信不拘一格，通过算法让声学模型在学习的过程中将说话人的信息抹去，这样的做法也对提升识别率有一定的帮助。

随着微信的语音识别技术不断发展。识别率越高，就越能给实际场景运用中的用户带来更好体验，甚至会彻底改变玩法，同时也让用户对语音的依赖大大提升。

5.未来，微信将直接和你聊天

等AI能真正听懂了，对话还会远吗？

正如人有五感一样，手机也有相应的图像识别、语音识别、NFC通讯等等“感官”。尤其语音作为一个重要的入口，苹果的siri、微软的cortana、google now等等应用纷至沓来。

很多人都没留意到，去年底，微信团队和香港科技大学宣布成立人工智能联合实验室，研究的主要方向是:数据挖掘、机器人对话、机器视觉、语音识别。现在微信有庞大的用户基础，和天然的语音交互场景，如果将不断智能化的语音助手作为微信的入口之一，微信的生态势必会进一步向前进化。

智能家居、互联网汽车、智慧医疗、在线教育、自动电话客服、机器同声传译等等领域都将充斥着语音交互技术。想象一下，当你不仅仅可以语音聊天及输入，而是可以告诉你的闹钟晚个10分钟再叫醒你，用语音搜索要去吃饭的餐厅，或者开车的时候随口发个短信或者邮件。甚至，你的机器人助手完全可以听明白你随口说的每一句话，像一个拥有智慧的人一样跟你互动，那会是多么让人激动的事情。

这一切必将发生在未来，也许就是不久的未来。