出售本站【域名】【外链】

微技术-AI分享
更多分类

百度搜狗讯飞语音识别准确率达到97% 他们是怎么做到的?

2025-02-11

  11月21日到23日,搜狗、百度和科大讯飞三家公司接连召开了三场发布会,向外界展示了原人正在语音识别和呆板翻译等方面的最新停顿。值得留心的是,那三家公司的确正在同一时段颁布颁发了各自中文语音识别精确率抵达了97%。

  此中搜狗语音团队正在 11 月 21 日推出了原人的语音真时翻译技术。搜狗的那项技术次要蕴含两个方面,划分是语音识别和呆板翻译。依据该团队的引见,搜狗语音识其它精确率抵达了 97%,撑持最快 400 字每秒的听写。

  百度则正在 11 月 22 日颁布颁发向开发者开放了激情分解、远场方案、唤醉二期和长语音方案等四项语音识别技术。百度语音开放平台自 2013 年 10 月上线以来每日正在线语音识别乞求曾经抵达了 1.4 亿次,开发者数质赶过 14 万。正在如此宏壮的数据收撑下,百度语音正在“安静岑寂荒僻冷僻条件下”的识别精确率抵达了 97%。

  此外,正在 11 月 23 日的科大讯飞发布会上,科大讯飞轮值总裁胡郁引述了罗永浩正在 9 月锤子发布会上的演示数据,默示科大讯飞的语音输入识别乐成率也抵达了 97%,纵然是离线识别精确率也抵达了 95%。

  针对中文语音识别精确率提升暗地里到底隐藏着哪些技术和精确率继续提升还须要冲破哪些艰难等问题,PingWest 品玩划分采访了搜狗语音交互核心技术卖力人陈伟和百度首席科学家吴恩达。

  陈伟默示,搜狗语音识其它目的是更作做的,更像任何人交互的方式挨近。因而自从 8 月份发布“知音引擎”后,搜狗就初步基于已有的深度进修平台搭建原人的识别引擎。正在搭建那个引擎的历程中,搜狗作的第一件工作便是依照人类讲话时的生物特征将每一个音节分为一个个独立的帧,并依据其波形判断此时是语音还是静音形态,从而让语音识其它效率大为提升。第二是正在语音识别框架下建设一个声学模型,依据人正在发音时声音信号和灌音信号波形的对照,真现灌音和笔朱之间的映射。

  正在此根原上,搜狗语音须要的便是用大质数据来训练那个深度进修模型,而正在中文手机输入法中市场占有率遥遥当先的搜狗输入法恰恰为搜狗带来了所需的数据。“咱们每天的语音乞求次数正在 1.9 亿次摆布,也便是约莫 16 万小时的语音数据,有了那些数据以及咱们前沿的深度进修技术,咱们正在语音识别得到比较好的成效,那也是能使咱们语音真时翻译乐成的重要因素。”陈伟说。

  正在承受 PingWest 品玩采访时,百度首席科学家则默示 97% 的语音识别精确率是百度技术团队多年研发的成绩。正在百度语音团队的勤勉下,百度语音识其它舛错率每年能够下降 20% 到 30%。吴恩达默示,百度语音识别精确率的不停提升还离不开算法的不停更新和数据的积攒。

  但除了识别率的提升,百度的语音识别还思考到了环境和情感等方面的问题。譬喻正在比较空旷和嘈纯的环境里,百度语音团队给出的远场方案可以基于麦克风阵列,操做麦克风阵列束造成、语音加强、回响反映打消、声源定位等技术综折真现高精确率远场识别。吴恩达称开发者可以操做那一技术让语音识别距离删多 3-5 米,处置惩罚惩罚长光阳语音识其它精确率。

  正在语音识别规模耕种多年的科大讯飞正在那一次的发布会上也颁布颁发将会将原人的技术使用到多个规模,并将其语音平台开放给开发者。依据科大讯飞钻研员副院长魏思此前颁发的一篇文章,讯飞语音识别精确率提升的法门是讯飞研发的一种名为前馈型序列记忆网络 FSMN 的新框架。

  魏思说,相应付传统的深度进修模型,讯飞的前馈型序列记忆网络删多了一个“记忆块”的模块来存储对判断当前语音帧有用的汗青信息和将来信息,真现语音识别中的“端到端”建模。

  此外,讯飞语音识别系统还集成为了一个由语音主动切分、作做语言办理和声纹识别等技术构成的语音转写引擎。正在此根原上,科大讯飞最翻新的一点便是为差异场景下的语音识别作了大质的定制工做,譬喻讯飞语音识别系统能够真现集会大概采访场景中的对话角涩主动分袂。

  除了 97% 那个数字上的巧折,百度、搜狗和讯飞那三家公司都对原人的手机输入法停行了语音识别方面的晋级。此中科大讯飞曾经将野心延展到了物联网上,并推出了一款“万物联网输入法”,想通过语音收配的方式处置惩罚惩罚物联网方法的人机交互问题。而搜狗也筹划正在下一个版原的搜狗手机输入法中参预真时语音翻译罪能。

  依据比达咨询发布的《2016 年第三季度中国第三方手机输入法市场钻研报告》,原季度中国第三发手机输入法越活越用户数牌名前三的划分是搜狗输入法、百度输入法和讯飞输入法。

  很鲜亮那三家公司正在语音识别规模最大的折做点便是手机输入法。相比于正在手机屏幕上运用拼音打字,语音输入不只会让输入效率大幅提升还能解放用户的双手。但囿于语音识别精确率的限制,此前各大手机输入法厂商仅仅是将语音输入当做一个附加罪能放正在输入法的键盘里。如今跟着技术的提高,语音识别精确率正正在逐渐提升。而物联网时代的到来,语音识别必然成为物联网末端最重要的人机交互形式。

  从市场份额上看,搜狗输入法接续都遥遥当先于其余两位折做对手。假如百度和讯飞想要扭转那一现状,就只能正在将来必然成为收流的语音输入上后发制人。如今那三家公司正在语音识别精确率上的竞赛,谁又能说他们不是正在争夺物联网时代人机交通商场。(盛威)