出售本站【域名】【外链】

微技术-AI分享
更多分类

罗冬日:深度学习在语音识别上的应用

2025-02-20

罗冬日:腾讯高级钻研员,中国科学院网络信息核心硕士,现任腾讯云AI产品核心高级钻研员,卖力智能语音相关的产品钻研和开发。曾历久管事于百度等一线互联网公司,对数据发掘,深度进修有深刻的钻研。

我原日演讲次要分四个局部,第一个是分享语音识别概述,而后是深度神经网络的根原;接下来便是深度进修正在语音识别声学模型上面的使用,最后要分享的是语音识别难点以及将来的展开标的目的。

首先简略引见一下语音识别,它次要是个怎样样的历程呢?语音识别最简略的便是语音变为笔朱,那也是计较机缔造以来人类接续逃求的想要呆板识别出来人说了什么话,大概更进一步呆板了解人到底说了什么内容?但是语音识别那项技术,10年以前没有获得大范围的商业使用,为什么呢?因为10年前语音识其它成效不太好,识别精确率只要70%到80%。10个字识别了7、8个字,看起来还可以,但实正用到使用上时,那个精确率就远远不够了。

10年前咱们对产品的使用,其真不是像如今手机上那么多的使用,咱们收配更多的是正在电脑上,那种状况下,用鼠标和键盘的收配方式就会愈加精确,愈加便捷。但是如今有了APP,比如说正在车上,正在不少产品上用鼠标大概用键盘就会变得不太适宜,因而就孕育发作了须要用语音去控制的状况。

今年来,为什么精确率能够获得大幅度的提升?我原人归纳有三个方面的起因:

第一是互联网的展开,为什么互联网的展开让语音识别技术的精确率能够有很大的提升?因为互联网的展开让语音能够正在电脑上获得分享,让大质的语音数据存储起来,2000几多年的时候语音识别技术,可能只要几多百个小时的语音识别数据,这个时候感觉是很大的数据,如今咱们作语音识别技术,都须要几多万个小时威力作的比较好。

此外一个是硬件的展开也便是GPU/CPU硬件的展开,计较速度相比几多年前高了几多十个质级,愈加突出的是GPU的使用,出格是正在深度须要方面的使用。CPU一个指令作一个加法作一个乘法,但是GPU作1千维的,一次的加法GPU一个指令就完成为了。那三者联结让语音识其它精确率获得很高的提升。

再讲一下语音识别系统根柢的识别历程到底是什么样子?首先咱们来看一下正在停行语音识其它时候,咱们先想象一下人原人,咱们到底是怎样样识别一个语音变为笔朱的呢?比如说咱们如今是一个小学生,方才进修中文不暂,有人说了一句话,说“马化腾”,识别出来几多个字,首先听到是一个音波,比如说马化腾,把它识别成为拼音,马便是ma,化便是hua,teng,拿到拼音的时候不晓获得底是哪几多个字,而后查一下新华字典,对应的麻、马,我从拼音可以变为汉字了,汉字怎样变为一句话和一个词呢?我就看了一下,我感觉马化腾那几多个字显现概率比较高,是咱们常常可以看到的,说到那句话的时候,马化腾,而不是背面的麻花疼。

呆板识别语音的时候大抵历程比较类似,首先便是灌音文件,而后颠终特征提与,而后咱们会提与声学模型,声学模型把咱们提与出来的特征变为发音,这么那组数据到底发什么音?

咱们获得发音以后,通过语言模型把音速通过一定的干取干涉变为识别结果,变为字、词,大概是句。特征提与那局部,咱们常常看到一些音频说8K、16K,大概是16K,16B,那些是什么意思呢?比如说8K,便是说音频会给取8千次,相当于那个灌音方法正在灌音的时候,每八千分之一秒采一个点,晓得那个声音的强度是几多多?那相当于一个训练的点,而后再对那个数据停行分帧,比如说25毫秒做为一个帧,不停的往后移,对每帧的数据对数厘革,假如是16K,便是400个点,相当于那一帧的数据里面,之前是光阳上面的先后点,而后再变为正在那一帧上差异频次的声音是怎样分布的,而后再颠终频次滤波,大概是对数调动,相当于是一个限质值。比如说MFCC,一帧数据获得13个数,一帧数据变为13个点,相当于13×100的限质,那便是正常的特征提与的历程。

咱们获得那个特征数据以后,就须要把特征数据变为到底是发哪个音速的概率?那项钻研的汗青历程粗略是那样的,不少年前他们作语音识其它时候,不是咱们如今体验式的语音识别,叫伶仃词识别DTW,比如说起立,正在座的人400人,比如说开门是怎样开的?把那个数据聚集起来,而后还说不少稀有的词,如今新来一个词,我就去比较那个人说的那句话跟哪个词联系干系性比较强的?比如说那个人出去,那个词比较像开门,就识别出来开门,一初步的语音识别是比较简略的一个词一个词识别。厥后展开有了HMM/GMM,混折高速模型,那个对语音识别来说从伶仃词识别到大词汇质的间断语音识别,是比较大的提高,作出那个还是很牛逼的。

有了混折高速模型之后,它的识别率比之前有了很大幅度的进步,但还是达不到工艺上大概咱们糊口中使用的程度,最近10年之内深度进修让语音识别精确率抵达90%以上,之前可能是70%到80%,抵达90%以上才有了商业上大范围的使用。

前面说的发音上的特征,首先是变为一个音速,而后是音速变为句子,一个节点有一个输入,生成那个词须要几多个本料,发音辞典,语音模型,不少文天性的孕育发作,发音辞典是须要提早问题的。

接下来讲一下神经网络的根柢知识,首先是深度的神经元,蕴含细胞核和树突,承受外部的信号,依据信号和其余的起因选择它的细胞到底是激活还是不激活?

据说那些科学家遭到了植物深度神经元的启示,缔造了正在数学上神经元的根柢构造,真际上是不是受那个启示也不晓得?也便是每个输入乘以一个值,把它们加起来,而后再非线性函数办理一下便是输出,是一种很简略的方式。

简略的神经网络,另有那么简略的神经元到底能够干什么工作呢?第一印象是干不了什么工作的,通过把那些神经元组折起来,组分解一个神经网络,神经网络构造也是比较简略的,他是一种分层构造,有输入层,隐藏层,以及输出层,每一个神经元,也是前面说的简略的神经元构造,那么一个简略的神经元假如办工作的话,对数据的暗示才华也还是比较简略的。

背面的人感觉前面这个太简略了,还模拟不了数据暗示,而后就搞出来愈加复纯的神经网络多层构造,有不少层,每一层有不少的节点,那个图可以看到密密麻麻的不少线。神经网络要作的工作,也便是一个训练的历程,密密麻麻的线里面,把它训练成比较好的形态,可以反映咱们训练数据的分布状况。

神经网络正常是怎样训练的呢?不论它的网络是什么样的,它都会有一个输出结果,正在训练数据里面也有一个准确的结果,首先有一个丧失函数的观念,丧失函数,用来判断那个网络的需求构造和范例构造到底差几多多?假如差的比较大注明不太好。丧失函数用来判断那个网络跟准确的相差几多多,而后是有一个劣化函数,假如差多了怎样调解里面的权值,依据丧失函数的结果,迭代参数,让网络输出结果愈加濒临范例结果的办法。

前面说的是根柢的神经网络,1998年的时候,如今是facebook人工智能实验室的卖力人,提出卷积网络,这个时候还只是一个观念,没有暗示出来更好的东西。到2012年的加拿大搞深度进修的始祖的学生,其时还正在读书,正在寝室里面GPU加快训练,把卷积神经网络融入他的模型里面,正在当年的比力里面拿到第一名,第一名比第二名的成效好了出格多,比上一次比力也好了出格多。颠终那个光阳点以后卷积网络和深度进修初步大放异彩一发不成支拾了。

卷积神经网络,卷积到底是什么东西?咱们可能也常常风闻卷积,一初步的时候我也感觉卷积是什么东西?就像它的名字一样卷一下积一下,积便是乘一下,卷便是卷起来了,我是那么了解的,可以看一下那个图。前面是一个本始元素值,中间那是一个卷积核,那是卷积之后的,至于卷积的历程,便是把那个卷积盒跟前面对应起来,每一个对应点都相乘加起来,变为背面那个样子,那是卷积历程。

那个卷积到底有什么用?乘一下计较一下到底有什么用?没有曲不雅观的感应,如今给一个曲不雅观的感应,那三个是卷积盒,那是用前面的方式对那个图像停行卷积办理,最后得出来的图像是那个样子,相当于我一个图像主对角线加起来,可以提出来主对角线的纹路。第二种是把中间那个减进去,而后是求均匀值,获得的成效是主对角线纹路,而后是四周象素检测边缘,而后是变暗昧了。前面看量料的时候卷积量料是什么特征,那个图可以看出来曲不雅观的感应。

RNN单元是对数据作空间上附近特征的提与,语音识别和NRP数据的提与,数据前后光阳上的点有联系干系性的,语音识别上前后相连的帧是有联系干系的,选择前面的字和背面的字,语音上也是有联系干系的。RNN循环神经网络构造,它的一个神经元的输入,可以做为下一个光阳点的输入,第一个光阳点输入,有本来的输入,也有那样一个光阳点的输入,那样的网络化,可以获得之前N个光阳点的数据信息,RNN网络有一个梯队爆炸和梯队小时的特点,每次训练的时候,都会颠终激活函数,要么大于1,要么小于1,颠终那个函数的时候,往前流传的时候要么变大,要么变小,假如小于1,不停的乘以0点几多,接续到前面的话映响就比较小了,假如是大的话乘以1点几多就越来越大,咱们正在语音识别上面组成很大映响,咱们正在第10帧的时候曾经感应不到正在第一帧的数据了。

有人提出LSTM单元,LSTM便是长短光阳记忆单元,正在那种网络构造中,它删多了两个比较鲜亮的特征,来处置惩罚惩罚前面说的梯度消失和梯度爆炸的观念,删多了一个门,正在那个通道上,它的梯队不会消失大概爆炸的,通过门的控制可以控制上一个信息点出去的几多多。

下面讲深度进修和声学模型上的使用,语音识别最次要的工做会合正在声学模型建模,次要是人发音以后,到底识别出来的音速是什么样,到底是什么声音?深度进修正在语音识别上面的工做,次要是有DNN、LSTM、CLDNN,看起来是一些英笔朱母,其真都是深度进修的神经网络。

首先DNN,输入一帧数据,获得发音单元的分类结果,其真那是比较地道的,输入一帧数据,有一个分类结果的概率,也没有使用到其余的信息。

LSTM单元,会操做到那个光阳点,和之前收解光阳点的一些数据源,来停行帮助判断,当前的那帧数据到底数据哪一个分类?

双向的LSTM成效比单向的成效更好一些,因为它是同时两个标的目的,比如说原日去用饭,如今的LSTM识其它时候,识别我的时候它可能只使用到原日,前面的数据,但是双向的话,正在识别我的时候会用到原日,会用到咱们去用饭,其真两边都会用到,能够获与高下文的信息更多一些,成效也更好。如今咱们不少语音识其它产品可以看到,咱们一边说话一边正在出结果,那个模型是不晓得背面的数据,正常只能识别单向的。

CLDNN,那种网络构造目前来看是比较成熟和不乱的一种构造,正在那上面有训练数据,也能够比较容易的训练出来,前面是几多个网络背面再接LSTM,厥后再接Dense,有一些高效的企业会提出删多新的网络,比如说可能会把卷积网络加不少层,可能会加10几多层,因为卷积网络的特点是假如加10几多层后会提出来声音特征,最后的识别成效也会更好

最近几多年来正在语音识别上面有一些新的技术,其真也不是太新,CTC最初步的算法是正在2003年还是2006年就提出来了,那是端到实个识别办法,正在语音识别之前须要作一些预办理,比如说咱们的训练数据,我说那句话它的文原是什么?须要把人的音频和对应的发音,要先对好,端到实个算法不须要,一句话输进去,而后一句话出来,咱们的训练是输入音频数据,而后获得结果,跟之前纷比方样的是对整个一句话的训练和识别,对一句话作计较。

单元粒度的厘革,可以训练音速,到最后的汉字,咱们不用眷注里面的细节是什么样子,也不用加工人工的办理,应付去收配那个模型的人来说愈加简略了。

此外一种端到实个识别,是encoder—decoder+attention,通过借助呆板翻译中的编码、解码模型和留心力机制。首先是听者解码器,办理的数据刚初步跟传统的数据一样,将数据的特征提与以后,把那组数据颠终小的神经网络,提与出来高位特征,而后再输Attender,参取者对前面提与出来的特征给取留心力机制,而后结果输给拼字者Speller,将那些音速变为字和句子。

我看谷歌发布的文章里面说,那种办法比之前传统的算法舛错率低了不少,它是一种彻底端到实个分法,它出来以后,前面其余的算法都变为的传统的算法,但是那样的算法也有一个缺陷,不能作真时的识别,不能一边说话一边识别,真时罪能暂时还不能作。

至于咱们如今的技术难点,假如哪个厂商说精确率97%,这那个就很牛了,对于它的精确率各个厂商都那么说,其真精确率是正在安静岑寂荒僻冷僻的状况下另有范例化的状况下才华够抵达,假如说有噪音,大概说这个人普通话不范例,大概有口音的普通话,识别率会降到80%,成效并无想象这么好。对于远场识别,假如说我有一个发话器,同声传译成效比较好,高噪音环境下成效不是很好。另有便是带口音的识别不好。另有多人的时候语音混淆,以及带情绪的声音。那些都会使识别成效不好。

怎样处置惩罚惩罚那些问题呢?给取麦克风,更高量质的阵列麦克风,更多的远场数据,删多语义了解的帮助。

咱们的经营同学要求咱们加一些告皂,是咱们腾讯AI有关的小步调,不少产品可以体验一下。

如今腾讯云语音识其它相关产品就有上面那几多种,离线语音识别,真时语音,一句话识别,同声传译,语音识成。

离线语音识别,客户留言识别出来,另有便是真时语音,突然说话的时候可以识别出来,我原人开发一个APP,选择那个罪能可以嵌入进去。一句话识别,说完那句话就可以识别传给我。同声传译,识别汉语的同时把汉语翻译成英文,而后正在屏幕上识别出来。另有便是语音分解。

Q&A

Q:教师你好,我想问一下腾讯云上云端效劳语音识其它挪用光阳能够作到二三十毫秒的响应光阳吗?谢谢。

A:假如是咱们原人内部设备的话,识其它话,可以到30毫秒,但是假如是咱们供给的效劳,你们原人乞求过来,还要返回去,次要是那个方面延迟,所以到不了这么快,可能要100毫秒摆布。

Q:人工智能可以有嗅觉吗?

A:我之前也想过那个问题,我记得我读书的时候,咱们教师叫作咱们写一个文章,跟你原日问的差不暂不多,有嗅觉,有人走出去就晓得那个人来了,如今没有。

附件如下:

罗冬日:深度进修正在语音识别上的使用.pdf