近日,奇富借条(本360借条)母公司奇富科技智能语音团队所撰写的《Qifusion-Net:基于特征融合的流式/非流式端到端语音识别框架》一文,被寰球顶尖的语音取声学研讨会INTERSPEECH 2024采用。继去年《Eden-TTS:一种简略高效的非自回归“端到端可微分”神经网络的语音分解架构》一文与得国际否认后,那次再次与得殊荣,丰裕展现了奇富科技正在语音信号技术规模的深厚真力。
INTERSPEECH,由国际语音通讯协会(International Speech Communication Association, ISCA)开办,是语音办理规模的顶级旗舰国际集会。做为寰球最大的综折性语音办理规模的科技盛会,历届INTERSPEECH集会都备受寰球各地语音语言规模人士的宽泛关注。原届集会以“Speech and Beyond”为主题,内容涵盖语音识别、语音分解、语音编码、语音加强、作做语言办理等多个规模。奇富科技智能语音团队将受邀参取9月INTERSPEECH 2024科技盛会并颁发主题报告,进一步分享其正在语音识别规模的翻新成绩,取寰球同止共探语音科技的将来。
“百里差异俗,十里差异音”,我国幅员广大,方言品种富厚,方言的语法和语音特征不同显著,加之噪声烦扰、方言混淆、主不雅观感知的标注问题,以及人力标注工做的宏壮和系统性有余,招致语音识别技术的精确性和智能化水平受限。出格是正在金融业务场景中,市面上的通用语音识别技术正在应对方言时屡屡暗示不佳,招致人机交互的精确性和智能性大打合扣,效劳效率和量质受损。
为此,奇富借条(本360借条)母公司奇富科技引入全自研Qifusion框架模型,并将其集成到智能营销及贷后揭示等业务场景中,不只能够有效地处置惩罚惩罚上述难题,还正在识别精确率上获得大幅提升。正在复纯的通话环境中,语音识别综折精确率抵达了93%以上,用意识别精确率赶过95%,正在业界处于当先水平。
相较于其余语音识别框架,Qifusion框架模型具有以下特点: 方言品种更富厚
仰仗原身正在贷后场景及方言规模的富厚数据样原,Qifusion框架模型正在本有东北官话、胶辽官话、北京官话、冀鲁官话、华夏官话、江淮官话、兰银官话和西南官话等国内八种收流方言的根原上,精准强化了四川、重庆、山东、河南、贵州、广东、吉林、辽宁、黑龙江等用户密集地区的方言识别才华。那使得均匀识别精确率相对提升了25%,特别正在川渝地区,方言识别精确率相对提升超35%。
方言识别更精准
Qifusion框架模型具备主动识别差异口音的才华,并能正在光阳维度上对解码结果停行口音信息修正,使方言口音的语音识别误差率降低了30%以上,整体语音识别字错率降低了16%以上,显著提升了用户体验。另外,正在业内出名的Kespeech 开源方言数据集机能对照测试中,Qifusion字错率刷新模型最低值,抵达国内顶尖水平。 方言识别更高效
Qifusion框架给取了翻新的层自适应融合构造,能通过共享信息编码模块,更高效的提与方言信息。同时,该框架模型还撑持即说即译罪能,能正在无需知道格外方言信息的前提下,对差异方言口音的音频停行真时解码,真现精准的识别和转译。那使得Qifusion框架正在业务场景中能够迅速精确地捕捉并响使用户需求。
奇富借条(本360借条)母公司奇富科技以"连续翻新"做为焦点理念,专注于人工智能语音规模的深度钻研和自我研发。公司不只正在国际顶级语音学术集会INTERSPEECH上与得了显著的功效,还正在ICASSP、AAAI等国际顶级集会上颁发了多篇论文,如《基于多粒度Transformer的多模态情绪识别》、《基于SE模块和多尺度特征进修的语音激情识别》等,为寰球智能语音技术的提高奉献了中国的聪慧。