首页 > 新闻中心 > 掌酷科技 > 互联网 >

36氪首发 | 将中文语音识别率提升至96.29%, 依图科
2018-12-11 11:36 36氪

原标题:36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

计算机视觉(CV)是AI领域一大吸金赛道,也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界,踏入语音和自然语言处理(NLP)行业。

12月11日,依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台,并和华为发布了“智能语音联合解决方案”。

其实早在2016年,当计算机视觉公司刚开始吸引投资人注意时,语音识别就开始规模化场景落地。现如今,百度、腾讯、京东、小米纷纷发布智能音箱,各种手机搭载语音交互,智能翻译工具、智能客服等语音类产品层出不穷。

那么,相比同类产品,依图语音技术的比较优势和市场空间会在哪里?在未来产品化落地上,依图会有怎样的规划?围绕这些问题,36氪独家专访了依图科技首席创新官,前Google Research Scientist吕昊博士。

依图科技首席创新官吕昊博士

确实,这个时间点进入语音行业挑战重重,一则先发优势不再,二则市场拥挤,科大讯飞、BAT大厂纷纷入局,从技术上升到平台生态,市场空间看似余地不多。

对此,吕昊表示:依图团队对国内现有的语音识别技术都做了调研,发现在不少场景下,语音识别效果并不理想,例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此,依图会从这些可优化空间入手,对模型算法进行打磨,提升识别率,降低字错率。

在语音识别领域,15%的字错率是一条红线,超过则基本不具备可读性,而低于3%则是可以被认为具备类人的语音识别能力。然而,在实际说话过程中,人的语速、语气、口音、语态等都会影响识别准确度。此外,不同于英文,中文复杂的语言元素,以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢?

吕昊告诉36氪:当前业内缺乏系统性的标准测试和测试集,对于语音识别缺乏体验和比较的工具,为提升识别准确率,依图团队搜集了大量真实对话数据,以及专业类、生活类的细分语料库,基于此,依图提出了自己多维度、多场景的测试数据集,由此来对模型算法进行训练和测试。

据悉,在基于全球最大中文开源数据库的AISHELL-2的测试中,依图短语音听写的字错率为3.71%,官方称领先原业内领先者科大讯飞约20%。在近场聊天、语音节目、电话、远场、混响等不同环境中,依图的语音识别技术平均字错率在6.36%。加入其它公开测试集,和依图新发布的测试集(涵盖50小时,60万字)后,字错率为6.39%,官方称领先科大讯飞约13%。


上一篇:锤子科技艰难“过冬” 11月工资尚未发放
下一篇:没有了
官方微信公众号:掌酷门户(wapzknet)

相关资讯

新闻热点
精选美图