36氪首发 | 将中文语音识别率提升至96.29%, 依图科_手机掌酷门户-http://wapzk.net(已创建9年零1个月)官网

首页 > 新闻中心 > 掌酷科技 > 互联网 >

36氪首发 | 将中文语音识别率提升至96.29%, 依图科

2018-12-11 11:36 36氪

原标题：36氪首发 | 将中文语音识别率提升至96.29%, 依图科技跨领域推出语音开放平台

计算机视觉（CV)是AI领域一大吸金赛道，也由此产生了商汤、云从、依图、旷视这样的“图像四小龙”。而这四小龙之一的「依图科技」却率先拓宽边界，踏入语音和自然语言处理（NLP)行业。

12月11日，依图发布了依图短语音听写API、和微软Azure推出依图语音开放平台，并和华为发布了“智能语音联合解决方案”。

其实早在2016年，当计算机视觉公司刚开始吸引投资人注意时，语音识别就开始规模化场景落地。现如今，百度、腾讯、京东、小米纷纷发布智能音箱，各种手机搭载语音交互，智能翻译工具、智能客服等语音类产品层出不穷。

那么，相比同类产品，依图语音技术的比较优势和市场空间会在哪里？在未来产品化落地上，依图会有怎样的规划？围绕这些问题，36氪独家专访了依图科技首席创新官，前Google Research Scientist吕昊博士。

依图科技首席创新官吕昊博士

确实，这个时间点进入语音行业挑战重重，一则先发优势不再，二则市场拥挤，科大讯飞、BAT大厂纷纷入局，从技术上升到平台生态，市场空间看似余地不多。

对此，吕昊表示：依图团队对国内现有的语音识别技术都做了调研，发现在不少场景下，语音识别效果并不理想，例如通话过程中的声音转写准确率低、远距离的声音采集识别效果差、语料数据积累不足等。因此，依图会从这些可优化空间入手，对模型算法进行打磨，提升识别率，降低字错率。

在语音识别领域，15%的字错率是一条红线，超过则基本不具备可读性，而低于3%则是可以被认为具备类人的语音识别能力。然而，在实际说话过程中，人的语速、语气、口音、语态等都会影响识别准确度。此外，不同于英文，中文复杂的语言元素，以及同音不同意等问题为语音识别带来了更大的挑战。那么依图如何应对呢？

吕昊告诉36氪：当前业内缺乏系统性的标准测试和测试集，对于语音识别缺乏体验和比较的工具，为提升识别准确率，依图团队搜集了大量真实对话数据，以及专业类、生活类的细分语料库，基于此，依图提出了自己多维度、多场景的测试数据集，由此来对模型算法进行训练和测试。

据悉，在基于全球最大中文开源数据库的AISHELL-2的测试中，依图短语音听写的字错率为3.71%，官方称领先原业内领先者科大讯飞约20%。在近场聊天、语音节目、电话、远场、混响等不同环境中，依图的语音识别技术平均字错率在6.36%。加入其它公开测试集，和依图新发布的测试集（涵盖50小时，60万字）后，字错率为6.39%，官方称领先科大讯飞约13%。

标签：技术领域开放语音语音识别

 0

上一篇：锤子科技艰难“过冬” 11月工资尚未发放
下一篇：没有了

官方微信公众号：掌酷门户(wapzknet)

首页 > 新闻中心 > 掌酷科技 > 互联网 >

相关资讯

36氪首发 | 将中文语音识别率提升至

锤子科技艰难“过冬” 11月工资尚未发

百度搜索结果“陷阱”频出罚款无异

说真的，你们公司可能离不开钉钉了

1秒究竟为什么是1秒？

未来我们不需要货币，只需要一套匹配

当房子一文不值时，白送都不要……

李宏鹏宣布年底离职，福特“在中国”

新闻热点

精选美图

导航新闻科技手机美图女人娱乐时尚旅游生活

客户端合作免责友链
Copyright 2009-2017 冀ICP备09035849号-1
掌酷门户版权所有冀公网安备 13092302000152号