陈孝良的个人专栏分享 http://blog.sciencenet.cn/u/brygid 谈谈声学,聊聊智能

博文

语音智能交互,距离我们还有多远? 精选

已有 4315 次阅读 2015-10-25 19:21 |系统分类:观点评述| 语音交互, 情感识别


随着亚马逊、京东、阿里先后发布智能音箱,10月份苹果收购VocalIQ和谷歌战略入股出门问问,盘点一下今年的语音交互市场,真是异常的热闹。那么,语音交互技术真的就像市场上热捧的那样走入了智能时代吗?

 

实际上我想这个问题大家都心知肚明,资本市场的热闹也不过是各个巨头的布局,甚至是其他用意而已。不管是微软的小冰、百度的小度,还是科大讯飞的语音识别、出门问问的语音助手,仅仅还都是停留在对简单问题的理解和回答,而即便这些也是依靠大量数据训练而成的,这种训练有时候甚至是开了玩笑,比如我们真的需要大量的“调戏”语言训练出来的结果吗?深度神经网络曾经极大促进了语音识别的发展,但是目前来看,要想解决复杂问题和逻辑推理还是存在极大的难度。

 

另外还有重要的一点,语音交互方面的用户黏性还是非常差的,比如我们一天会用几次Siri或者出门问问呢?而提高用户黏性的最大挑战就是要找到一种既能满足用户需求又能保证技术实现的产品形态。用户需求自然是很明显的,我们希望的是让我们能够自然聊天的产品,但是现在技术上实现真是太难了,不仅是语音识别和情感合成的本身难度,而且还包括了噪声干扰、方言混合以及远程拾音等等问题。

 

上面这些挑战,严重制约了语音交互在通用市场领域的应用,而我们传统思维上却总想用户都像技术人员那样能够理解这些技术并恰当应用,这反而才是制约技术发展最大的障碍。但是随着巨头的进入和语音交互市场的繁荣,国内的科大讯飞、百度、盛大、出门问问正在转变思路,他们逐渐摒弃了盲目扩张和宣传,从通用市场领域逐步扩展到垂直市场领域,扎扎实实根据用户需求做好垂直细分的市场领域。科大讯飞重点打造教育和车载市场,出门问问重点在可穿戴市场,而客服市场现在也是各个巨头极为看重的潜在市场。一想到语音交互机器人可能取代大量客服妹妹,这可能让很多人觉得商机无限,其实完全取代人工现在看来还为时过早,但是筛选前端无效咨询帮助减轻客服工作量,这才是目前语音交互最为重要的应用领域。当然,除了教育、导航、客服市场,还有金融、医疗等垂直市场据具有较好的应用前景。

 

谈了这么多挑战,也展望了未来市场应用,我们还是再看看技术发展。语音交互技术包括了语音识别、语音合成以及情感识别与合成等技术。从50年代美国贝尔实验室和国内的中科院声学所开始研究语音技术,到70年代小词汇量的语音识别取得较大进展,80年代非特定人连续语音识别技术快速发展,90年代大量声学识别模型的出现,直到21世纪语音识别才走进我们的生活世界。这期间不管是语音交互的前端处理技术、声学特征提取、声学模型重构等都取得了重大进展,特别是机器深度学习技术的引入,极大提高了利用传统声学建模进行语音识别的准确率,微软曾经宣称利用DNN算法可以降低语音识别错误率30%。但是这还是不够的,若能引入更多计算机技术,例如有限状态机等,将语音模型、声学特征、语料音库和情感预测等统一为整体的识别网络,相信我们距离《钢铁侠》中的自然语音交互应用不是太过遥远。


了解更多声学资讯,请关注声学在线(微信号:soundonline)





https://blog.sciencenet.cn/blog-1375795-930950.html

上一篇:巨头们争相布局声学相关产业的用意何在?
下一篇:超声刀美容去皱,真的能逆转青春吗?
收藏 IP: 115.171.59.*| 热度|

8 黄永义 白龙亮 陈南晖 刘锋 科学出版社 chenhong1974 laozao shenlu

该博文允许注册用户评论 请点击登录 评论 (7 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 07:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部