|
两年前,说到智能音箱,即便在全球也是悄无声息,大部分资本和厂商并不认可这个品类的潜力,那个时候的人工智能因为Google AlphaGo显得异常躁动,从资本到学界都充满了期待,甚至众人都已经开始担忧人类的存在问题。现在,全球智能音箱的销量累计超过了五千万台,从口碑和用户频次来看,智能音箱成为了全球消费电子领域最成功的人工智能产品,而人工智能的标杆IBM Watson以及AlphaGo缔造者DeepMind却受到了普遍的质疑和批评。
为什么会这样?人工智能这个产业其实并没有问题,问题就在于人工智能的过度宣传把消费者的预期拉高了,实际上现在的技术和产业链条并没有达到预期的高度,自然我们就会很失望。想想也是,我们本来订了个五星级酒店,进去后才发现只有三星标准,能不失望吗?要知道,消费者是要掏腰包的,当与预期不一致,必然就会用脚投票,人工智能厂商也没什么可抱怨的。
其实,“人工智能”这个词本身也有点问题,我们人类几千年文明,科学没能理解宇宙,哲学似乎也没搞懂智慧。那什么是“人工智能”呢?从图灵的探索开始,到现在我们有一个准确的定义吗?不过人工智能确实拓展了人类对于未来的想象,很适合科幻作品但不适合产品广告,产品永远关注的是用户体验,当然性价比也很重要,噱头只能是锦上添花,不能本末倒置。
至少,我们人类的生活还没有从人工智能中普遍受益,比如智能教育没有改变孩子上学的窘境,智能医疗没有缓解医疗资源的紧张,自动驾驶更不可能解决堵车的难题,也不要指望扫地机器解决家庭卫生问题,不受其累就很不错了。当前的人工智能若不是瞄准人类社会日益膨胀的资源冲突和利用效率问题,很大可能会第四次跌成低谷…….并非危言耸听,从Google的搜索趋势来看,人工智能的跌落指数也仅次于区块链了。我们应当记得,二十年前IBM的“深蓝”利用象棋与大师对弈,同样也引起了极大关注。
智能音箱其实是幸运的,毕竟还有全球五千万用户掏了腰包,说明这至少是一款消费者认可的产品。但是智能音箱真有智能吗?估计大部分用户并不这样认为,从数据统计来看,更多的用户其实只是认可远场语音交互技术带来的便利,想听首歌更简单了一些,当然也有一些用户仅是尝鲜,更资深的一些用户则要挑战一下所谓的智能了。其实迭代到现在,智能音箱还真有点“智能”的味道,虽然大部分技能闲置,也没有Killer技能出现,但从用户频次和应用需求来看,也还算不错的结果,而且用户通过远场语音与机器自由交互的习惯确实逐渐形成了,这也是巨大的进步,为未来打开了巨大的想象空间。国外的数据分析显示,智能音箱的重度用户,音乐已经不是其第一需求,游戏、玩笑、日历、购物、交通应用的比重已经越来越高了。
毕竟,人类身边的机器越来越多,这是趋势,抛开智能不说,人类也希望能有更好的方式与众多的机器连接。连接这个事情,其实就是这三十年互联网和移动互联网专注的事情,再早一点就是邮政系统和电话网络,只不过关注的都是人与人之间的互联罢了。显然未来更需要解决人类与机器的互联问题,甚至还要解决机器与机器的互联问题(人人互联,人机互联,then,机机互联?)。但是人机互联与人人互联不同,仅仅连接是不行的,2010年兴起即衰落的智能硬件验证了这一点。
新的互联必然是新的时代,但是这仍然需要基础技术的进步,比如移动互联的元素——智能手机,相比PC电脑集成了更多传感,包括GPS在内的很多传感蕴育了诸如LBS等很多新的商业模式,便捷的麦克风和摄像头也是视频社交的核心基础。从这个层面来看,新的传感必然也会带来新的机会,当然,新的交互则可能是真正的革命。从按钮、键盘到鼠标、触摸屏都是时代变革的显著信号。
所以,人机互联必须找到一个人类与机器沟通的高效入口,远场语音恰好就充当了这个角色,注意一定不能是近场语音,语音的天然优势就是解放了双手,近场语音把这个事情搞复杂了,况且远场语音天然覆盖了近场语音。声比光的魅力就是不见其人,先闻其声,近场语音把劣势当卖点显然很难成功。从人机互相适应的角度来看,远场语音交互率先做到了从“人类学习机器”到“机器学习人类”的交互革命,这个变化实际上正在悄然发生。我们做过一个调查,体验过智能音箱的用户,基本都不需要说明书,一句话告知就能马上使用,并且不久就会反馈智能音箱学习指令不够智能这类问题。这很有意思,因为PC时代我们拿到电脑首先就是学习鼠标以及打字,即便智能手机时代,也要简单学习触屏技巧,大部分时候是埋怨自己而不是机器,新的时代真的是不一样了。
实际上,我们很多的科学进步都是基于仿生或者启发于自然现象的思考,像爱因斯坦那样天马行空的是极少数。既然如此,人机交互就应该像人类之间交流那样自然,但是技术现在能做到吗?好像看论文听报告可以,但声光电热力磁哪个学科真正能到这个高度?我们刚刚有点模式识别和自动化的成果,就不要沾沾自喜,从来也没看人类这样称赞自家小孩:我们家孩子太聪明了,都认识爸爸妈妈啦。
况且,人工智能即便这一点还没做到,不管是远场声纹识别还是远场人脸识别。儿童从任何角度和距离都能辨识人或动物,至今还没有机器能够这样,特别是不要相信一些媒体夸大的产业成果,跑个测试集合得到的实验结果不具有普适性。即便声智科技,主要就是解决类人的远场自由交互问题,也远远还没有达到在远场环境下对于人或动物声音的这种辨识程度。
看似简单的一个仿生能力,其实非常非常难,就说一个小小的智能音箱,其技术就包括了如下极长的链条:传感技术(标量传感、矢量传感)、芯片技术(通用芯片、专用芯片)、声学技术(声源测向、波束形成、回声消除、盲源分离、混响抑制、噪声抑制、语音增强、语音编码、3D音效等)、语音技术(语音唤醒、端点检测、语音识别、声纹识别、哼唱识别、环境识别、语音合成等)、语言技术(语义纠错、语义理解、情感识别等)以及内容服务等。用户会关心这些吗?不会的,用户只关心满不满足需要,是不是简单好用!
那现在这些技术的水平怎样了?客观的说也就在70分左右,确实落地能用了,但是距离用户满意还有一段距离。当然,用户抱怨最多的还是智能和内容问题,这已经不仅仅只是技术问题了,这涉及到诸多产业链重构的问题。但是技术也不要沾沾自喜,诸多问题实际上也还没有解决。比如噪声复杂的工业场景、风吹日晒的户外场景、多人讨论的会议场景、全车对话的汽车场景等等,传感、芯片、声学、语音和语言技术都还有诸多难题没有解决。有一点需要明确,深度学习不代表人工智能,计算机学也无法解决物理学的根本性问题。
实际上,远场语音交互技术应用的产品领域越来越多,已经覆盖了音箱、机顶盒、电视、冰箱、手机、平板、汽车等,其用户需求也在不断迭代,这就需要更多新的技术来满足这些需求。比如当远场语音交互技术应用到智能机顶盒的时候,就凸显出一个问题,毕竟盒子与音箱不同,音箱从器件到结构都是前期设计,可以巧妙绕开很多开放性技术问题,比如自噪声抑制算法必须采集质量很高的参考信号。但是盒子就不行了,盒子作为一个配件必须兼容市面上所有型号的电视,这就有两个严重问题:首先就是盒子的HDMI输出音频不可能同时采集到参考信号,旁接线的方法影响用户体验绝对不能采纳,其次就是每家电视都会有独特的声学设计和音质调校,同一个盒子在不同电视输出的声音也千差万别。那怎么解决这个问题?这就需要OpenAEC技术,这是声智科技全球独创的技术,主要解决弱参考信号或者无参考信号等更为复杂场景的回声抵消(自噪声抑制)问题,在电视节目多变、音量很大的情况下也能保证语音交互的性能。
对于手机、平板这类小屏市场,则是另外的技术需求,声纹和唤醒显得为重要,这主要考虑到了隐私问题。儿童玩具的市场其实难度更大,低功耗和儿童语音唤醒和识别都还有差距,主要也是因为不同年龄段的儿童发音特征太过复杂。安防市场则是典型的超远场特征,麦克风阵列需要拾取5米以外的声音,五米以内的声音需要尽量抑制,更为复杂的则是户外传感的问题。至于汽车领域,后装和前装对比也面临着需求差异的问题,比如前装产品就要考虑全车语音交互的需求。
从长远来看,远场语音交互的核心瓶颈就在拟人化和个性化。当前的远场语音还是有很严重的机器属性,这对于人类来说是一个心理障碍,至于个性化,目前的智能音箱基本上还是一个账号多个用户使用的状态,显然这两点会影响到人机交互的效率和个性需求的满足。但是,随着产品的普及和用户的认可,技术的迭代速度也会更快,从技术发展的脉络来看,至少是越来越接近用户的预期。比如声智科技正在大规模部署声纹识别的服务,这将有利于改善个性化的一些问题。
但是,当前市场的产品也令人担忧,智能音箱现在是越做越便宜。若能保证用户体验,追求性价比自然是必要的,但是智能音箱还没到这个程度。首先智能音箱的产品品质并不出色,比如远场交互性能,算法还需要不断改进,场景也需要不断拓展,传感和芯片更要大幅提升性能以支持更复杂的计算,即便是音质,智能音箱一直就做的不好。其次就是智能音箱还没有清晰的盈利模式,便宜的产品必然没有太大利润率,苹果和小米就是清晰的对比,若想获得更大毛利,就不得不把重心移到内容服务,但是内容服务也需要硬件支撑,这和智能手机总是不断提升性能是异曲同工。从长远来看,消费升级是必然趋势,人们追求美好生活的愿望是真实不变的,不能因为短时间的市场问题就对未来丧失了信心,那些在某些下沉电商购买仿冒品牌的客户,早晚都会升级成真正品牌厂商的客户。
归纳来说,人工智能还是处于技术和场景的萌芽阶段,智能音箱作为一个突破口带给了市场极大的信心,但是人工智能怎么助力产业结构调整还真需要认真琢磨。人工智能其实非常需要精巧的设计,只有将技术与产品完美的融合在一起,巧妙避过技术的缺陷,充分尊重和挖掘用户的需求,才能真正获得用户的口碑,而口碑则是品牌的基石,也是贡献利润的根本。有一点是肯定的,只有赚钱的产品和企业,才能维持技术的不断迭代,满足用户日益增长的需求。若我们国内的人工智能产业能够如此良性循环,我们科幻描绘的未来世界就不会遥远!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 08:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社