|
美国时间9月27日,亚马逊再次引领了远场语音交互的潮流,一口气发布了5款Echo新品,包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。其中,最为引人关注的是Echo Spot,这个被称为是Echo Show闹钟版的新品带有一个2.5英寸的圆形屏幕,用户可以用它来显示图像、歌词、视频聊天等,售价仅有129.99美元。
Echo Spot不同于新版Echo和Echo plus,并没有采用环形6+1麦克风阵列,而是缩减了麦克风阵列的配置,选用了环形4麦的麦克风阵列技术。为什么Echo Spot会选择更换不同的麦克风阵列技术呢?
最新亚马逊客厅产品家族:Echo和FireTV系列
不管第一代还是第二代,Echo都采用典型的6+1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内也只有联想和科大讯飞曾经模仿过这种阵型,其中,1代联想智能音箱采用的是环形6个麦克风+中间2个麦克风的结构。如下图右所示。
这里再说一下科大讯飞,其叮咚音箱系列产品都是模仿的这种结构,讯飞增加了1个麦克风,形成了环形7+1麦克风阵列的结构,如下图所示。叮咚1代和2代的差别主要是1代采用的是驻极体麦克风,而2代换成了模拟的MEMS麦克风。相比Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部采用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是采用的科胜讯CX20921芯片。
Echo Show则采用了椭圆形麦克风阵列,国内一般也称为跑道形,其实就是双线形,如下图左所示。这个阵型因为Echo Show的厚度问题所做了折衷处理,也是典型的技术妥协于产品设计的案例。目前,国内只有声智科技供应类似阵型,即L型6麦阵列,见如下图右所示。
进一步缩减了麦克风阵列的配置,采用了环形4麦的技术,如下图左所示,这个阵型既降低了成本但也保证了一定的效果,这是比较典型的根据场景选择合适技术的案例。目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即兼容4麦和4+1麦的麦克风阵列及开发板,如下图右所示。
相比6麦阵型来说,减少了2个麦克风之后,这个阵型仅是损失了一些4米以外的远场语音交互性能。但是根据国外产品公司对用户使用习惯的统计分析数据显示,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也适合大多数用户使用场景,尤其是酒店等行业的应用。
采用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也兼顾了成本和远场语音交互性能。国内小米AI音箱采用声智科技的前端方案,其中的阵型就是环形6麦,同时为继续降低成本,麦克风也全部采用数字麦克风,这样就省掉了模拟麦克风必须搭配的AD芯片。国内采用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照顾算法因素,依然采用了模拟麦克风+TI ADC的方案。
Google Home则独具一格,采用了双麦克风的方案,国内出门问问的智能音箱也沿用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。
科大讯飞曾经发布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也推出了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。但是由于这些特殊阵列的产品目前销量还较小,在市场上的影响还很小。
从上面的盘点可以看出,Amazon几乎每个新产品系列都会采用新的麦克风阵列技术,国内知名产品的麦克风阵型也多种多样,即便相同的阵型,其阵元间距也会不同,为何会产生这个现象?
首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、双L、平面、螺旋、球形等。
至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。由于成本限制,消费级麦克风阵列的阵元数量一般不超过8个,所以市面上最常见的就是6麦和4麦的阵型。
除了算法,决定麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所决定,特别是麦克风的质量和数量,又与每个厂商的供应链紧密相关,这就非常容易造成每款产品的差异。比如叮咚1代为保证性能,选择了性能指标更高的指向型驻极体麦克风,而Echo则为了保证量产质量,则选用了性能指标较低的MEMS麦克风。由于算法的持续提升,对于麦克风的要求不再严格,因此MEMS麦克风是当前主流的应用。
其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景肯定不一样,其需求自然也不同。智能音箱一般都是放置桌面,需要360度响应指令,所以环形阵列比较适合,而智能中控一般贴墙固定,仅照顾180度范围即可,这时候线形阵列就能满足。
当然这里也有特殊,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型恰当利用屏幕导向而只是重点满足某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅满足驾驶员的语音交互需求,则单麦/双麦基本就能满足,另外一种情况则是满足所有乘员,而且重点照顾后排,则需要采用分布式阵列。
再次从产品设计美观和约束来看,刚才提到了阵型,这就约束了产品的ID设计,但是产品若有差异就必然需要不同的ID,那么自然就需要形态各异的麦克风阵列。不同的阵元间距和分布会对麦克风阵列性能产生重大影响,所以这个设计过程中是技术和艺术互相妥协的过程。同时麦克风阵列对于遮挡也有一定的要求,当前的麦克风阵列主要是放在顶部,就是为了避免这个问题,当然这个约束也会随着算法技术的不断提高而弱化。
最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更好,但是由于生产需要大量人工介入导致成本较高,因此当前主要采用MEMS麦克风。MEMS麦克风又分为模拟和数字两种,模拟麦克风+专业ADC的性能指标也更好,但是同时也让成本上升。数字麦克风的难点就是采集的信号相对最差,需要算法处理更多以达到与其他方案同样的效果。
偶尔会听到行业人士做的一个类比,人类有两只耳朵,所以两个麦克风就能达到同样性能。这实际上是一个误解,以现在技术来看,即便用100个麦克风,也未必能达到人耳的效果。人耳是极其复杂的一个结构,至今为止实际上科学也没搞清楚所有原理,更谈不上用简单的麦克风进行模拟了。现在的麦克风,实际上都是标量麦克风,所获取的仅仅是声压变化转成的电信号,而且还没有耳廓,更无法根据场景变化随动调整。
那么为什么Google Home要采用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家不同的技术架构来探讨,当前市面上主要存在三种远场语音交互技术架构。
首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。
但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。
其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。
最后就是以Amazon为代表的前端+云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。
所以国内厂商开发的Amazon Alexa产品,若选用Sensory等提供的唤醒词,总是会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的互相较量,以致于产生了产品接入Alexa平台却要接受更差性能的尴尬。
从上面的分析来看,远场语音交互产品确实比较复杂,仅仅选用麦克风阵列就有如此多的问题。那么应当如何选择合适的麦克风阵列和技术呢?
首先还是应该从产品实际角度出发,先定前端方案再定后端技术,前端技术包含了麦克风阵列、唤醒和识别技术,后端技术则包含了自然语言理解和内容服务。
前端主要解决了产品是否听得准的问题,这其中有五个核心指标:远场语音唤醒率、复杂环境 误唤醒率、远场语音识别率、总体延迟时间和总体稳定性。这五个核心指标决定了用户的第一体验。
由于用户无法忍受前端技术出现任何问题,所以前端技术的稳定性也是至关重要,这个指标需要大规模量产的验证。后端技术主要解决了产品是否听得懂的问题,但是仅有自然语言理解还不够,必须和内容服务串联成反馈才能达到用户满意的目的,事实上,产品的智能主要就体现在后端,而且涉及内容服务,当前也仅有BAT等巨头做的比较完善。
目前来看,全球经过量产验证的前端技术主要掌握在Amazon、Apple、科大讯飞、声智科技等厂商手中,而后端技术特别是内容及服务则主要被Google、Microsoft、Apple、Amazon、百度、腾讯、阿里等巨头所掌控,思必驰和云知声等语音识别厂商也相继转型发布了平台战略。
其次应该是根据应用场景选取合适的阵型,比如产品定位的场景是否需要360度拾音?产品的用户群体大概都是什么年龄?产品的主要交互距离又是多少?产品的ID采用什么形状?产品是否考虑低功耗问题?
根据这些指标,可以由专业的技术方案商提供具体方案,比较复杂的场景可能还需要定制开发,但是以当前技术进展来看,比如声智科技已经不再约束阵型的尺寸和结构。
最后应该是在满足效果的前提下再考虑降低成本,这和具体场景还是有密切关系的,比如儿童故事机,由于儿童与机器之间的距离约束,成本实际上是第一考虑要素,那事实上用单麦克风方案就可以解决。对于技术实力比较雄厚的厂商,则可以兼顾成本与性能,向技术方案上定制专用麦克风阵列和优化技术。
对于大部分产品厂商来说,产品研发速度和稳定是第一考虑要素,那可以优先选择阵列的模组方案,这样更容易集成,成本也容易控制。这样可以让厂商腾出更多精力专注后端智能方面的开发,当前端技术稳定可靠后,真正体现产品差异的一定是后端技术。
亚马逊做完Echo家族的产品发布会,其电商网站似乎只卖Echo产品了,而且价格几乎腰斩,这是一个很有意思的事情。因为Amazon同时还在鼓励Alexa的生态,力求把Alexa打造成一个AI平台。但是从当前的窘境来看,Alexa的平台进展似乎一直不太如意,Amazon似乎只对推广自家产品更有兴趣,何况Alexa还故意给产品开发厂商制造了很多困难。
这也很容易理解,平台的开放和封闭本来就是难以兼容的关系,平台的天性就是开放,而产品的天性容易封闭,这是两类生态的竞争,还没有一家公司能够兼容并包。比如Apple依赖iPhone系列构建了封闭的平台体系,而Google则依赖Android建立了开放的平台体系。
以Amazon当前的表现来看,其走向Apple的可能性更大一些,这样实际开放的只是内容和服务,更像Apple的Apple Store。这也很容易理解,因为平台需要积累大量客户,肯定倾向于能够带来大量客户的生态伙伴,若这个生态伙伴恰好还是自家的,没有理由不扶持自家产品。
所以Echo持续降价,销量不断攀升,这个结果导致其他生态伙伴无法生存,但是从Amazon来看也不重要,因为不管用户从哪来,其核心诉求实际上达到了。当Amazon的用户积累到一定规模,自然也就形成了平台优势,反而会给后端开发的用户带来盈利的空间,这样也能形成正向的逻辑。
从正向的逻辑出发,Amazon的野心就很清晰了,这绝对是要挑战其他巨头的意思,因为一旦语音流形成,不管是搜索还是社交,Amazon绝对是有兴趣染指一把的,当然电商本来就是Amazon的优势。所以,Amazon和Google最近在Youtube较劲也就见多不怪了,相信这个事情还会发生很多。
这对于我们国内远场语音交互生态有什么启示?
这可能会影响三类厂商:产品厂商、前端技术提供商和后端技术提供商,后端技术提供商实际上就是平台。其中这对前端技术方案商没有太大影响,毕竟麦克风阵列、唤醒和识别都是一种管道型技术,同时服务于产品和平台两大厂商,其核心诉求更多是赚钱,并没有太多其他变现的价值,也就是说这部分用互联网思维来做也没有什么落脚点。
但是产品厂商和平台厂商就比较纠结,产品和平台厂商都需要用户,当用户量足够大的时候,产品和平台的后端变现价值就会凸显。但是实现这个目标都是实力的硬硬对坑,是走向开放模式还是封闭模式?开放模式必然意味着要放弃自家产品鼓励生态,带动生态伙伴一起发展。封闭模式则需要重金投入同时打造产品和平台,搞不好两败俱伤。这是一个难题,也是一家公司的战略决策,很难说哪种模式未来能够绝对制胜,但是摇摆于两种模式之间的厂商必然没有发展空间。所以,很多时候,战略判断和决策才是一家公司的核心能力。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 02:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社