|||
终于熬夜把苹果昨天发布 iPhone 4S (其实应该叫 iPhone 5) 的现场录像(http://events.apple.com.edgesuite.net/11piuhbvdlbkvoih10/event/index.html)看了。其中的一个最重要的 feature 叫 Siri,你的贴身秘书,可以用自然语言与其对话,执行你的日常指令。里面用到了自然语言技术,语音识别(speech recognition)以及语言理解(natual language understanding)。这个 demo 非常精彩,几乎就是科幻里面的未来世界。
后一种技术的应用其实没有多少奥妙,能够成功的本质是因为在一个软件应用的世界,其指令集是有限的,设计的时候可以反推:一个特定指令对应若干不同的自然语言的说法。譬如,问天气有多少种说法,问时间有多少种说法。这种有针对性的有限集的自然语言理解,是完全可行的。
大约5-6年前,我有机会与微软的研发人员谈过这个问题。当时,李开复还在微软,他领导的一个项目叫做 Natural Interface,就是想做这个事情。这个项目里面的研究人员问我:
你觉得这个NI的想法可行么?要解决的问题是这样的:现在的软件,功能越来越多,譬如 MS Word,里面有几百个功能。这几百个功能中只有少数的常用指令显现在菜单上,其他很多功能隐藏在软件里面,虽然有 Help 和 搜索,绝大多数用户想用某个功能的时候还是难以找到,或者没有耐心去找。能不能加入这个自然语言的搜索功能,不管用户找什么功能,用什么不同的说法,软件都可以理解,把那些沉睡的 features 提出来给用户。
我几乎不假思索地回答道:这是完全可行的。因为这是一个有限领域,目标指令是很有限的集合(几百个),从指令的概念反推自然语言的说法,用一点儿自然语言分析技术,没有实现不了的理由。而且,即便还有歧义不好解决,至少可以把可能的候选指令提出来,让用户确认。只要研发,就一定可以实现。
五年过去了,微软的产品里面还是不见NI的影子。而苹果呢?不仅实现在 iPhone 4S 里面,而且无缝连接了语音识别。
两相对比,微软与苹果在技术转移成产品的过程中的差别,岂止天壤。无怪过去10年中,微软股票不进反退,而苹果的市场价从原来的微软的零头发展到超过微软的总量。
李开复设想的 NI 项目起步不久,就离开了微软加入 Google,这个项目似乎是流产了。也许他要是留在微软,这个项目早就开花结果了,也未可知。这个技术一旦 streamlined,可以推广应用到所有应用程序中,大大改善人机界面和交流。这样的可行性高、应用面广的机会,而且微软早已看到了方向,却仍然多年停步不前,简直是不可思议的愚鲁。
苹果下一步的计划就是推广到更多的 apps 中,并且在英语西班牙语之外,再加入其他语言的理解。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-12 05:06
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社