前两天甜甜突然问道:Dad, is AskJeeves still alive? 这孩子一直对IT业界的事情感兴趣。譬如,当我讲述微软和苹果近二十五年的纠缠,五年河东,十年河西,十年又河东,彼伏此起,此消彼长,她都听得不亦乐乎,特别是说到 IT 传奇巨人 Bill Gates 与 Steve Jobs 迥然不同的性格和理念,她都特别爱听。
我告诉她,Ask Jeeves 还在,it is too big to die, 现在叫做 ask.com, 但是已经一蹶不振太久了。那可爱的堪与肯德基老头儿媲美的 Jeeves 智叟老仆的形象也几乎了无影迹了,网站的特色丧失殆尽。可是它曾经灿烂过,象IT界的流星。我心里想,在这个飞速转动的世界,AskJeeves 的传奇,如果我们做自然语言的人不去讲述,怕是很快就会灰飞烟灭,雁过无声。可是,它毕竟是自然语言技术与华尔街一次最亲密的短暂接触啊。
甜甜接着说:"yeh, I still remember my using it quite some time ago. I gave a question and it gave me back answers. Pretty cool. But now it is no different than other search engines' look-n-feel, and it is much less known. Most of my friends use Google, or Bing, some still use Yahoo, very few people even know the existence of Ask.com."
"Right, it used to be very unique, and it is an unfortunate legendary story, but that is IT. Players come and go. Only very few become real giants and dominant. Ask Jeeves has tried numerous times, but Google's simplicity and scale are simply unbeatable. And there were giants like Microsoft which put a ton of money to search too."
“I don't like Bing. First of all, the name is bad, people say that Bing stands for But It's Not Google, a very bad name. If you are not as good as Google, what is the point of claiming your being different? Google is always the best. I was joking to my friends who use Bing: I google everything in the web, and you Bing it, 你有病(Bing)哪? Bad name, you can not even use it as a verb easily, how can you "bing" it (unless 有病)? Google and Yahoo sound much better, both as nouns and verbs. Ok let us put them aside, so what is the story of Ask Jeeves? I still remember the funny image of Jeeves."
故事是这样的。从实际应用角度,自然语言技术直到今天也还只是曙光初现,问答系统也还没有成为搜索引擎的核心 feature,NLP(Natural Language Processing)远远没有达到业界可以成熟自如使用的黄金时期(the day will come, believe me, but it needs some time)。因此,除非是实验室的玩具系统,企图利用自然语言技术自动回答问题,有难以逾越的障碍。一个真正的自然语言技术支撑的问答系统至少需要两个关键部分:第一是对问题的理解,知道问的是什么;第二是对海量网页文字的语言分析,从中抽取答案。而 Ask Jeeves 出现在1996年(launch),走红在1999年(上市),恰好处于应用层面的问答(QA)系统诞生的前夜(参见:【立委科普:问答系统的前生今世】,严格地说,1999年第一届TREC QA的竞赛才标志了问答系统在学界的诞生),不可能具有超出时代的技术背景来支持它的系统。创意可以超越时代,但是技术永远是时代的产物,没有人可以超越(时代的局限)。既然如此,这个所谓自然语言技术的奇迹 Ask Jeeves 是怎样诞生的呢?
谈到这里,就到了这个 million-dollar 创意的核心了。Jeeves 确实用了一些自然语言技术,主要是在对用户问题的分析上(some type of question parsing),在这一点上,称它是应用型问答系统的先驱也不为过,尽管它所用到的技术并没有超出当年NLP领域的平均水平。好在它懂得何时使用,使用在何处。我们知道,相比起对海量网页的自动分析,问题分析具有相当的可行性。首先,问题都是一句一句的,即便在线分析也对系统负担有限。第二,从语言现象来看,问题相当于整个语言海洋的一个子集(sub-language),其句型是有限的(wh-question,yesno-question 等),根据统计调查,常用的问题及其格式在很大程度上是可以预测的。尽管有这些有利的因素,面对因特网千千万万用户的五花八门的问题,完全靠技术解构问题,以便到数据库搜寻相应的答案,也还是不可实现的梦想。Jeeves 创意的奥妙就是,技术只是一个引子,一个敲门砖,并不指望它对问题分析理解,而只是利用它对问题重新归类。理解(understanding)与归类(classification)相差何止以里计,后者是粗浅而鲁棒(shallow but robust)的自然语言技术可以胜任的。用户一个问题出来以后,根据问题中用到的关键词加上自然语言的浅层分析,Jeeves 把它映射到预制的问题模板(question templates)上去,诱导用户点击以确认其真正的问题。用户一旦点击其中的一个模板,问题也就确定了,歧义在用户的协助下自动消失,然后再去查询数据库中对应问题模板的答案及其链接,岂有不成之理?