《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

作为公开课的大数据演讲 精选

已有 10995 次阅读 2013-5-23 18:34 |个人分类:立委科普|系统分类:科普集锦|关键词:北京,演讲,大数据,NLP,立委| 大数据, NLP, 北京, 演讲, 立委

【立委按】鬼子的进村,打枪的不要:立委的北京演讲在【科学网公开课】论坛悄悄地露脸。感谢编辑MM录像、剪辑和整理上网 ,这里面的辛苦只有伊人自己知道。MM来函,要先让讲员过目。说句大实话,除非你是演员出身,或者是久经沙场的 marketer,譬如饶教授、诺奖得主那类超级大牛,像立委这样的的8级码工,看自己的录像纯粹是一场精神折磨。主要是,人长得丑,从小就不爱照镜子,积重难返。后来有了镜子也自己不用,从来都是拿 mirror 照别人。如今看录像就是逼一个怕镜子的人照镜子,那种对自己的不满,恨石不成器,不说也罢。就事论事,首先是太长,近两个小时,成裹脚布了。口音也重(一辈子也没改成)。语速太快,含混不清,还夹杂了太多的发音很不堪的 English。虽然意思基本都传达出来了,但是想来作为听众大概是跟自己一样很受罪的,不熟南方口音的估计不太搞清楚这个委员在说什么。再有就是台风不正,老揉鼻子、扶眼镜,身体晃动太厉害。没治了。不过,透过这些表层,应该可以看到磨难、坎坷、血汗和鸿运,还有一些NLP和大数据的鸟瞰式介绍 -- 如果您有足够耐心的话。感谢热心听众忍受我的口音做出来的 transcript,并允许我校正后在自己博客发表。


立委大数据演讲公开课】链接:

http://video.sciencenet.cn/20130521/


首先谢谢各位今天光临。愚人节好!(笑)

今天的题目是《大数据时代中文社会媒体的舆情挖掘》。这个工作我一直在做,现在已经做出了一个 Alpha product,可以使用了,下面可以介绍更详细的东西。

首先做一点自我介绍。实际上我的一生就是一个流浪。几个 milestones是,1976年高中毕业,插队。1977年文革结束,77级,第一次跳龙门。83年跳第二次龙门到社科院,读硕士。我真正入行,如果从 83 年开始,学 machine translation,师从刘倬老师和刘涌泉老师,这两位都是我们中国NLP界的开山鼻祖。他们从1958年、1957 年开始做机器翻译,从俄国那边引过来。我同事傅爱平老师也在这儿。当时我和傅爱平跟着刘倬老师在一起做。从 1983 年到现在整整 30 年。所以我说有30年的NLP经验。

1986年硕士毕业,留在语言所继续做机器翻译方面的工作。当时跟中文信息学会都有很多交流。然后就在中关村搞合作,算是半下海。一起做了一个机器翻译系统。在高立公司,做了四五年。1991年的时候,我身边的同学都出国了。大家都走了,就觉得有点不舒服,应该走。就洋插队到了 UK,英国当时处于最不好的时期。失业率百分之十几。我在短短一年在英国时期,两次被抢,大白天被抢,你看我的博客(《朝华午拾:警察抓小偷的故事》),一些 stories 非常有意思:他大白天抢你,他要钱,"摸你,摸你"(Money Money),我说,你摸我也摸不出钱来,我是穷学生,没钱。然后他说,O,I am sorry,一溜烟就跑走了。所以,他们是比较礼貌的这种强盗。(笑)不管怎么礼貌,危邦不居。我觉得不行,赶快跑。那是1993年。

93年闯关东一样地到了加拿大。加拿大是非常漂亮的国家,鲜花和牛奶。所以在那里就觉得有点意识,这是一个可以移民的地方,就开始生孩子、读博士、办移民。可是,再鲜花再牛奶,它的机会不多。整个加拿大的工作机会也比不上美国一个加州。它是博大,但并没有多少工作机会。所以,1997 年南下。南下到美国。那时候赶得很好,正好是美国大跃进的时候,网络泡沫最盛的时候。别说你有 technology,你就没有 technology,你只是有个 idea,哎呀,我现在看到好多人都养宠物,那么我就开个网上商店,专门为那些宠物提供食品,然后列举我有多少有利条件,投资人就会给你投钱。这不错,这个 idea 很新颖。我当时是带着 NLP 的idea,NLP是在中国磨了四五年,跟着刘倬教授跟傅爱平一起做的,我是有背景的。然后就很容易地到华尔街拿了一千万。当时做的最热的叫做 question answering,问答系统。

问答系统很热。因为那时候 Google 搞 keyword search,它一统天下,该尝试的已经都尝试了。投资人在想,技术方面还有什么新的突破。当时有一家公司叫 Ask Jeeves(【 IT风云掌故:金点子起家的 AskJeeves 】),正在最发红的时候,因为当时它自称自己是搞 NLP 的,有一个 Natural Lanuguage Interface,它有个自然语言接口,说你问问题,我可以给你回答。你 Google 呢,你 search 是一个 term,给一个关键词,你拿出来的东西也不是答案,它只是给你相关的文件,说你要的那些关键词这个最相关,它并不回答你的问题,它不满足我们大众的信息需求。你有信息需求,你一定是有一个疑问在心里,你想问出来,希望机器给一个回答。Ask Jeeves 在这样一个思维的背景下,它有一个 million-dollar idea,非常妙的 idea,它实际上本身的技术含量并不高,它的 idea 非常好。结果一下子就得宠了。它的 idea 实际上很简单。Question answering 实际上是有两部分。一部分是你要去answer他,answer 那边你要面对互联网的大海。那么多网页啊,语句啊,隐含的可能的对问题的答案。它不做那一块。它那个所谓NLP,什么都不做,面对大海的不做。它雇了两百多语言学家、词典学家和 domain specialists,总而言之,语言学学完了也找不到工作,把那些人招来,很高兴。两百人干什么呢?就是天天在那里研究老百姓都有什么疑问。如果有了疑问,比如你喜欢问诺贝奖金获得者、喜欢问风景地、喜欢问好莱坞电影明星的故事啊,它就了解大众的心理。FAQ,frequently asked question,它就把你了解出来以后,然后就想,如果问题是这样的话,那么互联网哪个网页最相关,最可能存在答案。然后就把这个信息用人工的方法存到一个数据库里去。如果遇到这样的问题,你就调这个 URL,遇到那样的问题,你就调那个 URL,一调一个准,因为它事前研究过嘛。它以不变应万变。它怎么以不变应万变呢?他另一头做了点NLP:他说你们都是query么,我现在不讲 query,我说 question,natural language,你只要问一个问题,我就可以给你找到答案。实际上它的 NLP 很 shallow,根本就没有可能真地去理解问题。问题对于整个语言,只是一个子集。语言中还有很多其他现象。一个问题,一般不会太长,问题也有一定的格式,who,what,when,它都有一定的格式。实际上,问题对 NLP 来说,门槛不是特别高。尽管如此,在当时的条件下,它其实做得更加浅陋。大体上做了一个很模糊、浅层的NLP,然后他以不变应万变的 million-dollar idea 是,他把你的问题做了粗浅的分析以后,他把你的问题 rephrase back to you,他把你重新解释一遍,然后给你十个所谓问题模板。这 question templates,他拿你的那些词去填空,它针对你的这些词的痕迹,做一点粗浅的语法结构,他估计你问的问题不会出八个到十个 templates 的范围之外。然后他说,你是不是问的这个问题?你是不是问的那个问题?一个反馈以后,你可能觉得这个机器很聪明啊,它似乎了解我要问的问题,举手之劳,按一下,问题就解决了。实际上机器没有任何理解,他不需要理解,因为他的问题已经得到了 user 的 confirm,一 confirm 以后,往数据库一调动,问题答案就出来了。就这样,你问什么常见的问题,他都能回答。说,you have questions,I have answers,非常地牛啊,牛得不得了。万一你那十个、八个模板,正好一个屏幕,是吧,结果并没有针对他的问题,有可能啊,譬如 5% 到 10% 可能性,你的问题超出了它模板能概括的范围,那机器在那一点就露馅了。但最初大家都很吃惊,认为这是 next generation,下一代的系统,能够取代 Google,这就使得 Ask Jeeves 当时一下子得到华尔街的青睐。是 NLP 第一次牛气。整个华尔街到处都在谈 NLP,NLP 不得了。

它这样一个成功故事,在 Bubble 破灭以后,Ask Jeeves 当然是一落千丈,但是它被华尔街已经捧那么高了,有那么多资金,确实也做了一些事。到现在还存在,你还可以看 ask.com (今天的Ask.com), 当然是一直处于不死不活不景气的状态。Anyway,它给我们创造了一个条件,给我们学 NLP 的人。就是说,以前,在 Ask Jeeves 之前,NLP 只在很窄很窄的领域、很小的范围运用。当然,(NLP中)machine translation 是个例外,因为它做得年头比较多嘛,当时有一家公司叫 Systran,它可以把它商品化,还卖了很多机器翻译系统。但总体上来说,NLP 是象牙塔里学者的玩具。大家做玩具系统,没有人真想到这东西哪天能够卖钱,能够得到工业界、投资者的青睐,觉得不可能。但是,等到 Ask Jeeves 把这条路给闯出来了以后,我们再到华尔街,说,啊呀,我们要做一个问答系统,比 Ask Jeeves 高明多了。很容易有这个卖点。怎么比他们强呢?当然比他们强啊。当时我领导的组,做了一个系统参加 question answering 一个组,信息检索这个领域,有个 TREC,Text Retrieval Conference, 这个 TREC 是很大的规模,因为搜索在工业界影响很大,所以每年大家在一起做一次切磋。其中呢,他们就在 1999 年还是 1998 年,他们做了第一次的 Question Answering 的 track,单单做了这么个 Track,说,我们想看下一代的人机交互是个什么样子的。因为这一代大家都知道,key word,你 type,然后你得到一些东西。说老实话,我们都用 Google,确实在 80% 的时候,我们的问题得到了答案。我们有什么想寻求的东西,差不多都能得到。如果得不到,我再换一种方式,你要是聪明的话,一般可以得到。也有 20% 的时候,你觉得很困惑。你说,呀,这个问题,不管我怎么做 query,总是找不到答案,实际上是这种情况。但不管怎么说,系统要往前走。所以业界就开始提出这么个概念,说,query 和 relevant documents 不是我们真正的解决方案。人机必须自然,这是第一条。必须回答问题的那个点。如果问你 who,你就要把人名找出来。你如果问的是 when,我就要把时间给找出来。要的是答案,你不能说给一个 paragraph,一个 document,然后说,你自己去看去吧,那不是真正的下一代系统。在这么一个概念下就有了 question answering competition,去鼓励大家朝这个方向发展。当时,我们这个组正好有 NLP,我去的时候是 1997 年开始做的,我们当时也是随着潮流做了 Named Entity,Named Entity 是信息抽取的一个基石,是一个 foundation,你首先要把名字搞清楚嘛。我们有了这两条以后,做 question answering,就比较好办。因为当时第一届 question answering 设计得比较简单,比较黑白分明,问的问题都是一个点一个点的问题,都是问那个 when,where,who,这些比较容易回答的问题。然后我们就得了第一名,怎么说,你不用找投资人,是投资人追着你。所以很容易地一千万美金拿到手。当时就糊涂了,一千万怎么用,用不了啊。每两周与投资人开一次董事会,他们说你要大跃进啊,给钱,你要想办法招到人。当时最害怕不能扩招的话,没法给一个交待,钱一定要花出去。Anyway,那是我们的 golden time,until 1990,还是 1991 年的时候【谢谢网友更正:应该是2001年】,那个 bubble 破灭,Nasdaq 垮了,整个美国至少股价是跌了一半,很多公司都关闭了。还好,我们公司没有关闭,还继续做下去,也做出了产品。这是那一段故事,我在我的博客里面你可以看,叫《朝华午拾:创业之路》,做了八年,直到我们公司后来被卖掉了。当然了,under water,并没有赚钱卖出,不过总是有一个善终,系统、产品还在用。

然后,我就觉得是一个转机了,就要进一步南下。我第一次是到 Buffalo,是在美国的的东北部,冰天雪地。当时创业,也没感觉到。后来,大家都向往的地方就是硅谷,就到硅谷去了,在现在的公司,做了七年。现在做的是这个舆情分析。

Anyway,我的生涯与 NLP 在工业界 penetrate 的这种节奏是基本上一致的。整个一个主题就是,流浪,流浪,还在流浪。



OK,我们回到正题,品牌,社会舆论和大数据。


【待续】



【相关篇什】

 北京演讲幻灯片上网(1/3)

北京演讲幻灯片上网(2/3)

北京演讲幻灯片上网(3/3)

愚人节大数据演讲 无片无真 移山愚人

【朝华午拾集锦:立委流浪图】

愚人节听立委报告

【置顶:立委科学网博客NLP博文一览(定期更新版)】







http://blog.sciencenet.cn/blog-362400-692826.html

上一篇:半导体的单晶硅
下一篇:照镜子的“效果”

37 肖重发 魏东平 蔣勁松 刘立 许培扬 李伟钢 庄世宇 陈安 武夷山 高建国 廖晓琳 杨华磊 陈筝 黄富强 袁贤讯 张文增 李宇斌 李本先 苏德辰 张能立 孔梅 闵应骅 徐大彬 李汝资 陈冬生 曹建军 章成志 何承林 张利华 刘淼 刘全慧 刘艳红 crossludo yangwencao EroControl bridgeneer tuner

该博文允许注册用户评论 请点击登录 评论 (27 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-15 00:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部