洪: lilian lee,john kleinberg的太太,sentimental analysis,uic的liu bing比 lilian lee做得早。lee是Harvard phd,同时在att bell lab跟 f. pereira,上学时就是acl的玉女。
我: 对,亚裔美女教授。当年 Lee 的演讲我在场听,那是轰动的场面。开拓者的架势。
洪: 不过lee的学生多在Google,所以她自己也到那里sabatical
我:于是,跟着学界的标准,实习生做了一个 Movie review 的舆情挖掘系统,用的是贝叶斯的简单算法,结果奇好,可与学界最好的结果媲美。似乎是舆情分类的最佳应用了。细想一下也难怪,Movie Reviews 一般是一个段落,虽然不是长篇的文章,但也不是短消息那样可怜的稀疏数据。另一个有利因素是 domain 非常狭窄,用词和说法都很类似和集中。第三个优点是,不需要把分类出来的正负舆情与主题挂靠,这是分类系统的另一个难点,可在 Movie Review 里面,主题是外挂的(meta data),大家在同一个 Movie 下说事儿。有了上述三点有利条件,一个简单的机器学习分类系统就可以根据一袋子词做出精准的舆情分类,90%+ 的准确率,而不是面对社交媒体的60%的舆情天花板。
白:这都过气的模型了,咋批咋有理。伟哥哪天高兴了,批一批RNN多好。
我: @白老师,不懂不批。等 RNN 搞出名堂来,我就退休了事了,哪里还有批判的劲头。白老师们加油。现状是对于文本的 NLP 和抽取挖掘,这边厢是证实了的道路,精准高效可scale up 到大数据,剩下的只是力气活(纯粹工作量的事体),而 RNN 等深度学习那边目前为止只是描画了一个美丽的前景,疑似正经历或完成了 feasibility study,何时可以证实和 deploy,仍需拭目以待。就是这么个时间差。问过机器学习的老权威 Church 教授(老教授回函:理性主义回摆可能要再延迟10几年),他的观点是,深度学习的方法性突破可以再让机器学习领域热闹一阵子,大概会延宕NLP中理性主义回归10来年,但终究会潮退。这个深度学习及其未来,我是不明觉厉,观望祝福而已。另外,白老师认为对传统机器学习软肋,咋批咋有理,但大众并不一定有如此见识,所以值得反复解说。
接着说故事,后来我们就决定在产品中用这个实现的 classifier prototype 做实际语料的分类,记得是 industry classification 之类,产品经理定义就不十分明确,请我们的印度分公司组织人去做标注更是一锅粥,加上面对的是跳出了狭窄 domain 的真实开放语料,效果自然很不好,勉强试着放到产品去,用户看不到价值,不用它,后来就撤下了。这是第一次切身体验 classification 在 open domain 的真实语料中遭遇滑铁卢。
时光荏苒,10 多年后,我们招收了一位机器学习博士。浙大电脑出身,hands on,善编码和算法,书虫。这一位老弟来了以后,跟其他的机器学习博士一样,都是特别自信一族。发现大概是工作市场火的原因,凡是专业出身的机器学习人士,一个个都雄赳赳气昂昂的,有一种可以征服天下的气势在。话说这位博士老弟来了以后,一看我们是做 sentiment analysis,就主动请缨。这个本来也是我们的目的。我们用 deep parsing 做 sentiment,精准没得说,但是 recall 总是一个软肋,要想提高覆盖面,那是爬山一样的苦力,需要时间去磨。于是指望机器学习楼一下底,弥补一下 recall 的不足,但前提是 precision 不能太差啊。初生牛犊不怕虎,说这个好办,以前做过舆情的项目,训练库有 review data,数据量足够大,保证一两个月做出来。日夜奋战,确实做出来了,对着开放的社交媒体一试,无法使用,精度不到 50% 怎么用呢?不能怪他不努力,怪就怪我们预期太高,我们当时还没完全意识到社交媒体不是一块好吃的肉,它是机器学习的命门。另外,review data 的数据训练出来的 model 无论如何也难用到开放的社交媒体上。如果针对开放媒体去找人工去做训练集,一来 costs 太大,二来质量也还是难保证,估计最多是从 50% 提高到 60% 而已,有个要人命的瓶颈在那儿。小庙留不住和尚,这位老弟一战失利后去了财富100强了。他走前按照我的设计,帮助实现了中文系统的分词模块,灵活、高效、highly configurable,是有功之臣。