博文

泥沙龙笔记：一杆子打了一个世界，凭的是什么？

已有 3199 次阅读 2015-12-1 07:42 |个人分类:立委科普|系统分类:教学心得| 一袋子词, 舆情分类

我: 吃火鸡不忘科普，立委宣讲一袋子词。主旨是说传统的机器学习，因为用的是一袋子词，所以对于社交媒体挖掘，基本是一筹莫展。

Xi: 这篇科普写的好，我都看懂了。

我: 老师真会开玩笑。我自己知道自己的毛病，想通俗又忍不住要加中英文的术语，加了术语看上去就令人生厌，可是又不敢不加。现在的问题是，这个宣讲不仅仅是一杆子打翻一船人，这是一杆子打了一个世界，因为无论中外，世界早就被主流 99% 地占领了。可是除了尚未证实的对于文本分析抽取和挖掘据信有高效的深度学习以外，机器学习的这个缺陷，对于社交媒体的失效，尚待有人反驳，拿出其有效的令人信服的理由出来。否则，政府和投资人对社交媒体舆情挖掘的投资，用户的买单，都有荒唐的意味。至少是盲目的，经不起推敲的。而道理却并不难懂。

想起前后跨越了15年的两段有关的切身经历，都与舆情挖掘有关。15年前找了一位很聪明的实习生，清华和科学院出身，如今已是IT大佬。当年他的第一个暑期实习项目就是分类系统的研发。当时的学界已经有 Thumbs-up Thumbs-down 的著名论文出世，就是那位当年 NLP 领域的新星，长得像个中学生一样的 Cornell 美女教授，她的研究，独领风骚。

洪: lilian lee，john kleinberg的太太，sentimental analysis，uic的liu bing比 lilian lee做得早。lee是Harvard phd，同时在att bell lab跟 f. pereira，上学时就是acl的玉女。

我: 对，亚裔美女教授。当年 Lee 的演讲我在场听，那是轰动的场面。开拓者的架势。

洪: 不过lee的学生多在Google，所以她自己也到那里sabatical

我：于是，跟着学界的标准，实习生做了一个 Movie review 的舆情挖掘系统，用的是贝叶斯的简单算法，结果奇好，可与学界最好的结果媲美。似乎是舆情分类的最佳应用了。细想一下也难怪，Movie Reviews 一般是一个段落，虽然不是长篇的文章，但也不是短消息那样可怜的稀疏数据。另一个有利因素是 domain 非常狭窄，用词和说法都很类似和集中。第三个优点是，不需要把分类出来的正负舆情与主题挂靠，这是分类系统的另一个难点，可在 Movie Review 里面，主题是外挂的（meta data），大家在同一个 Movie 下说事儿。有了上述三点有利条件，一个简单的机器学习分类系统就可以根据一袋子词做出精准的舆情分类，90%+ 的准确率，而不是面对社交媒体的60%的舆情天花板。

白：这都过气的模型了，咋批咋有理。伟哥哪天高兴了，批一批RNN多好。

我: @白老师，不懂不批。等 RNN 搞出名堂来，我就退休了事了，哪里还有批判的劲头。白老师们加油。现状是对于文本的 NLP 和抽取挖掘，这边厢是证实了的道路，精准高效可scale up 到大数据，剩下的只是力气活（纯粹工作量的事体），而 RNN 等深度学习那边目前为止只是描画了一个美丽的前景，疑似正经历或完成了 feasibility study，何时可以证实和 deploy，仍需拭目以待。就是这么个时间差。问过机器学习的老权威 Church 教授（老教授回函：理性主义回摆可能要再延迟10几年），他的观点是，深度学习的方法性突破可以再让机器学习领域热闹一阵子，大概会延宕NLP中理性主义回归10来年，但终究会潮退。这个深度学习及其未来，我是不明觉厉，观望祝福而已。另外，白老师认为对传统机器学习软肋，咋批咋有理，但大众并不一定有如此见识，所以值得反复解说。

接着说故事，后来我们就决定在产品中用这个实现的 classifier prototype 做实际语料的分类，记得是 industry classification 之类，产品经理定义就不十分明确，请我们的印度分公司组织人去做标注更是一锅粥，加上面对的是跳出了狭窄 domain 的真实开放语料，效果自然很不好，勉强试着放到产品去，用户看不到价值，不用它，后来就撤下了。这是第一次切身体验 classification 在 open domain 的真实语料中遭遇滑铁卢。

时光荏苒，10 多年后，我们招收了一位机器学习博士。浙大电脑出身，hands on，善编码和算法，书虫。这一位老弟来了以后，跟其他的机器学习博士一样，都是特别自信一族。发现大概是工作市场火的原因，凡是专业出身的机器学习人士，一个个都雄赳赳气昂昂的，有一种可以征服天下的气势在。话说这位博士老弟来了以后，一看我们是做 sentiment analysis，就主动请缨。这个本来也是我们的目的。我们用 deep parsing 做 sentiment，精准没得说，但是 recall 总是一个软肋，要想提高覆盖面，那是爬山一样的苦力，需要时间去磨。于是指望机器学习楼一下底，弥补一下 recall 的不足，但前提是 precision 不能太差啊。初生牛犊不怕虎，说这个好办，以前做过舆情的项目，训练库有 review data，数据量足够大，保证一两个月做出来。日夜奋战，确实做出来了，对着开放的社交媒体一试，无法使用，精度不到 50% 怎么用呢？不能怪他不努力，怪就怪我们预期太高，我们当时还没完全意识到社交媒体不是一块好吃的肉，它是机器学习的命门。另外，review data 的数据训练出来的 model 无论如何也难用到开放的社交媒体上。如果针对开放媒体去找人工去做训练集，一来 costs 太大，二来质量也还是难保证，估计最多是从 50% 提高到 60% 而已，有个要人命的瓶颈在那儿。小庙留不住和尚，这位老弟一战失利后去了财富100强了。他走前按照我的设计，帮助实现了中文系统的分词模块，灵活、高效、highly configurable，是有功之臣。

所以，我前一篇博文提到，社交媒体舆情分类 60% 的精度天花板也符合我们内部的探索结论，不仅仅是从业界几个独立渠道得到的 benchmarks。

这里还有一个有意思的插曲，有几次我们汇报了从 crowd sourcing （舆情结果找 4 个 native speakers 做判官，至少三个意见一致才算标准答案）独立测试出来的结果，对于我们着重的品牌（主要是饮料、快餐等），其舆情随机精度接近90%，相应的用户体验精度一度高达 100%（体验精度定义为头五百条相关 posts，因为这是用户 drill down 时看到的结果，多于 500，用户通常就没耐心翻页去看了，由于大数据的信息冗余及其频率统计的红利，对于热门品牌或话题，浮在上面的结果基本不可能错）。我们当时的 CMO 跟我说，不行不行，整个结果 too good to be true，不能拿到外面去说，人家会笑话的，反而降低了我们的可信度，因为业界大家都挣扎在 60% 的精度天花板下，有个别公司声称达到 70%，可谁也不敢随便提 80% 或以上。因此，虽然 crowd sourcing 算是严谨的由第三方评测的结果，也不能宣传。可以找一些其他话题或品牌，让我们的评测结果降下来，才好拿出去 publish。

技术人面对 marketing 最感滑稽和哭笑不得的事儿，不过如此吧。自我矮化，委曲求信，顾全大局，照顾同行和对手的面子。这叫李叔种瓜王婆卖瓜，哪个瓜小，哪个瓜烂，就吆喝哪个，为的是掩盖自己的杰出，不被枪打出头鸟。怪就怪我们的规则code写得太好了，我们语言学家都该颁发一个最佳程序猿奖。我们公司的创办人不了解学界的状况，他只是凭他十多年对不同技术和工具的尝试和观察，跟我说：我坚信在舆情上，rule rules （规则统治世界），机器学习必须让位。

【相关】

【立委科普：NLP 中的一袋子词是什么】 2015-11-27