博文

一袋子词的主流方法面对社交媒体捉襟见肘，结构分析是必由之路

已有 4418 次阅读 2015-11-24 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 精度, 机器学习, 社煤挖掘, 一袋子词, 句法模式

Not a Gospel to many involved parties in social media mining, but it is as powerful and true: the mainstream machine learning approach without using linguistic analysis is powerless before social media. Linguistic structures in addition to keywords have to be involved. Too important a message to go unnoticed, this blog elaborates on my last English post.

提上来，just too important to be left aside。不怕审美疲劳，也要把这话说透。对于很多人，包括投资人、创业者和用户，这不是福音，但它具有同样的普适性、爆炸性和真理性。虽然这其实一点不难理解，但蒙上眼睛不愿承认的大有人在，不仅国内，海外亦然，不仅学界，业界亦然。然而现实毕竟是现实。

用一袋子祠（Bag of Words，BOW）机器学习的主流方法做社交媒体挖掘，譬如舆情分类，无论西文还是中文，都不能信赖。捉襟见肘不堪应用是基本现状。原因如此显然，机器学习在短消息主导的社会媒体面前失效了。短消息根本就没有足够密度的数据点（所谓 keyword density）供机器学习施展。巧妇且难为无米之炊，这是一袋子词的方法论决定的，再大的训练集也难以克服这个局限。没有语言学的结构分析，这是不可逾越的挑战。

无论中文还是西文，短消息压倒多数是移动时代社交媒体的现实, 总须有人揭出社交媒体大数据挖掘背后的事实真相。BOW 面对短消息束手无策，是不争的事实，不会因为这是最简便 available 的主流方法，多数人用它，它就在不适合它的场所突然显灵了。不 work 就是不 work，这一路突破不了60%的精度瓶颈，离公认的可用精度门槛80%遥不可及，这是方法论决定的。

from 一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑

对于BOW 舆情分类，60% 是天花板，这一点从业界多个独立渠道得到证实，我们自己的内部实验也支持这一结论。舆情分类是信息抽取（Information Extraction）在主观语言现象中的自然延伸。在信息抽取领域，长期以来的共识是，80% 的精度是一个系统能否实用的门槛。传统的信息抽取任务中，专名识别（Named Entity）早已达标（90%+），关系抽取（Relationships）当年也接近达标（70%-80%）。复杂事件（Scenario Template）的抽取一直不能实用，因为当年最好的系统也只能达到50%左右的精度（其实简化的事件 General Events 的抽取在句法模式的帮助下，其质量是完全可以达标的，它比舆情分析容易，这就是为什么复杂事件作为目标逐渐被简单事件代替的缘由）。在entity基础上的关系抽取和简单事件抽取是所谓知识图谱技术的核心，因为其对象是更tractable的客观语言现象，自动分析（parsing）基础上的大数据抽取已经完全成熟，只是一个工作量的问题。相比之下，舆情分析可算是信息抽取任务中难度最大的了，实践证明，在深度句法分析（deep parsing）的基础上，做细致深入的开发，也是可以达标的（80%-90%）。可是一袋子词不行，连门都进不去。结构分析是绕不过去的坎儿。多数短消息总共不过十来个词，没有结构分析作为支点，光那几个实词（按常规减去停止词后）注定玩不出舆情和语义来。

随着大数据时代的到来，得益于大数据广泛存在的信息冗余，舆情系统的质量陷阱不在查全率（recall），而是查准率（precision）。对于社交媒体里压倒性的短消息，不做结构分析，光靠一袋子词的传统办法，哪怕是再牛的机器学习算法，有再多的训练数据，舆情分类也不可能突破 60% 的查准率瓶颈。这就是所有社交媒体机器学习系统不得不面对的现实。无论其产品的可视化做得多诱人，社交媒体的舆情报告看上去多么漂亮，只要方法上没有用到语言结构，要想达到可信的质量是难以想象的。

【相关】

【立委科普：NLP 中的一袋子词是什么】 2015-11-27

一切声称用机器学习做社会媒体舆情挖掘的系统，都值得怀疑 2015-11-21

【立委科普:基于关键词的舆情分类系统面临挑战】

舆情挖掘系统独立验证的意义 2015-11-22