|||
Not a Gospel to many involved parties in social media mining, but it is as powerful and true: the mainstream machine learning approach without using linguistic analysis is powerless before social media. Linguistic structures in addition to keywords have to be involved. Too important a message to go unnoticed, this blog elaborates on my last English post.
提上来,just too important to be left aside。不怕审美疲劳,也要把这话说透。对于很多人,包括投资人、创业者和用户,这不是福音,但它具有同样的普适性、爆炸性和真理性。虽然这其实一点不难理解,但蒙上眼睛不愿承认的大有人在,不仅国内,海外亦然,不仅学界,业界亦然。然而现实毕竟是现实。
用一袋子祠(Bag of Words,BOW)机器学习的主流方法做社交媒体挖掘,譬如舆情分类,无论西文还是中文,都不能信赖。捉襟见肘不堪应用是基本现状。原因如此显然,机器学习在短消息主导的社会媒体面前失效了。短消息根本就没有足够密度的数据点(所谓 keyword density)供机器学习施展。巧妇且难为无米之炊,这是一袋子词的方法论决定的,再大的训练集也难以克服这个局限。没有语言学的结构分析,这是不可逾越的挑战。
无论中文还是西文,短消息压倒多数是移动时代社交媒体的现实, 总须有人揭出社交媒体大数据挖掘背后的事实真相。BOW 面对短消息束手无策,是不争的事实,不会因为这是最简便 available 的主流方法,多数人用它,它就在不适合它的场所突然显灵了。不 work 就是不 work,这一路突破不了60%的精度瓶颈,离公认的可用精度门槛80%遥不可及,这是方法论决定的。
from 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑
对于BOW 舆情分类,60% 是天花板,这一点从业界多个独立渠道得到证实,我们自己的内部实验也支持这一结论。舆情分类是信息抽取(Information Extraction)在主观语言现象中的自然延伸。在信息抽取领域,长期以来的共识是,80% 的精度是一个系统能否实用的门槛。传统的信息抽取任务中,专名识别(Named Entity)早已达标(90%+),关系抽取(Relationships)当年也接近达标(70%-80%)。复杂事件(Scenario Template)的抽取一直不能实用,因为当年最好的系统也只能达到50%左右的精度(其实简化的事件 General Events 的抽取在句法模式的帮助下,其质量是完全可以达标的,它比舆情分析容易,这就是为什么复杂事件作为目标逐渐被简单事件代替的缘由)。在entity基础上的关系抽取和简单事件抽取是所谓知识图谱技术的核心,因为其对象是更tractable的客观语言现象,自动分析(parsing)基础上的大数据抽取已经完全成熟,只是一个工作量的问题。相比之下,舆情分析可算是信息抽取任务中难度最大的了,实践证明,在深度句法分析(deep parsing)的基础上,做细致深入的开发,也是可以达标的(80%-90%)。可是一袋子词不行,连门都进不去。结构分析是绕不过去的坎儿。多数短消息总共不过十来个词,没有结构分析作为支点,光那几个实词(按常规减去停止词后)注定玩不出舆情和语义来。
随着大数据时代的到来,得益于大数据广泛存在的信息冗余,舆情系统的质量陷阱不在查全率(recall),而是查准率(precision)。对于社交媒体里压倒性的短消息,不做结构分析,光靠一袋子词的传统办法,哪怕是再牛的机器学习算法,有再多的训练数据,舆情分类也不可能突破 60% 的查准率瓶颈。这就是所有社交媒体机器学习系统不得不面对的现实。无论其产品的可视化做得多诱人,社交媒体的舆情报告看上去多么漂亮,只要方法上没有用到语言结构,要想达到可信的质量是难以想象的。
【相关】
【立委科普:NLP 中的一袋子词是什么】 2015-11-27
一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21
舆情挖掘系统独立验证的意义 2015-11-22
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 23:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社