《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路

已有 4120 次阅读 2015-11-24 09:33 |个人分类:社媒挖掘|系统分类:科普集锦| 精度, 机器学习, 社煤挖掘, 一袋子词, 句法模式

Not a Gospel to many involved parties in social media mining, but it is as powerful and true: the mainstream machine learning approach without using linguistic analysis is powerless before social media. Linguistic structures in addition to keywords have to be involved. Too important a message to go unnoticed, this blog elaborates on my last English post.

提上来,just too important to be left aside。不怕审美疲劳,也要把这话说透。对于很多人,包括投资人、创业者和用户,这不是福音,但它具有同样的普适性、爆炸性和真理性。虽然这其实一点不难理解,但蒙上眼睛不愿承认的大有人在,不仅国内,海外亦然,不仅学界,业界亦然。然而现实毕竟是现实。

用一袋子祠(Bag of Words,BOW)机器学习的主流方法做社交媒体挖掘,譬如舆情分类,无论西文还是中文,都不能信赖。捉襟见肘不堪应用是基本现状。原因如此显然,机器学习在短消息主导的社会媒体面前失效了。短消息根本就没有足够密度的数据点(所谓 keyword density)供机器学习施展。巧妇且难为无米之炊,这是一袋子词的方法论决定的,再大的训练集也难以克服这个局限。没有语言学的结构分析,这是不可逾越的挑战。

无论中文还是西文,短消息压倒多数是移动时代社交媒体的现实, 总须有人揭出社交媒体大数据挖掘背后的事实真相。BOW 面对短消息束手无策,是不争的事实,不会因为这是最简便 available 的主流方法,多数人用它,它就在不适合它的场所突然显灵了。不 work 就是不 work,这一路突破不了60%的精度瓶颈,离公认的可用精度门槛80%遥不可及,这是方法论决定的。

from 一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑

对于BOW 舆情分类,60% 是天花板,这一点从业界多个独立渠道得到证实,我们自己的内部实验也支持这一结论。舆情分类是信息抽取(Information Extraction)在主观语言现象中的自然延伸。在信息抽取领域,长期以来的共识是,80% 的精度是一个系统能否实用的门槛。传统的信息抽取任务中,专名识别(Named Entity)早已达标(90%+),关系抽取(Relationships)当年也接近达标(70%-80%)。复杂事件(Scenario Template)的抽取一直不能实用,因为当年最好的系统也只能达到50%左右的精度(其实简化的事件 General Events 的抽取在句法模式的帮助下,其质量是完全可以达标的,它比舆情分析容易,这就是为什么复杂事件作为目标逐渐被简单事件代替的缘由。在entity基础上的关系抽取和简单事件抽取是所谓知识图谱技术的核心,因为其对象是更tractable的客观语言现象,自动分析(parsing)基础上的大数据抽取已经完全成熟,只是一个工作量的问题。相比之下,舆情分析可算是信息抽取任务中难度最大的了,实践证明,在深度句法分析(deep parsing)的基础上,做细致深入的开发,也是可以达标的(80%-90%)。可是一袋子词不行,连门都进不去。结构分析是绕不过去的坎儿。多数短消息总共不过十来个词,没有结构分析作为支点,光那几个实词(按常规减去停止词后)注定玩不出舆情和语义来。

随着大数据时代的到来,得益于大数据广泛存在的信息冗余,舆情系统的质量陷阱不在查全率(recall),而是查准率(precision)。对于社交媒体里压倒性的短消息,不做结构分析,光靠一袋子词的传统办法,哪怕是再牛的机器学习算法,有再多的训练数据,舆情分类也不可能突破 60% 的查准率瓶颈。这就是所有社交媒体机器学习系统不得不面对的现实。无论其产品的可视化做得多诱人,社交媒体的舆情报告看上去多么漂亮,只要方法上没有用到语言结构,要想达到可信的质量是难以想象的。


【相关】

【立委科普:NLP 中的一袋子词是什么】 2015-11-27

一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21

立委科普:基于关键词的舆情分类系统面临挑战】

舆情挖掘系统独立验证的意义 2015-11-22 

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-937992.html

上一篇:舆情挖掘系统独立验证的意义
下一篇:【立委科普:NLP 中的一袋子词是什么】
收藏 IP: 192.168.0.*| 热度|

1 ljxm

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 21:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部