《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

舆情挖掘系统独立验证的意义 精选

已有 6737 次阅读 2015-11-22 01:40 |个人分类:立委科普|系统分类:科研笔记| 股市预测, 舆情挖掘, 独立验证

一个偶然的机会,做了一个偶然的HTC中文舆情挖掘的实验,结果发在博文到底社媒曲线与股市曲线有没有、有多少相关度,引起很多的兴趣,也激发了不少关于利用大数据做股市预测的想象。但这个实验对于我却有另一层难得的系统独立验证的意义。

这个实验本来只是为了回应投资人的问题,同时也满足自己的好奇,尝试寻找社交媒体大数据的舆情与股市波动之间的相关性。熟悉股市,帮助我制图的老友看到结果后评论说:It is interesting, to say the least.

 
HTC中文舆情指数(net-sentiment)与其美国股市表现曲线图的对比(谢谢老友帮助制图)

股市预测是无数人的梦想,哪怕有一点突破,可以用来 beat the market,那也是不得了的效应。但是造成股市波动的因素太多,反映股民信心的舆情只是众多因素之一种。虽然从中长期看,股市波动的总体趋势似乎有迹可循,但股市崩盘这样的突发事件应该是不可具体预测的。这就好像地震一样,什么时候到临界点是无法精确预知的。

撇开这个非常诱人的应用领域不谈,本博文要说明的是,该实验对我本人,对我研制的以parsing为基础的中文舆情挖掘系统的独特意义。这个意义的实质在于,它独立验证了该系统的质量,结论是:用 parsing 做底的中文社交媒体的舆情挖掘是靠谱的。

我们研制一个自然语言的舆情挖掘系统,特别是对中文社交这样的高度复杂的分析抽取引擎,自然有各种质量检测(QA),从我们开发者自己设立的各种 regression tests 来保障系统质量永远向上,到专门的QA组利用 Crowd Sourcing 的第三方资源帮助判定每一期开发的质量变动。后者也算是独立的质量监测。但这一切仍然是内部进行的过程。外部的独立验证很有必要,但难以操作。譬如学界(academia)会有一些系统竞赛,好处是标准是透明公开的,缺点是每个任务的制定与我们要实际应用的现场需求往往不能很好地吻合。为了做 apples to apples comparison,必须花费很多精力去适应学界制定的那个标准及其 format。另外一点是,学界的系统竞赛很少关注系统运行的效率,其宗旨是鼓励新方法的探索和科学的进步,而不是应用性的考量。其结果是,很少见到学界中的竞赛优胜者成长为一个工业卓越的应用,也很少见到工业大规模应用的系统去学界竞赛。

王婆卖瓜没有说不甜的。那么除了内部测试,怎样才能得到有说服力的独立验证呢?一个办法是客户的使用反馈,特别是大客户,他们往往尝试使用了一批同类型的工具,对于数据质量,会有切身的感受和非常有价值的比较,具有相当大的 due diligence 的参考价值(实际上我们有很多这样的客户反馈和见证)。缺点是客户的主观验证(或见证 testimony)往往不系统,而且数据质量与应用层面的其他 features 的主观感受容易混在一起。

恰好在这一点,上述实验的结果提供了一个极好的具有客观性的系统独立验证,令人鼓舞。数据挖掘的结果与股市波动的数据是完全独立的两个来源,如今居然吻合得这么好。于是,在验证了舆情与股市正相关之外,我们客观上得到了一个额外的系统独立验证的 bonus:本挖掘系统是靠谱的,质量是有保证的,因为在一年这样长的时间区间,两条完全独立来源的相关数据曲线恰好能相伴而舞,步调一致,这不可能是碰巧。具体说来有两点。如果舆情挖掘的结果曲线与股市波动有时吻合有时不吻合,我们不能得出结论说系统质量不可靠(当然也不能得出可靠的结论),因为股市波动的触发因素不仅仅是舆情。然而,如果舆情挖掘结果与股市波动吻合了,唯一的逻辑结论就是,舆情挖掘是靠谱的。这就是这次偶然的实验对我本人和我的开发团队的独特意义,这个独立验证是经得起逻辑推论的。

最有意思的是,我们还同时比较了同一个时间区间的热度(mentions)曲线(见下图),发现它与股市波动有不少不相吻合的地方。这个比较更具有说服力,因为 mentions 实际上给舆情提供了背景和不带情感因素的baseline。它帮助突显了舆情挖掘的价值,谈论多少虽然与舆情密切相关,但它不能反映舆情的方向(polarity),自然无法与股市波动协调。

 
HTC中文热议度与股市表现曲线图的对比(谢谢老友帮助制图


【相关】

到底社媒曲线与股市曲线有没有、有多少相关度? 
再谈舆情与股市的相关性
一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑 2015-11-21
【立委科普:NLP 中的一袋子词是什么】 2015-11-27

【置顶:立委科学网博客NLP博文一览(定期更新版)】





https://blog.sciencenet.cn/blog-362400-937346.html

上一篇:一切声称用机器学习做社会媒体舆情挖掘的系统,都值得怀疑
下一篇:一袋子词的主流方法面对社交媒体捉襟见肘,结构分析是必由之路
收藏 IP: 192.168.0.*| 热度|

10 姬扬 蔡小宁 黄永义 武夷山 罗教明 陈辉 shenlu zjzhaokeqin bridgeneer biofans

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 15:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部