《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

大数据挖掘问答1:所谓数据完整性

已有 3281 次阅读 2013-12-27 11:12 |个人分类:立委科普|系统分类:科研笔记|关键词:大数据| 大数据

到了一定尺度以后,你也不用迷信什么数据完整性,好像少了一块数据,就怎样怎样了
作者: 立委 (*)
日期: 12/26/2013 18:54:07


关键是,不管何种原因数据不完整了,只要原则上保证这种数据损失不是针对特定话题即可(一视同仁)。而在大数据条件下,针对话题的损失 事故几乎就不出现,因为话题不是预定的,想有意针对它都不成。阴谋(家)没有出场的可能。

以前我写博文论过这个完整性迷思/迷信。有100种可能损失部分“理想状态”的完整数据:server down,发围脖的人改主意了决定不发了,或者发了以后又撤了删了,数据库的bug,处理器的bug,为成本考量有意随机取样一个子集,等等。总之,不完整是常态,完整是奇迹,不能指望的。


都大数据了,少一些就少一些呗。其实,损失数据通常不会影响分析挖掘的质量和结论。


我们做过评估,一年的社会媒体和随机取其中10%的内容做index,挖掘结果没有统计意义的差别,可成本节省很多。


就更不用说垃圾数据,或者疑似垃圾数据(门槛可以高一点)。那只会提高数据质量和结论。

顺便说一下一人一票的民主制度。几亿人去投票唱票算大数据尺度吧。其实随机剥夺一半,甚至90%,公民的投票权,其选举结果是不变的。注意,我说的是随机,譬如所有姓名以S开头的人都不允许投票。被剥夺投票的人也不用担心,作为人民一分子,大海一滴水,你的那份权利已经被恰当地代表了,结果反正也不会因为你不参与而改变。从结果看,经济上应该这么做,当然没有任何民主政府这么做,因为里面牵涉到公民权利和意识等,不仅仅是结果的问题。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-753349.html

上一篇:大数据帮助决策实例:《走进“大数据”——洗衣机寻购记》
下一篇:大数据挖掘问答2:会哭的孩子有奶吃

4 许培扬 刘钢 薛宇 邱嘉文

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-21 19:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部