zhaohai的个人博客分享 http://blog.sciencenet.cn/u/zhaohai

博文

“大数据”之陷阱

已有 416 次阅读 2024-4-11 11:22 |个人分类:工作点滴|系统分类:科研笔记

(2014-01-18 21:08:23)

    吾突然觉得“信息越多则问题越大。在复杂网络中,错误都不是用程度来衡量的,而是用级别来衡量的,预测模式本质上就是一个简化了的世界。二十年间,吾就是在“”之协商氛围中逐渐学习、进步、成长、成熟并且衰老了,最重要的体会就是用形式主义来反对形式主义是最好的方法。信息时代最大的挑战就是信息大爆炸,然而吾人实际掌握的知识与自以为是掌握的知识之间的鸿沟反而却越来越宽。

    吾人习惯于只追求眼前之利益,所以宿命论、占星术和迷信就演变成祖先预言思想之初露开端。如果信息增长的速度过快,而吾人处理信息的能力尚且不足,那么情况就会变得非常危险或不一样了。由于吾人更关注那些符合吾人对这个世界期许的信息,而并不在乎其真实性,所以失败的预测往往都是非样本且无思考预测,并且携带有很多共同东西。

    “预测”一词源于日耳曼语,反映的是新教世俗思想,而不是神圣罗马帝国的理想世界。“预言”一词源于拉丁语,是指在不确定的条件下进行计划,所以需要谨慎、勤奋与智慧。“预见”是一个非常功利主义的想法,更多地源于科学而不是宗教。最失败的预测通常都具有很多共同的特点,对于那些最难测定的风险,即使是非常严重的威胁,吾人依旧常常视而不见。

    吾有恒言:“论文垃圾也”,大量理论堆积如山,验证数据却少的可怜。吾本来以为计算机技术发展的越快,科学与经济越会得到更快的推动,然而事实非但如此,相反却造成这两个领域里的生产力水平短暂地下降。集吾人判断力与计算机能力为一体的“天气预报”就是一个最典型的例子。吾之105小组,在美国9·11之后重点研究了互联网相关节点的“入度”与“出度”变化率,以及“埃及革命”、“日本大地震”等异常事件时互联网的介数与集聚系数的变化,结果发现在9·11恐怖袭击前后吾人并非是缺乏数据或者信息,而是吾人对这些“异常”的数据或者信息熟视无睹,完全没有将那些看起来似乎彼此独立且不相关的数据融合起来。

    预测之所以重要,是因为预测所连结着主观世界与客观现实。假设并不科学,然而证伪的假设确实科学的行为。这就意味着真实世界里,假设可以通过预测得到检验。虽然说“大多数研究结果都是骗人”的东西,有研究发现三分之二的医学假设根本不能够成立。另一种说法是“信息越多,就越能够靠近真相”。所以,吾人一直都在努力从随机噪声里发现确定的模式。

    道格拉斯·亚当斯云:“可能会出错的事情和完全不可能出错的事情之间的主要差别在于,一旦这件事情完全不可能出错的事情最终出了错,那么这个错误一定是无法挽回或者根本无法扑救的事情。” 如果预测中所发生的错误本身是线性的和可运算的,那么事情也许就要好办的多了。在研究互联网之宏观拓扑结构中,经过验证的那些为数不多的想法,实际上作用不大,而且大多数想法未经检验,或者根本就无法检验。

    贝叶斯网络表面上是一个基于概率的数学公式,但是其定理之内涵与意义却远远要超出这个公式所标识的范畴。贪婪和恐惧是两个非常不稳定的因素,导致预测错误的原因可以分为两类,即贪婪类与无知类。不确定性是指难以度量的风险,也许吾人有时能够隐隐约约感受到暗藏的危险,甚至有时对这种危险的感觉非常强烈,但是何时、何地、多危险、什么方式发生吾人都无法知道。

    萨默斯云:“过去也许吾人不算恐惧,但是太过于贪婪;而今后吾人不算贪婪,但是太过于恐惧了。”



https://blog.sciencenet.cn/blog-36125-1429180.html

上一篇:互联网之熵
下一篇:记忆与重构
收藏 IP: 175.169.29.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 18:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部