foolbirdzsh2015的个人博客分享 http://blog.sciencenet.cn/u/foolbirdzsh2015

博文

我对大数据的几点认识

已有 13328 次阅读 2016-1-15 13:20 |个人分类:生活感悟|系统分类:科研笔记

最近两天的心情可以用两句话来总结,一句是“出来混,总是要还的”,第二句是“书到用时方恨少”。由于要给某政府部门写一个关于大数据体系建设的咨询报告,最近今天一直在恶补大数据的相关知识,一直补到一种见到“大数据”几个字就有点想呕吐的感觉。最早接触大数据是2010年在武汉大学听一位计算机专业院士的演讲,主题就是大数据,例如基于社会媒体的社群网络结构发现等等。当时就感觉,一直印象中只关注存储体系、硬件架构等问题的自然科学专家, 怎么都开始玩跨界了。此后这个词就越来越热,直到人人在所说大数据,各类基金的选题指南满眼都是大数据的时候,我知道这玩意已经成为一种大趋势。然而,对于什么是大数据,仍然一知半解,为此在2013年暑假专门到电子科技大学参加了一个有关大数据的学术会议,听了清华大学李国清教授等大牛的讲座,本以为会云开雾散,谁知道听完更加迷糊了。印象比较深的是,当时在和我的导师汤志伟教授聊这件事的时候,他只说了两个字,炒作。再后来,在去年前往澳洲访学之前,专门买了两本书带上飞机,其中一本就是著名的《大数据时代》,只是没有时间仔细研读,把问题一直就拖到了现在,直到必须对这一问题做透彻理解不可的时候了,只好硬着头皮狂补。几天下来,终于对这一问题有了一些粗浅的认识。总结起来,大致有以下几个方面:
      第一,大数据作为人类社会发展的大趋势,这一点是毋庸置疑的,对此我坚决赞成。信息技术在人类社会当中的发展是呈现波浪状特征的,在上世纪80年代以前主要关心单机应用,80年代以后关注局域网,到90年代关注行业内联网,2000年前后开始进入国际互联网的大规模应用时代,2010年前后开始关注大规模数据的存储技术云计算和大规模数据的分析技术,也就是大数据。应该说,现在正处在大数据时代最开始的阶段,能够看出一种趋势,但是真正到来还为时过早。按照信息技术的演进逻辑就是,信息处理技术、信息传递技术、信息存储技术、信息分析技术,现在到了大规模存储和分析并行的时代了。因此,当我们感觉那些鼓出大数据的专家学者都是大忽悠的时候,可以想象一下2000年的时候,我们听到马云慷慨激昂的演讲是什么感觉,就连上网买一盒泡面这样的事情,当时都
需要做大规模实验,可以成为社会舆论关注的热点。
     第二,到底什么是“大数据”?可能这是迄今为止,大家最为恼火的事情,人人在谈大数据,却没有一个大家都能接受的定义。就连国务院在2015年9月出台有关大数据的行动纲要的时候,也是采用了模糊战术,只列举了大数据的几个特征,例如大容量、多样性、产生速度快等等。现在几乎所有主流的教材都是从计算机处理能力方面定义大数据的,也就是说现有的处理能力无法及时处理的数据规模就是大数据,这样的界定方式,其用意如何,昭然若揭,还不算想忽悠机构去买他们的设备和软件。我现在的理解,“大数据”并不是一个可以精确衡量的技术概念,而是一种思考和认识这个世界的一种理念。假设我们今天所生活的社会当中,任何机构、任何个人的任何社会活动所涉及的信息设备都可以连接到同一网络当中的话,这就是意味着以前由于分散控制的某对象的数据碎片现在拼接成了一个整体,从而让基于具体对象的横向信息检索成为可能。用人单位招聘不需要再看档案,上网一查所有信息尽收眼底。去政府办事,不再需要各种各样的证明材料,因为你的所有信息都可以查到。更可怕的是,例如你就餐的信息、购物记录、手机GPS记录、开关电视的时间等等信息都有可能被作为数据挖掘的对象,从而形成对个体偏好的判断,进而让精准营销成为可能。因此,我理解的大数据就是整合在一起的所有记录和反映人类社会活动数据资源的总称。
      第三,大数据的核心就是”数据挖掘“吗?看到很多人说,大数据的核心在于预测,可以发发现很多依靠人的常识和常规信息处理手段无法发现的一些规律性,从而增加决策的科学性和准确性程度。没错,是这样,大规模数据放在一起,确实能达到这种效果。可是,这些不是数据挖掘技术做的事情吗,干嘛还要多此一举的加上一个”大“呢?我的理解这个大,除了表示数据量很大之外,也表示这是一个经过整合以后形成的一个庞然大物。”整合“是大数据的命脉,数据不整合在一起,即使再多,也无法做关联分析。但是,”整合“真的就知识为了给数据挖掘提供原料吗?我看不尽然。如果整个社会的数据整合在了一起,这就是意味着所有的机构和个人可以通过这个数据平台互联互通,整个人类社会的运行规则将发生天翻地覆的变化。政府可以清晰地知道管理对象的所有细节信息,现在的层层审批都可以不需要,很多社会问题刚一露头就会被发现,从而消除在萌芽状态;公民也可以监督政府运作的每一个细节,政府在民众面前基本裸体,也不敢玩太多的猫腻,商家也可以了解顾客的细节需求,所以投其所好,消费者也可以了解商家的细节信息,从而避免上当受骗。总之,真正的”大数据时代“是一个数据驱动一切的社会,也是一个所有人都在聚光灯下的社会,因此人类社会发展过程中由于信息的不对称导致的很多问题都可能得到部分地解决,。”大数据时代“是人类生存方式将要发生巨大变革的时代,而不仅仅是一个会使用数据挖掘技术,实现信息资源二次利用的时代。或者这么说吧,”大数据时代“就是一种建立在信息充分共享基础的”共产主义社会“,在这个社会里人人各取所需,人人各得其所。我们小时候就宣誓,为共产主义而奋斗,现在为大数据而奋斗,就是为共产主义而奋斗。
       第四,我们已经进入“大数据时代”了吗? 听到很多演讲,有些专家非常激动地说,我们正处在大数据时代,如何如何。国家社科基金最近两年立项的课题很多都是“大数据背景下的。。。研究”等等,好像大数据时代已经近在眼前了。我比较奇怪的是,大家都不关心如何建设大数据,更关心的是到了大数据时代该怎么办。不能不说这是一件奇怪的事情,正如笑话里兄弟二人不去关心怎么把大雁从天空射下来,而为了炒着吃还是炖着吃争论得面红耳赤。因此,我是比较悲观的,我认为当前我们的社会只是有了一点大数据时代的萌芽,我们离大数据还相当遥远。如何判断什么时候进入大数据时代呢?我个人认为可以采用我们常用的60%标准,也就是如果社会当中产生的数据记录有60%可以通过同一平台进行检索的时候,我们说这个社会就整体上进入了大数据时代。因此,整合就是大数据最为艰难的事情,仅仅政府内部的数据整合问题就已经复杂无比,现在需要将政府数据、企业数据、个人数据、社会数据都整合在一起,其难度可想而知。国务院去年出台的《促进大数据发展行动纲要》提出,要在2020年前后建成我国大数据整体共享的格局,我感觉完成这一野心勃勃计划的可能性不是很大,整合毕竟不像建网站那样简单,这是个牵一发动全身的问题,是信息化建设的最后一块硬骨头,岂是那么容易啃的?我的判断,可能还要最少20年,也就是2040年到2050年之间这段时间,我们今天所说的大数据时代的种种便利和神奇才能大范围体验到。
      数据100%共享在任何社会都是不可能实现的,即使到了大数据时代,商业机密、个人隐私、国家安全信息等的保护仍然非常重要。我在想这样一个问题,到了大数据时代,既然数据都公开了,企业可以研究客户需求精准营销,小偷是不是可以借助大数据物色最佳的作案对象呢?很有可能。大数据可以帮助人类解决一部分问题,也可能产生一些新的问题,有待下一轮的技术浪潮来解决,人类社会就是这样前进的。
     

 



https://blog.sciencenet.cn/blog-2517406-950578.html

上一篇:拿什么来迎接你,我的四十岁?
下一篇:炼狱2.0模式
收藏 IP: 219.145.105.*| 热度|

2 许培扬 张骥

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-20 21:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部