feixiang1314的个人博客分享 http://blog.sciencenet.cn/u/feixiang1314

博文

大数据,大视野

已有 3202 次阅读 2013-12-31 13:52 |系统分类:科研笔记

    最近广为流传的一个词是大数据。人人都在讲大数据,专家讲,老师讲,身边的同学也不乏谈论的。大数据到底是什么?它真的有那么好吗?它好在什么地方?它真的能引领我们来到一个新的时代——大数据时代吗?怀着一探究竟的心情,我捧起了维克托·迈尔-舍恩伯格的《大数据时代》一书。

    关于大数据,不同的书和不同的作者可能会有不太完全相同的定义。比如,有的学者认为:所涉及的资料量规模巨大,无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。而维克托认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。但他们关于大数据的内涵都是一致的。

    读《大数据时代》给我印象最深的就是大数据时代的思维变革,它要求我们作出三个重大的思维转变:第一,不是随机样本,而是全体数据。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,追求的是样本等于总体,而不再依赖于随机采样。不可否认,随机采样曾给我们带来莫大的帮助。因为在过去记录、存储和分析数据的工具不够好,我们只能收集少量的数据进行分析,而随机采样方法能让我们用最少的数据获得最多的信息,既能减少人力、物力、财力的耗费,也能节约时间。但随机采样也有许多固有的缺陷,它的成功依赖于采样的绝对随机性,而绝对随机性的实现非常困难,一旦采样过程中存在任何偏见,分析结果可能就会相去甚远;并且不适合考察子类别的情况。大数据得益于突飞猛进的数据收集、存储、处理和分析技术,能够避开采样的缺陷对数据进行深度探讨。谷歌就曾在流感蔓延的时代,通过分析整个美国几十亿条互联网检索记录推测出某个城市特定的流感状况。

    第二,研究的数据量巨大,我们不再追求精确度,取而代之的是包容混杂性。这是一个信息爆炸的时代,各种各样的数据浩如烟海、样式繁多,只有少量数据是结构化的且能适用于传统数据库,而更多的数据是非结构化的,只有接受不精确性包容混杂,我们才能利用这更多的数据,才能打开通往大数据时代的窗户。至此,我们也不再需要那么担心某个数据点对整套分析的不利影响,也不再需要以高昂的代价消除所有的不确定性,只需接受它们并好好利用它们。还以谷歌公司为例,谷歌翻译系统很强大、翻译质量很高并且很灵活,就是因为它拥有一个更大更繁杂的数据库,它曾把它所能找到的所有翻译都放到了数据库,作为一个翻译的“训练集”。

    第三,我们不再热衷于寻找因果关系,转而更加关注相关关系。这是这本书里要求我们作出的一个一时半会儿难以习惯的思维转变。在大数据时代,我们更多的是知道“是什么”就够了,没必要知道“为什么”,因为有些东西不好解释也解释不清,我们不必非得知道现象背后的原因,而是要让数据自己“说话”。大数据的相关关系分析法更准确、更快速,而且不易受偏见的影响,更容易让们得到事实上的结果,甚至会有点出乎我们自己的预料,因为我们的预料大多是建立在经验和因果基础上的。

    谈大数据,大数据要求我们分析的数据样本等于总体,那这么多的数据从何而来?远在信息数字化之前,我们就已经开始了收集数据和运用数据,数据的产生有两个必要条件,那就是计量和记录。只不过现在我们收集数据的方式更加多样化了,收集数据的范围更加广泛了。仅仅是通过传感器,各种压力、振动、温度、速度、方位等等都能成为数据。现代的社会,我们已经不在像以前一样受限于数据了,文字、图像、声音、视频都能成为数据,坐标、高度、方向、速度都能成为数据,就连互联网上的聊天记录和搜索记录也都能成为数据。这一切的一切只是等待着被分析、被挖掘、被利用。

    那大数据是怎样对我们社会和个人产生影响的呢?数据就像一座矿山,它的价值都埋在地下,需要我们去挖掘。通常情况下,一旦数据利用完了,我们就会将其删除,而现在我们要保留它、积累它对其再利用,Farecast的机票价格走势预测系统就是这样产生的。我们也可以重组数据,通过把一些数据集和另外一些数据集结合起来,或许能够创造新的价值,数据的总和比部分更有价值,就像我们相信团队的作用一样。我们还可以关注数据的可扩展性,以此形成再利用,比如商店里安装的监控,不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置,这样有助于设计店面的最佳布局进而促进销售。还有典型的“数据废气”,它是指用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置以及输入了什么信息等。现在已经有许多公司改进系统,使自己能够收集数据废气并循环利用,以改善现有的服务或开发新服务,最典型的莫过于现在流行的网上推送服务了。……,数据的利用方式还有很多。

    金无足赤,人无完人,大数据势必也会存在自己的不足。首当其冲的就是我们的隐私问题,比如说“数据废气”使数据发挥了新的价值,能够针对我们的浏览记录推送个性化服务,但我们时刻都暴露在“第三只眼”之下——我们的购物习惯、网页浏览习惯、社会关系网被它们监视了,一旦泄露了怎么办。还有,大数据是不是过于依赖数据了,如果数据远远没有我们想像中的那么可靠怎么办。等等这些问题都有待于进一步解决。

    通读《大数据时代》,神秘的大数据已不再那么神秘,心中的疑惑也一一散去,想着书中的种种案例以及身边发生的种种应用,似乎大数据时代已经来临。不可否认的是大数据还有进一步完善和发展的地方,但更为重要的是,大数据向我们宣扬了一些新的分析数据、利用数据的思维方式,大数据正在变革着我们的生活、工作与思维,并且让我们获得了小数据时代不曾或无法获得的信息。

 

参考书籍:《大数据时代》   维克托·迈尔-舍恩伯格    

 

 

 

 



https://blog.sciencenet.cn/blog-1019614-754509.html

上一篇:犯罪热点分析方法总结和一种新的分析思路
收藏 IP: 218.66.59.*| 热度|

2 赵凤光 方锦清

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 05:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部