等离子体科学分享 http://blog.sciencenet.cn/u/等离子体科学 俱怀逸兴壮思飞,欲上青天揽明月

博文

何谓“大数据”

已有 9270 次阅读 2016-4-1 14:02 |个人分类:学海无涯|系统分类:科研笔记| 大数据

去年给物理系二年级学生讲“物理学的大数据时代和大数据时代的物理学”,整理一下,摘要写在这里。这篇是第一部分。

 

2015年最“火”的词汇之一就是“大数据”。

何谓“大数据”?

大数据”译自英文里的“Big Data”,其字面上的意义应指数据量很大。也就是说:“大数据”首先要求数据足够多。但是数据量要多“大”才是“大”?到多少才是足够多?本没有科学的定义。定性地说,就是指数据量大到一定程度,使得量的变化达到了“质”的变化——即可以从这些数据中找到规律性的东西。

我们来看一个简单的例子:

先看下面的图1:2010年世界杯以来国际球员的进球和协助进球数(横坐标是参加比赛的场次)。



图1


从这张图我们看到什么呢?

1. Messi和Ronaldo是两名杰出的球员——他们的数据明显地比其他球员高出一截(名副其实的outstanding!);

2. 大部分球员的数据都在图1下方的某一区域,可以认为这代表着国际球员的大致水平。

但这只是定性地看看。我们再做一些定量的分析:

从统计意义上说,参加比赛的场次越多,进球(+协助进球)数越多;二者应近似成正比。所以我们在图上画两条经过原点的直线(见图2):



图2


从这张图我们看到了什么?

1. 下面那条线给出了一个“低标准线”,绝大多数球员的数据在这条线下方——可以说:数据在这条线附近的就可以说是“达标球员“!

2. 上面那条线则给出一个“高标准线”,高于这个标准的,可以说是杰出球员。(注意到数据在“高标准线”上方的只有3个球员,但其中一个的数据还是相差Messi和Ronaldo较远。)

当然这只是一个侧面;全面的大数据分析需要从不同侧面看。

我们再看一张图(上面图1, 2中那些球员的进攻vs助攻的数据):



图3


     1. 容易看出,尽管球员的进攻次数统计上来说都是明显多于助攻次数,但二者之间还是有一个较好的正比关系——绝大多数球员都有集体(teamwork)观念;

     2. 相比起来,Messi的表现above average,而Ronaldo则明显地below average!——孰优孰劣,一目了然。

这就是大数据:有足够多的数据、经过分析可以得出一些规律性的东西(比如衡量一个球员水平的“低标准”、“高标准”),不同的数据给出不同的侧面、可以显著揭示区分的数据是关键性的。

等等。

当然,这只是非常初步的。对“大数据”进一步的认识,需要回顾物理学的大数据时代。




http://blog.sciencenet.cn/blog-39346-967248.html

上一篇:双星璀璨,振兴梦圆——悼双星计划首席科学家刘振兴院士
下一篇:“可燃冰”的“秘密”

6 魏焱明 韦玉程 王秀康 黄彬彬 Leviyf nipy

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-20 05:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部