|||
去年给物理系二年级学生讲“物理学的大数据时代和大数据时代的物理学”,整理一下,摘要写在这里。这篇是第一部分。
2015年最“火”的词汇之一就是“大数据”。
何谓“大数据”?
“大数据”译自英文里的“Big Data”,其字面上的意义应指数据量很大。也就是说:“大数据”首先要求数据足够多。但是数据量要多“大”才是“大”?到多少才是足够多?本没有科学的定义。定性地说,就是指数据量大到一定程度,使得量的变化达到了“质”的变化——即可以从这些数据中找到规律性的东西。
我们来看一个简单的例子:
先看下面的图1:2010年世界杯以来国际球员的进球和协助进球数(横坐标是参加比赛的场次)。
图1
从这张图我们看到什么呢?
1. Messi和Ronaldo是两名杰出的球员——他们的数据明显地比其他球员高出一截(名副其实的outstanding!);
2. 大部分球员的数据都在图1下方的某一区域,可以认为这代表着国际球员的大致水平。
但这只是定性地看看。我们再做一些定量的分析:
从统计意义上说,参加比赛的场次越多,进球(+协助进球)数越多;二者应近似成正比。所以我们在图上画两条经过原点的直线(见图2):
图2
从这张图我们看到了什么?
1. 下面那条线给出了一个“低标准线”,绝大多数球员的数据在这条线下方——可以说:数据在这条线附近的就可以说是“达标球员“!
2. 上面那条线则给出一个“高标准线”,高于这个标准的,可以说是杰出球员。(注意到数据在“高标准线”上方的只有3个球员,但其中一个的数据还是相差Messi和Ronaldo较远。)
当然这只是一个侧面;全面的大数据分析需要从不同侧面看。
我们再看一张图(上面图1, 2中那些球员的进攻vs助攻的数据):
图3
1. 容易看出,尽管球员的进攻次数统计上来说都是明显多于助攻次数,但二者之间还是有一个较好的正比关系——绝大多数球员都有集体(teamwork)观念;
2. 相比起来,Messi的表现above average,而Ronaldo则明显地below average!——孰优孰劣,一目了然。
这就是大数据:有足够多的数据、经过分析可以得出一些规律性的东西(比如衡量一个球员水平的“低标准”、“高标准”),不同的数据给出不同的侧面、可以显著揭示区分的数据是关键性的。
等等。
当然,这只是非常初步的。对“大数据”进一步的认识,需要回顾物理学的大数据时代。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 09:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社