lysyxcs的个人博客分享 http://blog.sciencenet.cn/u/lysyxcs 书中漫游

博文

数据分析之源 精选

已有 11456 次阅读 2015-7-28 16:53 |系统分类:人物纪事

       如今已迎来了大数据时代,数据分析为我们预测着社会发展趋势。在我们日常生活中时时刻刻都产生着大量数据,但真正有用信息是隐藏在数据之后的整体特征描述和发展预测。我们都知道谚语矮娘矮一个矮爹矮一窝四十三花眼关七十三八十四,阎王不叫自己去等。这其实都是一些数据统计规律。如最后一条尽管是借喻了孔孟两大圣人的享年但我国人口普查资料表明,在73 岁和84 岁这两个年龄时段死亡率最高作为人类死亡线的两个峰值有着深刻的数据分析背景

          数据分析理论可追溯到距今近三千年的周朝著作易经,相传其为伏羲、周文王、周公旦等先后编撰。该宏著以大自然现象的数量表现为研究对象, 以太极两仪四象八卦、六十四支直至三百八十四爻的统计方法, 通过各种演变结果进行推算和预测。后经孔子立著, 在我国汉代以后产生了极为深远的影响

1.原始统计思想

数据分析可谓古而有之。数shù的概念源于数shǔ,数shù是由人类智慧所创造,可用来计数shǔ各种集合中的对象数目,其与对象特征无关。如某个部落必须知道其有多少成员、有多少敌人、捕获了多少猎物等。即使一个人也需要知道他羊群里的羊有多少,或许最早统计方法就是使用简单的一一对应原则来进行,即不断地数(shǔ)与量(liáng)。最早人类可能是用手指计数。当十指不敷运用时,随处可见的石子便成了替代与补充。

《周易· 系辞下》云:上古结绳而治, 后世圣人易之以书契。百官以治, 万民以察。显然记数的石子堆难以长久保存信息,故而产生了结绳记数:重要之事, 则在某绳上系个大结;一般之事, 则系上小结。这说明那时已用“结绳”法来表现社会现象的数量,并产生了简单分组(大事、小事)与简单分组总量指标(大事件数、小事件数)。后随着社会的进步和发展, 书契记数诞生了。所谓书契就是在某些物品(如狼骨)上刻划符号,是一种以数字为主体的经济记录方法。结绳、刻痕之法大约持续了数万年之久,才迎来书写记数的诞生。

2.觅求数据规律

数据分析之目的就是把隐藏在一堆看似杂乱无章数据中的信息集中、萃取和提炼出来,以寻找其内在规律。这可帮助人们做出正确判断,以采取适当行动。

古人在探索大自然奥秘的过程中, 十分注重调查实践,可谓上至天文,下至地理,涉及很多方面。如在《周易· 系辞上》中说,“仰以观于天文,俯以察于地理,是故知幽明之故。”大意为抬头仰望天象,低头查勘地理,因而可知幽暗和光明的道理。在《萃·彖》有“观其所聚, 而天地万物之情可见矣” ,即观察事物的聚散情况,可探求其发展规律。而在《恒·彖》有“观其所恒, 而天地万物之情可见矣。” 指观察其经常存在的部分, 亦可了解到万物内在的道理,即透过现象看本质。“其称名也小, 其取类也大” (《周易· 系辞下》) , 则说明具体看一个事物是比较局限的,但其所代表的类别则有可能较大。此乃由个体来推论整体的性质。

彰往而察来, 而微显阐幽。”“极数知来之谓占。”皆为先要收集资料,了解过去,再根据一定数学原理建立统计模型,才能预测事物的发展规律。可见古人首先对自然现象进行了广泛观察,找出最为典型的事物作为代表;其次编制出一套符合自然规律的符号体系,应用其去象征和概括自然界万物的相互联系,用六十四卦, 三百八十六爻来半定量地描述其复杂的动态变化。他们较多应用定性的类比方法找出不同事物之间的共同点, 因其往往是它们发生相互影响、相到作用的关键所在,最后形成某种固定思维模式,而作出联想、推断和预测。

3.平均数的应用

为了有利于数据分析,《周易》提出和应用了统计分组和平均数概念。在《周易·系辞上》首先提出“方以类聚, 物以群分”的统计分类思想。即我们通常所言,物以类聚人以群分。通观《周易》可见其体现了现代统计分组法的基本思想。即同类事物聚在一起;其是在同质基础上聚为一类;观察所有同类类别可洞察万物之本质;按不同类别分辨事物, 但不要混淆其差别。

平均数思想主要体现在《谦》云,“谦,君子以裒多益寡,称物平施。”裒”(póu) 指减少,“益” 为增加,“裒多益寡”就是指对研究对象的各个单位数量减有余而补不足,“称物平施”即指衡量事物要均等。故而大意为截取多余、增加匮乏,衡量事物的多寡而公平给予。这就为平均数理论奠定了基础。平均数就是对研究对象的某个数量标志的变量减有余而补不足所求得的一般水平。计算平均数的作用就在于衡量事物要均等。

需要说明的是,平均数有时可能会产生误导,掩盖了原始数据的某些信息,还会受到极端值的影响。如班级平均分数往往会因为一、两名不及格的同学而大幅下滑。而在各种比赛中,采用“减去一个最高分、再减去一个最低分”方法,是因将少数异常值去掉后计算出的平均值具有更好的代表性与稳定性。

面对大量繁杂数据,信息对每个人都是平等的,差别在于是否能从中甄别规律,从而更好地理解世界,抓住机遇。运用数据进行推断的思考方法,是现代社会普遍适用且强有力的思维方式,是信息时代每个公民基本素养的一部分。我们要养成用数据说话的态度,逐步形成科学的世界观与方法论。

 

 

 



https://blog.sciencenet.cn/blog-542302-908925.html

上一篇:大学时代的照片
下一篇:参加九七级数学一班同学聚会
收藏 IP: 112.234.118.*| 热度|

24 许培扬 张忆文 朱晓刚 张强 杨正瓴 武夷山 黄永义 姚伟 应行仁 汤俊 曹聪 米春桥 汪晓军 曾杰 彭真明 唐常杰 高峡 闫钟峰 zjzhaokeqin yzqts yunmu biofans yangb919 zoujinkexue11

该博文允许注册用户评论 请点击登录 评论 (39 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 21:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部