|||
心中有数——有关统计和数据处理的几个问题
我们做科学实验,搞社会调查,总是会得到许多数据。如果我们仅仅把这些实验数据或调查数据列一张表,往那里一放,那是没有什么意义的。我们需要对于这些数据进行处理,进行统计分析,在这些数字中找出某些规律,或者说明某些问题,这才能够得到有意义的结果。很多研究生就常常为不知怎样处理数据而苦恼,他们面对一堆辛辛苦苦从实验或调查得到的数据发呆,不知道该怎么办。
实验或调查得到的一些原始数据,是宝贵的,但是,往往需要对这些数据进行整理加工,换句话说,要用数学工具进行变换,才能够找到某些规律。即使最简单的加减乘除,也是一种变换。
(1)我们用某种方法进行变换,当然是有目的的。这时候,我们必须注意,我们需要得到的是有意义的结果,而不能够随随便便处理一下,最后得到的结果什么问题都不能够说明。
举个例子吧,就今天(2016-11-22)《科学网·新闻》转载的“澎湃新闻网”文章《75所部属高校“晒账单” 哪些学校更会赚钱》,文章从教育部各直属高校的收入,说明“东西部依然贫富不均”。其论证方法是,把各直属高校的收入按“北京、上海、东部、中部、西部、东北部”六个地区进行平均收入的统计,得到了下表所示的结果:
接着文章用很大的篇幅仔细的叙述了上面图表的内容,从各区域的高校平均收入来论证“全国也呈现出东高西低的走势。”
很明显,这是一种错误的论证方法。因为在上面的图表上恰恰是应当最“富有”的北京高校,其平均收入最低。完全不能说明作者企图得到的结论。
这是因为作者把原始数据即各高校总收入进行数据处理时采用了错误的方法。它取了各高校总收入的平均值,而这是一个在这里不能说明问题的物理量。高等学校有大有小,北京的许多学校非常小,如中央戏剧学院、中央音乐学院等根本没有多少人,跟吉林大学、山东大学这样具有七八万人的大学完全不能比。吉林大学的总收入比中央戏剧学院多,并不能说明吉林大学比中央戏剧学院“富有”。把清华大学的收入与那么多规模很小的学校去作平均,更说明不了任何问题。
上面这个反面的例子说明了数据处理时必须采用适当的方法,得到能够说明问题的物理量。
(2)对于得到的数据,一定要注意其可靠范围。我们做实验,做计算、做调查都是有误差的,这里一定要对于误差的来源、误差的大小进行正确的估计。误差的大小影响到这些数据可以应用到什么领域,换句话说,为了特定的目的,需要选择采用适当的方法,把数据的误差控制在能够说明问题的范围内。
例如,在计算化学中,我们计算一个分子的能量,那么,计算结果跟计算方法就有很大的关系。如果计算分子能量的目的只是为了优化分子的构形,得到处于能量极小值的分子稳定构形,那么,相对来说,计算方法可以取得略微粗糙一点,只需要知道各实验点能量的相对大小即可。如果为了计算化学反应能量,进而计算出化学反应的速率常数,那就应当采用很精密的计算方法。很小的能量误差,就足以引起化学反应速率常数的数量级的差别。
又如,我前些日子一篇博文《这样对少年儿童进行环境教育科学吗?》中提到过的《中国青年报》的报道,中国青少年研究中心在全国10个省市进行的中国少年儿童发展状况调查。该报告指出:西部少年儿童的环保意识最强。其论据是:“地区分组发现,西部少年儿童的环保意识最强。数据统计显示,选择‘不建化工厂,以免污染河水’的比例,西部少年儿童的比例为73.6%,中部少年儿童为71.6%,东部少年儿童为72.8%,西部少年儿童的比例最高。”
这个调查结论也是不可靠的,且不说我曾经说到过的调查候选答案的不可靠,即使按照给出了调查数据,西部、东部的差值只有0.8%,这个差值应当完全在这种调查的误差范围之中。在调查时的偶然因素如教师或调查人员对答案的暗示、学生故意的捣乱等等,其影响完全可以超出这样的误差。
(3)必须研究和讨论实验或调查方法对原始数据的可靠性的影响。
例如,在社会调查时,被调查者的数量、取样方式等等都直接影响到误差的大小,从而影响判断的结论。英国“脱欧”和最近美国大选的“民意测验”,结果大都弄反了。这应当说,都与调查的取样方法有关。
在很多调查中,让被调查者主动回答调查的问题。这样,利益相关者可能会积极回答调查,而暂时与调查问题利益冲突关系不大的人回答问题的人会很少。这样的调查往往得不到实际有效的结果。现在的很多网络调查就是如此。
例如,对于所谓“爱狗人士”到高速公路拦截运狗车辆的问题。早在2011年,凤凰网组织了一次网络调查,结果有14167人作了回答,其中61.7%的人支持“爱狗人士”的行动。前两天,新浪网友对最近“爱狗人士”的高速公路拦车行动报道的7000份跟贴进行统计,结果表明65%的跟贴反对爱狗人士的作为。像这样的网络调查结果,都没有很大的实际意义,因为参加者只是双方的少数“积极分子”,并不表明到底有多少百分比的人们是支持或反对这种行动。
又如,在微信朋友圈里常常有朋友号召去投票支持某一位朋友的亲友参加的诸如“最美学生(护士、教师、警察等)”、“最佳表演”等等活动。这种投票只能作为游戏看看罢了,不可能有任何实际意义。
(4)在数据的处理中,应当注意数据的有效数字。数据处理中,数学运算如加减乘除四则运算也会对数据的有效数字产生很大的影响。
有的作者不注意有效数字问题,往往列出来长长一大串数字,其实后面的很多数字都是没有意义的。例如,我见到某一本书中说到那里村庄面积的变化,列表中所举村庄面积(亩数)竟然到了小数点后第三位,即精确到0.001亩。这完全是不可能的事情。我估计是作者在进行单位换算时把计算器上显示的数字都抄了上去。
对于数学运算中数据有效数字的变化,即使是理工科的学生,在写作论文时也常常不注意。有时候,经过一系列长长的运算,有效数字已经被“吃光”了,弄一些无效的数据还在运算。这些问题,都是需要研究者注意的。
总之,在进行统计和数据处理时,往往产生许多问题。这里只是随便想到和举出来几个,希望能够引起大家的重视。也希望在学校的教学中(无论是文理各科)都要注意这些统计和数据处理方面的问题。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 18:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社