|||
有位科学网博主私信问我“秦老师,您好,最近在博客上看到一个关于雾霾与地震有关系的文章,链接如下:http://blog.sciencenet.cn/blog-240687-1013118.html,想问您一下您对此观点的看法,谢谢老师。”
我一看,不出所料果然是岳兄写的,呵呵。趁中午有点时间,写篇博文科普下有关统计分析的知识,且谈谈俺的看法吧。
印度著名统计学家C.R.劳【1】,曾说过一句令人发省的话“对统计学的一知半解常常造成不必要的上当受骗,对统计学的一概排斥往往造成不必要的愚昧无知。”
虽然数据是客观的,但对数据进行统计分析时,某些学者常受数据来源、统计方法与看法等多重因素制约,容易陷入误区得出错误结论。
俺大致归纳了一番,学者易犯的低级错误有:
一、样本容量
对数据进行统计分析要得到较为可信的结论,样本容量应足够大;样本容量太小,会导致抽样误差太大,引起调查结果与实际情况不符。估计这个童鞋们容易理解,俺就不多啰嗦啦。
二、样本完整性
选择样本时,分析者不能任意筛选数据,必须选择具有一类同质性的所有样本。如此,才能确保得到的结论无偏差。为便于理解,举个例子【2】:
二战时英国空军希望增加飞机的装甲厚度,但如果全部装甲加厚则会降低灵活性,所以最终决定只增加受攻击最多部位的装甲。后来工作人员经过对中弹飞机的统计,发现大部分飞机的机翼弹孔较多,所以决定增加机翼的装甲厚度。这样做行不行呢?有个专家说:“注意哦,机头中弹的那些飞机可没有飞回来吆”。
这个故事说明,本应对全部作战飞机进行分析,但统计样本没有包含已经损毁的飞机,所以得出的结果很可能是错误的。
三、统计关系与因果关系能划等号吗?
对数据进行分析后,往往会得到某种统计关系,据此可推断某些因素之间的因果关系。但是,如果在不掌握研究对象演化机理的情况下,给出的这种因果关系常常是不成立的,甚至与实际情况背道而驰。若不信,看看下面两个例子【3】就恍然大悟了。
问:统计资料表明,大多数汽车事故出在中等速度的行驶中,极少事故出在大于150公里/小时的行驶速度上。这是否意味着高速行驶比较安全?
答:绝不是这样。统计关系往往不能表明因果关系。由于多数人是以中等速度开车,所以多数事故是出在中等速度的行驶中。
问:统计数字还表明,在亚利桑那州死于肺结核的人比其他州的人多。这是否就意味着亚利桑那州的气候容易生肺病?
答:正好相反。亚利桑那的气候对害肺病的人有好处,所以肺病患者纷纷前来,自然这就使这个州死于肺结核的平均数升高了。
对以上问题搞明白了,就很容易对别人提出的某些标新立异的观点是否靠谱,做出正确的评判。
例如,岳兄统计分析了北京地区小地震与雾霾的关系,认为其有关联,这种分析与认识靠谱吗?咱们做个简单判断。
从样本容量方面考虑,不能拿几天的数据说事,至少也得1年以上,这个要求不高吧。若统计1年以上的数据,能得到与岳兄一样的结果吗?
从样本完整性方面考虑,咱得拿1年以上的连续数据分析吧,可不能挑三拣四哦。
我做了点homework,汇总了一下2014.1.1-至2016.11.7间,北京地区发生的ML.>=2.5级天然地震与天气的对应情况,无雾霾天对应(表1),即无相关性。如果连统计检验这一关都过不去,就该歇歇啦。
表1 2014.1.1-至2016.11.7间,北京地区发生的ML.>=2.5级天然地震与天气的对应情况
日期 | 时间 | 纬度(°) | 经度(°) | 深度(km) | 震级 | 地名 | 天气 | 风力 | 污染 |
2014-01-18 | 16:43:23.9 | 39.75 | 116.71 | 8 | 3.0 | 通州 | 晴间多云 | 微风 | |
2014-03-14 | 18:16:18.3 | 40.03 | 115.91 | 7 | 3.4 | 门头沟 | 晴 | 微风 | |
2014-08-21 | 02:45:27.7 | 40.52 | 116.23 | 6 | 3.0 | 延庆 | 多云 | 微风 | |
2014-08-23 | 23:13:11.6 | 40.25 | 116.46 | 7 | 2.7 | 昌平 | 阴 | 微风 | |
2015-04-14 | 17:30:51.2 | 39.82 | 116.80 | 13 | 2.5 | 通州 | 晴~多云 | 微风 | |
2016-04-06 | 03:23:33.3 | 39.57 | 116.50 | 18 | 2.5 | 大兴 | 阴 | 微风 | 中度 |
2016-07-11 | 05:53:16.2 | 39.97 | 116.16 | 7 | 2.7 | 石景山 | 多云~雷阵雨 | 微风 | 轻度 |
2016-08-24 | 04:34:25.3 | 40.14 | 116.26 | 17 | 2.5 | 昌平 | 多云~雷阵雨 | 微风 | 轻度 |
http://tianqi.2345.com/wea_history/54511.htm
http://data.earthquake.cn/data/index.jsp?no=11&number=28
其实,要真弄清地震与雾霾有无统计意义上的相关性,得先看看地球上每年大约发生多少次地震,再看看地震发生后当地天气情况,然后做统计分析。下面是来自NEIC的地震资料:
It is estimated that there are 500,000 detectable earthquakes in the world each year. 100,000 of those can befelt, and 100 of them cause damage.
Each year the southern California area has about 10,000 earthquakes. Most of them are so small that they are not felt. Only several hundred are greater than magnitude 3.0, and only about 15-20 are greater than magnitude 4.0.
http://earthquake.usgs.gov/learn/facts.php
因为很多地震发生在大海里,估计有人说这些不会影响到雾霾天气,那么咱就看看南加利福尼亚地区,该区每年发生约10000次地震,但该地区每年有几天的雾霾天气呢?岳兄不妨做做功课,不就很清楚啦。
还要注意哦,地表下数公里~数十公里的小地震通常是无感地震,不会像张学文先生说的会引起地表土体的明显振动而释放孔隙中储存的气体。类比下,汽车引起的地面振动应大于无感小地震引起的地表振动,若张先生的说法成立,北京的汽车如此多,每天都会是雾霾天,但实际情况并非如此。随着环境治理力度的加大,北京地区的雾霾天会越来越少。
统计分析结果与样本类型的选择有很大关系,不可忽视。雾霾是特定气候条件与人类活动相互作用的结果,其影响因素众多,如汽车尾气、燃煤、粉尘、风向、风力等,统计分析得考虑多因素影响。若岳兄研究下北京地区雾霾天与风向、风力的关系,或许能有所收获。
再回到因果关系上,因为统计关系与因果关系不能划等号,所以即使统计分析表明地震与雾霾天有统计相关性,也不能说明确实存在因果关系。若岳兄对这个问题仍有兴趣,建议从机理出发,结合监测数据,研究:雾霾成分有没有甲烷气?有多少?是来自汽车尾气排放还是来自地下?甲烷在哪里储存?地震能引起海量高压甲烷气体的喷出吗?证据是啥?嗯,若北京地区有如此海量的气体喷出,吃瓜群众早就发现了,气象和地震部门也早就监测到了,地震部门可能得做出大震的临震预报了。问题是,木有发现这样海量的气体冒出来啊!
上面这些事儿,估计学过《概率论与数理统计》的大学生们都能搞明白,但某些具有高级职称的学者对如此简单的道理仍不清楚,令俺百思不得其解。由此看来,初级知识的科普工作仍任重而道远啊!
参考
【1】统计陷阱│统计学犹如比基尼, 掩盖的是最重要的地方
http://blog.sciencenet.cn/blog-528739-896622.html
【2】走出数据分析的几个误区,切忌轻易判断和决定
http://sanwen8.cn/p/2caaghp.html
【3】统计关系≠因果关系
http://blog.sina.com.cn/s/blog_7042bf9e0100ldek.html
相关
假说的命运
http://blog.sciencenet.cn/blog-575926-982720.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 09:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社