|
随着研究体系的日趋复杂,统计分析成为自然科学研究中必备的方法手段。近年来一系列高端统计方法陆续被应用到相关领域,且有愈演愈烈、趋之若鹜之势。在当前的地学与生态环境领域,没有“高大上”的统计方法和对应的“炫酷”图件,甚至连在Top期刊发表一篇论文都很困难。笔者一直从事这一领域的大样本分析和挖掘工作,有更多的机会与统计分析打交道。在文献阅读和数据挖掘过程中,我发现:很多文献中存在对统计结果的误读,从而得出了 “不同寻常”的结论。例如,《Nature》杂志在曾表过一篇大样本分析论文,发现土壤有机碳的分解速率与温度没关系。很明显,这一结论有悖于化学反应动力学理论和大量的实验观测结果,属于典型的统计结果误读。
这种误读的原因并不在于统计方法本身,而是使用者自身对统计结果的错误解读。换句话说,这锅需要使用者自己来背,不应甩给数学家。统计学是数字的科学,统计方法在数学意义上并没有错。一些经典的统计学教材多会在明显的位置(一般在回归分析后)说明两点:1.统计结果的显著性仅能说明事物或因子之间存在关联的可能性,但是否存在实质关联还需研究者自己通过实验去验证;2.统计结果中可能存在虚假相关(Spurious correlation),尽管在统计学上没有错,但没有任何实际意义。遗憾的是,很多人在应用统计分析时并未把这些提醒放在心里,而是笃信统计结果一定是对的,一定会对应于某种因果关系。另一方面,受学科背景所限,很多人只是程式化地运用某些统计方法,对其原理和局限性缺乏了解。不少情况下,研究者采用的统计方法并不能很好地说明该科学问题,不能克服某些实际存在的影响。上述两个方面是对统计结果产生误读的主要原因。
前一段时间,研究组利用自建数据库并结合初步数学推导,分析并验证了相关误读的可能性和潜在影响。文章投稿到杂志社,编辑却以“在科学方面缺少创新”为由拒绝送审,且两次尝试全部被拒。笔者认为,方法的正确性要远比某些科学上的创新更具普遍意义。既然专业杂志不接受,干脆以非专业的方式在此与大家分享。这篇文章并不是为了批评,而是将这一共性问题提出来,希望起到抛砖引玉的作用。
下面,笔者列举几个常见的误读现象。受自身学科背景影响,所举例子主要局限在与地学相关的生态环境领域。同时,本文中仅讨论对回归分析的一些常见误读。实际上,越是复杂的统计方法,存在误读的可能性越大,而且越不易被发现。
(一)对回归R2的误读
回归方程的R2是指因变量(y)变异中能被自变量(x)变异所解释比例,因此被称为方差解释率或方差贡献率。在自由度和样本量不变的情况下,R2越高回归方程的显著性越高(P值越低)。后来,这一概念又被衍生为决定系数。它能决定什么呢,决定x作为自变量与因变量y存在关联的可能性,无它。相信上述概念对许多人都不陌生,但是在实际应用中却存在不少无意的曲解。在此仅举三类例子:
(1)利用R2比较自变量的重要性:按照上面的概念,R2大小表征某自变量影响因变量的可能性,而不是重要性。举一个实际例子:分别利用温度与土壤pH作为自变量与土壤有机碳分解速率进行线性回归,R2分别为0.6和0.3,P值均小于0.01,说明两个因子都对分解速率具有显著影响,但并不代表温度比土壤pH更重要。如果温度增加2.0℃导致分解速率增加15%,而土壤pH值增加0.5各单位导致分解速率增加30%。这样一来,到底这两个因子中那个更重要呢?很显然,判断因子的重要性要结合具体情况,而不是单纯依赖于R2。实际上,许多看起来“高大上”的方法(如,结构方程模型、路径分析、随机森林模型,等等)都以回归R2作为评判因子显著性的指标。根据这些统计方法的R2比较因子的相对重要性,同样属于对R2的错误解读。
(2)基于R2评判回归优劣:R2的计算公式中包括样本数量(n),因此R2与样本数量有关。一般情况下n值越大R2越小,因为观测量越多引入的随机误差越多。因此,许多大样本分析中R2会低于0.1,但P值非常接近于0,说明该因子的影响非常显著。但有些情况下n值并不会对R2造成太大影响,因为增加的随机误差可能会相互抵消。之前有位同事抱怨:同样两个参数之间,他们回归方程的R2比发表文献小,坚持要重做实验以得到更高的R2。我给出了建议,但好像并未被采纳。2017年,我们小组发现土壤pH值是决定农田土壤氧化亚氮(N2O)排放全球变异的首要环境因子。文章被某杂志送审,但评审人却以R2太小(< 0.1,n > 1100)为理由建议拒稿。所以,这一类型的误读并不少见,而且多是潜意思的,很难被说服。那么话说回来,该以什么标准判断回归方程的优劣呢?笔者认为:应该看方程的残差是否接近均数为0的正态分布?残差的标准差是否足够小?若残差不符合正态分布,回归方程可信度很低,再高的R2也于事无补。
(3)基于R2进行污染物源解析:R2只能反应某一因变量的方差解释率,与来源相联系属于偷换概念,得出的结论很可能与实际情况存在重大偏差。例如,实际调查中发现,某污染物A的浓度在90-100之间波动,并与某潜在来源B呈显著正相关(如,R2 = 0.8)。如果据此认为,80%的A污染物来自于来源B。这一结论明显不符合事实,因为B只能解释A浓度变异(即,100-90=10)中的80%,而不是全部浓度的80%。那么,何谈污染物A中的80%来源于B?实际研究中源解析的方法可能远比线性回归更为复杂,如主因子分析(PAC)等等。但是,这些方法的判断依据还是某个(类)源因子的方差贡献率,因此存在与前面类似的问题。笔者曾在参加论文答辩时多次指出这种源解析方法的问题,但结果经常是:答辩学生、导师和现场专家都觉得我在天方夜谭,因为它们的领域中都这么做。对此,我也无语。
考虑到篇幅问题,这次先写到这里。随后,我将继续分享相关方面的看法。只是本学期授课任务很重,可能需要点时间才能完成后面的讨论。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-8 20:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社