博文

警惕：别让对统计结果的误读误导科学研究（一）精选

已有 5812 次阅读 2021-8-28 11:31 |系统分类:科研笔记

随着研究体系的日趋复杂，统计分析成为自然科学研究中必备的方法手段。近年来一系列高端统计方法陆续被应用到相关领域，且有愈演愈烈、趋之若鹜之势。在当前的地学与生态环境领域，没有“高大上”的统计方法和对应的“炫酷”图件，甚至连在Top期刊发表一篇论文都很困难。笔者一直从事这一领域的大样本分析和挖掘工作，有更多的机会与统计分析打交道。在文献阅读和数据挖掘过程中，我发现：很多文献中存在对统计结果的误读，从而得出了 “不同寻常”的结论。例如，《Nature》杂志在曾表过一篇大样本分析论文，发现土壤有机碳的分解速率与温度没关系。很明显，这一结论有悖于化学反应动力学理论和大量的实验观测结果，属于典型的统计结果误读。

这种误读的原因并不在于统计方法本身，而是使用者自身对统计结果的错误解读。换句话说，这锅需要使用者自己来背，不应甩给数学家。统计学是数字的科学，统计方法在数学意义上并没有错。一些经典的统计学教材多会在明显的位置（一般在回归分析后）说明两点：1.统计结果的显著性仅能说明事物或因子之间存在关联的可能性，但是否存在实质关联还需研究者自己通过实验去验证；2.统计结果中可能存在虚假相关（Spurious correlation），尽管在统计学上没有错，但没有任何实际意义。遗憾的是，很多人在应用统计分析时并未把这些提醒放在心里，而是笃信统计结果一定是对的，一定会对应于某种因果关系。另一方面，受学科背景所限，很多人只是程式化地运用某些统计方法，对其原理和局限性缺乏了解。不少情况下，研究者采用的统计方法并不能很好地说明该科学问题，不能克服某些实际存在的影响。上述两个方面是对统计结果产生误读的主要原因。

前一段时间，研究组利用自建数据库并结合初步数学推导，分析并验证了相关误读的可能性和潜在影响。文章投稿到杂志社，编辑却以“在科学方面缺少创新”为由拒绝送审，且两次尝试全部被拒。笔者认为，方法的正确性要远比某些科学上的创新更具普遍意义。既然专业杂志不接受，干脆以非专业的方式在此与大家分享。这篇文章并不是为了批评，而是将这一共性问题提出来，希望起到抛砖引玉的作用。

下面，笔者列举几个常见的误读现象。受自身学科背景影响，所举例子主要局限在与地学相关的生态环境领域。同时，本文中仅讨论对回归分析的一些常见误读。实际上，越是复杂的统计方法，存在误读的可能性越大，而且越不易被发现。

（一）对回归R²的误读

回归方程的R²是指因变量（y）变异中能被自变量（x）变异所解释比例，因此被称为方差解释率或方差贡献率。在自由度和样本量不变的情况下，R²越高回归方程的显著性越高（P值越低）。后来，这一概念又被衍生为决定系数。它能决定什么呢，决定x作为自变量与因变量y存在关联的可能性，无它。相信上述概念对许多人都不陌生，但是在实际应用中却存在不少无意的曲解。在此仅举三类例子：

（1）利用R²比较自变量的重要性：按照上面的概念，R²大小表征某自变量影响因变量的可能性，而不是重要性。举一个实际例子：分别利用温度与土壤pH作为自变量与土壤有机碳分解速率进行线性回归，R²分别为0.6和0.3，P值均小于0.01，说明两个因子都对分解速率具有显著影响，但并不代表温度比土壤pH更重要。如果温度增加2.0℃导致分解速率增加15%，而土壤pH值增加0.5各单位导致分解速率增加30%。这样一来，到底这两个因子中那个更重要呢？很显然，判断因子的重要性要结合具体情况，而不是单纯依赖于R²。实际上，许多看起来“高大上”的方法（如，结构方程模型、路径分析、随机森林模型，等等）都以回归R²作为评判因子显著性的指标。根据这些统计方法的R²比较因子的相对重要性，同样属于对R²的错误解读。

（2）基于R²评判回归优劣：R²的计算公式中包括样本数量（n），因此R²与样本数量有关。一般情况下n值越大R²越小，因为观测量越多引入的随机误差越多。因此，许多大样本分析中R²会低于0.1，但P值非常接近于0，说明该因子的影响非常显著。但有些情况下n值并不会对R²造成太大影响，因为增加的随机误差可能会相互抵消。之前有位同事抱怨：同样两个参数之间，他们回归方程的R²比发表文献小，坚持要重做实验以得到更高的R²。我给出了建议，但好像并未被采纳。2017年，我们小组发现土壤pH值是决定农田土壤氧化亚氮（N₂O）排放全球变异的首要环境因子。文章被某杂志送审，但评审人却以R²太小（< 0.1，n > 1100）为理由建议拒稿。所以，这一类型的误读并不少见，而且多是潜意思的，很难被说服。那么话说回来，该以什么标准判断回归方程的优劣呢？笔者认为：应该看方程的残差是否接近均数为0的正态分布？残差的标准差是否足够小？若残差不符合正态分布，回归方程可信度很低，再高的R²也于事无补。

（3）基于R²进行污染物源解析：R²只能反应某一因变量的方差解释率，与来源相联系属于偷换概念，得出的结论很可能与实际情况存在重大偏差。例如，实际调查中发现，某污染物A的浓度在90-100之间波动，并与某潜在来源B呈显著正相关（如，R² = 0.8）。如果据此认为，80%的A污染物来自于来源B。这一结论明显不符合事实，因为B只能解释A浓度变异（即，100-90=10）中的80%，而不是全部浓度的80%。那么，何谈污染物A中的80%来源于B？实际研究中源解析的方法可能远比线性回归更为复杂，如主因子分析（PAC）等等。但是，这些方法的判断依据还是某个（类）源因子的方差贡献率，因此存在与前面类似的问题。笔者曾在参加论文答辩时多次指出这种源解析方法的问题，但结果经常是：答辩学生、导师和现场专家都觉得我在天方夜谭，因为它们的领域中都这么做。对此，我也无语。

考虑到篇幅问题，这次先写到这里。随后，我将继续分享相关方面的看法。只是本学期授课任务很重，可能需要点时间才能完成后面的讨论。

转载本文请联系原作者获取授权，同时请注明本文来自郭景恒科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3486388-1301781.html

上一篇：关于生物地球化学的热力学思考
下一篇：警惕：别让对统计结果的误读误导科学研究（二）

收藏 IP: 114.249.194.*| 热度|

CAU06018的个人博客分享 http://blog.sciencenet.cn/u/CAU06018

博文

警惕：别让对统计结果的误读误导科学研究（一）精选

当前推荐数：25 推荐人：杨正瓴 黄永义 范振英 檀成龙 尤明庆 农绍庄 黄河宁 梁洪泽 丁凡 蒋大和 段含明 王安良 左小超 彭真明 高景 杜学领 唐小卿 冯兆东 岳东晓 聂广 王卫 任国鹏 蔡迪文 李大斌 谭平连

该博文允许注册用户评论请点击登录评论 (13 个评论)

郭景恒

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

CAU06018的个人博客分享 http://blog.sciencenet.cn/u/CAU06018

博文

警惕：别让对统计结果的误读误导科学研究（一） 精选

当前推荐数：25 推荐人： 杨正瓴 黄永义 范振英 檀成龙 尤明庆 农绍庄 黄河宁 梁洪泽 丁凡 蒋大和 段含明 王安良 左小超 彭真明 高景 杜学领 唐小卿 冯兆东 岳东晓 聂广 王卫 任国鹏 蔡迪文 李大斌 谭平连

该博文允许注册用户评论 请点击登录 评论 (13 个评论)

郭景恒

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

警惕：别让对统计结果的误读误导科学研究（一）精选

当前推荐数：25 推荐人：杨正瓴黄永义范振英檀成龙尤明庆农绍庄黄河宁梁洪泽丁凡蒋大和段含明王安良左小超彭真明高景杜学领唐小卿冯兆东岳东晓聂广王卫任国鹏蔡迪文李大斌谭平连

该博文允许注册用户评论请点击登录评论 (13 个评论)