张鹰的博客分享 http://blog.sciencenet.cn/u/yingzhang1 农村小伙的回顾与展望

博文

3.19 信息时代的自我修养:因果分析 精选

已有 21666 次阅读 2022-2-16 22:26 |个人分类:生活2|系统分类:观点评述


信息时代,短视频、自媒体文章流行,我们需要对网络上流行的观点进行批判性的思考,尤其是可能影响自己决定的内容。自我修养的重要一部分是进行因果分析,剔除一些似是而非的原因。本文中举出一些常见的因果错误,通过例子的分析,可以锻炼我们的思维,在阅读自媒体内容时更多思考。

因果分析的重要性,早在信息时代之前就有不少讨论。尼采在《偶像的黄昏》一书中给出了这样的例子:科尔纳罗把他的节食习惯作为长寿和幸福生活的诀窍加以推荐,但是这个意大利人把因果倒置了,错把节食看成了长寿的原因;长寿的先决条件是异常缓慢的新陈代谢,他恰巧消耗比较少,所以节食,而人的食量并不能随意控制;因果混淆的建议,有可能造成了一些人不幸福的生活或缩短的寿命[1]。当然,如今更加系统的科学研究发现,均衡的饮食,减少高糖高盐高脂的饮食习惯,可以减少糖尿病、高血压等慢性病的发生[2],是比较有根据的健康建议。

如何区分因与果呢?图1展示了最简单的情况:只有两个事件AB。用例子来考虑:在房间里,A代表电灯开关,B代表电灯是否亮了,我们想让一只聪明的猴子,学会开关与电灯之间的关系。实验室人员在房间外,可以用遥控来控制开关的状态。猴子反复观察到,开关与电灯总是同时切换所以推测开关与电灯之间有相关性。为了确定因果关系,它必须做一个干预(intervention),才能确定哪个是因。当猴子对开关进行操作(干预)时,它发现电灯状态也发生了变化;相反的,当猴子对灯泡进行干预时,比如砸破灯泡,从底座取下灯泡等等,都不会影响开关的状态。对因的干预会传递到果,但是对果的干预不会传递给因。通过这样的干预,猴子能大致猜测开关是原因,电灯是结果。有兴趣的读者,可以在文献中查找干预与因果的更加全面的介绍,比如文献[34]。在两个因素下的因果关系的理解并不难,但是如果因素增加时,问题将会更加困难。比如,如果实验者有一个控制电灯的总开关,猴子可能对它能控制的开关与电灯的状态形成错误的理解。 

causality 1.png 

1. 两个事件的因果分析。干预(intervention)可以获得关于原因与结果的信息。

医学领域的顶尖期刊《新英格兰医学杂志》在2012年曾经刊登过一篇有关巧克力的乌龙论文[5]:作者作图发现,人均巧克力的消费量与人均诺贝尔奖的数量有很强的线性的相关性,推测巧克力的食用或许可以提高认知能力,虽然作者表示缺乏机理性的研究确证,但是已经给读者错误的印象(想象)了。这个论述的错误是教科书式的忽视共同原因(neglect of a common cause[6]。图2a)可以直观地展示了共同原因的情况:C(经济水平)影响D(诺贝尔奖数量),C(经济水平)也影响E(巧克力消费量)。瑞士、瑞典等国家经济发展水平较高,具有先进的科研仪器与人才培养的优势,所以更有可能获得诺贝尔奖;发达国家收入较高,所以巧克力的消费量可能更高(非洲国家有饥荒、食物短缺的问题,很少可能花钱去买巧克力)。忽视了经济水平的共同原因,就可能错误地归纳巧克力消费量与诺贝尔奖数量正相关。类似的,鲨鱼攻击人群(shark attack)的发生率与冰淇淋消费量正相关,但是没有人会建议减少冰淇淋的消费量从而减少鲨鱼的攻击;正相关的原因在于气温升高以后,冰淇淋消费增加,在海滩游泳的人也多,所以更多人受到鲨鱼的攻击[7],这也是典型的图2a)展示的情况。

causality 2.png

2. 三个事件的不同因果关系图(a)共同原因(common cause),(b)因果链(causal chain),(c)对撞因子(collider)。

       三个事件形成的因果关系图除了图2a)中的共同原因外,还有(b)因果链与(c)对撞因子的情形。图2b)因果链的例子很多,有点一环扣一环的感觉。美国人喜欢喝冰可乐等苏打饮料:低温可以让味蕾没有那么敏感,味蕾不觉得冰可乐太甜(常温可乐给人更甜的感觉),所以就容易摄入过多糖分而长胖。因果链也可以是概率性的:吸烟可能增加患肺癌的概率,得了肺癌的人寿命可能较短。

2c)的对撞因子的说法听上去好像很难懂,但是生活中的例子可以给我们很直观的体会。爸爸和家里的宠物狗都很喜欢吃红烧肉:家里的红烧肉少了,不是爸爸偷吃的,就是宠物狗偷吃的。排除了一个因素(或者降低概率),那么就可以推导出另一个因素(或者可能性更高了)。如果用等式来写C-> E <-D,像是两个箭头撞在了一起,因而有对撞因子(collider)的名称。现实中,产生一种结果的变量有很多,一个常见的错误就是只抓住一个因子考虑。过去有些外国媒体预测印度经济发展速度超过中国,给出的原因是:印度年轻人数量比中国多,具有人口红利。但是我们知道影响经济发展的因素有很多,比如受教育程度(中国平均受教育程度远高于印度,印度的文盲数量很大),中国的人均预期寿命也比印度高不少,而中国的基础设施建设比印度强很多。要得出科学的结论,需要比较全面地分析不同的原因(因素),而不能盲人摸象地用片面意见作为结论。

医学方面的问题诊断需要考虑很多因素,确定问题的核心有时候比物理等自然科学更加困难。电视剧《豪斯医生》的典型剧情是这样的:一个病人有严重的症状,假设某种病因以后,对症下药,发现病人并没有恢复健康;于是调查病人的背景与最近的接触的人群,寻找可能的其他解释,然后采用新的治疗方案,验证是否有效果。通过药物或手术治疗的干预,然后检查导致了什么样的结果,从而肯定或者否定原先的假设。中学的理科教育强调物理的学习,尤其是模型的建立、过程分析与计算。物理学通常会有很多的近似假设(approximation),其实就是在提取最重要的因素,在这个基础上进一步推导,通过抓大放小的方式,看看最后的结果是否大致符合近似情况。不同于考试,现实生活与科研中,更多依赖于寻找不同的因素,用实验设计去验证或排除假设,从而解决问题。

更加困难的是社会科学的研究,比自然科学的变量更多,而且很多的变量是无法控制的,也难以进行随机化实验,有时需要借助观测性研究。当然,大数据与智能手机的应用App给心理学等社会科学的研究提供了很多的新工具与实验方法[8]。对一些研究建模与分析以后,可能产生一些已考虑因素无法解释的残差(residual)。诺贝尔奖得主舒尔茨指出,在研究经济增长的模型中有大的残差,分析这些残差是很有必要与意义的,比如残差的逻辑基础是什么,如何用新的要素(attributesfactors)去纠正残差等等[9]。举个例子,一些教育批评家认为我们的科研创新缺乏后劲是因为学生缺乏好奇心与兴趣,但是既不提供培养好奇心与兴趣的策略,也不提供好奇心影响创新的逻辑关系或证据。好比用黑盒子解释黑盒子,这样的说法难以验证,是缺少科学精神的

最后,分享一个自己的错误的经验教训:我做错了因果分析,后悔了很长一段时间。我在高一的时候,读过一篇反直觉的有趣的文章:亚洲人的英语托福成绩与经济发展水平成反比关系,比如日本人的托福成绩很差,中国人韩国人还不错,而印度人的托福成绩非常好。高中的我根本没有因果分析的能力,顿时为不想学习英语找到了一个好的借口:当中国成为发达国家自然有其他国家的人来学中文了。这篇文章只是给出了相关性,但并没有解释影响英语成绩的原因:日语发音中没有lr的区别,缺少fvth的辅音,元音比英语少,而且大多数的音节都以元音结尾(aiueo),受母语影响很难说好英语;印度由于当地语言众多,英语作为近似母语,大学授课用英语教材更方便;韩国是美国的主要留学生生源地,所以对英语能力非常重视,而托福本来就是测试有美国留学倾向的学生的。到了大三大四,我才发现英语在科研中的重要性,开始恶补英语,非常后悔高中与大学低年级时的短视。

在信息时代,有趣的文章才更容易吸引注意力,因为反直觉而有趣,才能吸引用户点击和阅读。一些文章或许只是简单陈述事实,但也可能误导我们。生活中,我们每个人都会犯错,在错误中吸取教训与经验而成长。在做重要的决定时,最好进行因果与相关性的分析,更加勇敢主动地去征询朋友的反对意见,来预防或纠正自己的错误观点。

引用文献:

[1] 尼采,李超杰译,偶像的黄昏——或怎样用锤子从事哲学,商务印书馆,2013年,p33.

[2] World Health Organization. Diet, nutrition, and the prevention of chronic diseases: report of a joint WHO/FAO expert consultation. Vol. 916. 2003.

[3] Hagmayer, York, Steven A. Sloman, David A. Lagnado, and Michael R. Waldmann. "Causal reasoning through intervention." Causal learning: Psychology, philosophy, and computation (2007): p.86

[4] Pearl, Judea. Causality: Models, Reasoning, and Inference. Second Edition, Cambridge university press, 2009. p.23

[5] Messerli, Franz. Chocolate Consumption, Cognitive Function, and Nobel Laureates. The New England Journal of Medicine (2012); vol. 367: p.1562

[6] T. Edward Damer, Attacking Faulty Reasoning, Wadsworth, Cengage Learning, 2013, 7th editionp.196

[7] James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. An introduction to statistical learning. Springer, 2013. p.74

[8] Salganik, Matthew J. Bit by bit: Social research in the digital age. Princeton University Press, 2019.

[9] Theodore Schultz, The economic value of education, Columbia University press. 1963, Page ix.




https://blog.sciencenet.cn/blog-3116575-1325643.html

上一篇:3.18 发展中小城市教育科技的一些措施
下一篇:3.20 大数据时代的自我修养: 数据的局限性

17 熊泽泉 胡大伟 黄永义 肖慈珣 郑永军 王安良 尤明庆 谢钢 宁利中 李宏翰 陆仲绩 陈蕴真 许培扬 孙颉 童华 檀成龙 姚伟

该博文允许注册用户评论 请点击登录 评论 (11 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-7-1 04:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部