majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

利用Copula熵发现北京大气污染背后的因果关系

已有 6068 次阅读 2020-8-27 14:17 |系统分类:论文交流

引言

因果关系是人类面对的永恒主题之一。我们总是希望知道自然现象、社会现象或者生命现象为什么发生,事物发生的因果链条是怎样的。哲学家说,发现因果,胜过做王者。因果关系乃是世界之中的必然规律,宛如神的旨意,无论人类是否愿意,它都是必然发生,人只有无条件的遵从,强制性自然是胜过的国王的法令。能够自如运用这样的因果,则可以号令万物,有如王者一般。本文的目的就是利用因果发现技术,发现北京大气污染现象中的因果关系,以便我们明白因果,号令天气。

然而发现因果关系并非易事,古往今来的哲学家费尽思量。控制论学者维纳提出了一种因果关系的哲学概念,表述为因必须有助于改善果的预测。在此理念基础上,格兰杰提出了著名的格兰杰因果关系(Granger Causality)检验。然而这种检验适用于比较简单的情况,对于复杂的非线性因果并不适合。Schreiber定义了用于发现稳态时序包含的因果关系的传递熵(Transfer Entropy)的概念,可以被认为是格兰杰因果的非线性版本,应用范围就广泛了。传递熵作为广泛采用的因果关系度量,基于条件独立的概念,较之其他经验式因果关系建模方法更科学合理。问题是从数据计算传递熵并非易事,常常借助与假设条件,且存在估计误差。自如的估计传递熵需要借助于copula熵的概念。

Copula熵

Copula熵是由本人和导师孙增圻教授在2008年严格定义的一种用于度量统计独立性关系的数学概念。关于这些内容,在前一篇博客文章中已经做了较多叙述。统计独立性在概率统计中是基础性的概念,在高斯变量的情况下,退化成相关性。而相关性的度量在统计学科的早期就被提出并研究,最广为人知的度量是皮尔逊相关系数(Pearson Correlation Coefficient)。但皮尔逊相关系数只限于线性高斯的情况,因而虽然经典,但在充满了非线性的复杂自然界面前,往往力不从心,应用范围十分有限。如果不考虑前提条件地应用,得出的结论也是不可靠的。 

Copula熵是一种理想的统计独立性度量,它严格的数学定义使其满足很多数学家梦寐以求的公理性质,多变量、对称性、非负性、不变性,以及高斯情况下与相关系数等价等。由于统计独立性的基础性地位,copula熵的应用自然是广泛的。目前,其已经被应用于解决一些经典的统计问题,比如关联分析、结构学习、变量选择和因果发现等。这里主要关注其在因果发现上的应用。

以copula熵估计传递熵

copula熵是统计独立性度量,而传递熵是条件独立性度量。二者之间在数学上有着本质上的内在联系。通过并不复杂的数学变换,可以很容易证明,传递熵可以表示为只包含copula熵的数学形式。这就为估计传递熵提供了理论基础。

在过去的研究中,因果关系的估计往往在一定的假设前提下进行,无假设前提的因果关系估计被很多研究者认为是不可能的。2019年,Ma基于传递熵的copula熵表示形式,利用非参数的copula熵估计算法,提出了简单优雅、易于理解和实现的传递熵非参数估计方法。这样,不带任何假设条件的因果关系发现就成为了可能。

发现气象因素与大气污染之间的因果

北京人都对北京的雾霾天儿十分熟悉,特别是冬天,生活在那样的空气中,一定会让每一个爱这个城市的人感到忧心忡忡,也会带几分无奈。理性地想一想,这都是因为我们对雾霾的理解不够,办法不多。如果能明白导致大气污染的原因,发现这背后的因果关系,我们就不再束手无策了。发现因果关系,意味着可预测,更意味干预的可能性。

采用北京大学陈松蹊教授团队在UCI机器学习数据集仓库分享的北京PM2.5数据,利用上述传递熵估计方法,我们就可能去试着发现一些气象因素与PM2.5之间的因果关系来。陈教授分享的数据包含了北京地区2010年至2014年之间的连续气象观测数据和PM2.5数据。我们的分析选择其中一段无缺失值的连续数据记录,利用上述方法很容易就可以估计出气象因素对1至24小时后PM2.5的影响程度。利用上述估计方法并不是无条件的。应用时,我们默认假设了时序是稳态的,也假设了时间段之间的马尔科夫性,也就是不相邻的时间段之间无关。对24小时内滞后关系的分析发现,温度、湿度、压力等气象因素对PM2.5的形成的因果关系是一个逐渐增强的过程。这里仅放一张气压对PM2.5的传递熵估计曲线图,图的横轴表示滞后时间(以小时计),纵轴是传递熵的值,整个曲线表示的是当前的气压对若干小时后的PM2.5浓度的因果关系强度。若有兴趣,可以阅读文末的参考文献,以获取更多的详细信息。

这样的结果至少有两方面的意义。根据因果关系,我们可以构建包含气象因素的预测PM2.5浓度的模型。同时,它也加深了我们对大气系统这样一个非线性系统的内部规律的认识,有助于进一步探究系统的机理,以利于社会对污染天气的形成进行干预。


pressure1.png

参考文献

Jian Ma. Estimating Transfer Entropy via Copula Entropy. arXiv:1910.04375, 2019.



https://blog.sciencenet.cn/blog-3018268-1248096.html

上一篇:Copula熵 - 献给香农百年的礼物
下一篇:数学是人类的发明还是发现?
收藏 IP: 36.110.78.*| 热度|

2 冯圣中 陈星宇

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 17:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部