|
引言
统计独立性是统计学和机器学习领域的基础性概念,如何表示和度量统计独立性是统计学的基本问题。在统计学早期的19世纪,就有Pearson提出了相关系数的概念来度量统计独立性,并应用于优生学的研究。上个世纪,在对相关性的研究中Copula函数理论被提出,提供一种统一表示随机变量之间统计关联关系的理论工具。根据Sklar定理,通俗地讲,任何一个多变量之间的关联关系都对应着一个用于表示这种关系的函数,称为Copula函数。Copula函数表示了多变量之间全部的关联关系。
2008年在清华大学读博期间,我与导师孙增圻教授提出了Copula熵(Copula Entropy: CE)的概念。CE的概念由Copula密度函数定义而来,本质上是一种香农熵的形式。我们也证明了它与信息论中的互信息(Mutual Information:MI)概念是等价的。事实上,CE的提出是受到了这样的启发:Copula函数被认为包含了全部的关联关系,而MI一直被认为度量了全部的关联关系的信息,那么我们认为这二者之间必然有某种联系。对这种必然联系的研究的结果,就是提出了CE的理论。我已在前面的博文中详细介绍了CE理论。
CE是一种多变量之间关联关系度量的理论,与关联关系表示理论——Copula函数理论相对应。Copula函数表示关联关系,而由之得到的CE度量了关系中的信息量。CE是一个理想的统计独立性度量的概念,具有很多优美的属性,包括对称性、非负性、单调变换不变性、以及在高斯变量时与相关系数等价等。
CE是一个基础性的统计工具,可以用来解决多个统计学的基本问题。我们在2008年就将其应用到结构学习问题上,用来学习统计变量之间的关联关系结构。最近,我们又将其应用到关联发现、变量选择和时序因果发现三个问题上,都取得了良好的应用效果。以下分别介绍这四个应用。
从数据分析一组随机变量之间的关联结构,可以帮助我们了解系统内部的内在结构关联性,具有重要的应用价值。在统计和机器学习学习中,表示这种关联结构的主要工具方法是图(Graph),图中的顶点表示随机变量,顶点之间的边表示变量之间的关联,边的权重表示关联的强度。图又分为有向图和无向图,前者的边具有方向而后者则无方向,前者表示变量之间的因果关系而后者表示关联关系。从数据中学习这种关联图结构的问题,被称为结构学习(Structure Learning)。
结构学习的算法很多,其中比较著名的有Chow-Liu的图结构学习方法。该方法通过学习变量的MI矩阵,再基于矩阵学习最小生成树(Minimal-Spanning-Tree:MST)来得到主要关联结构的骨架。
利用MI和CE的等价性,我们给出了Chow-Liu算法的CE版本,包含两步:
1. 利用CE估计方法学习得到随机变量的关联矩阵;
2. 再利用MST生成算法从上述矩阵得到关联图结构。
由于我们的CE估计方法简单有效,相较于传统的互信息估计具有明显优势,因此也使得Chow-Liu算法更可靠有效。
我们将算法应用到两个经典的UCI机器学习数据集:鳗鱼生长数据集和波士顿房价数据集。实验结果显示,算法能够得到具有可解释性的关联结构,使我们对数据反映的鳗鱼生长特性和波士顿房价相关因素的内在关系有了更深入的理解。
具体见如下论文:
Ma, Jian, and Sun, Zengqi. “Dependence structure estimation via copula.” arXiv preprint arXiv:0804.4451 (2008).
经验科学是分析数据的学问。通过分析收集的观察或经验数据,人们得出对象系统的科学结论。关联的概念是统计数据分析的基本工具之一。它度量了随机变量之间的统计性内在联系,进而被赋予科学意义。发现关联关系是科学研究的主要内容方法之一。
Pearson相关系数是一种统计学史上重要的相关性度量概念,教科书里都会讲到,应用也很广泛。但由于它是统计学早期提出的概念,因此具有很多局限性。从理论上来讲,它只适用于线性的情况,隐含着高斯分布的假设,使它在绝大多数实际情况中都不适用。它是一个二变量的度量,没有多变量的版本。
CE则是一种更高级的相关性度量,相对于Pearson相关系数具有显著的优势。它没有线性和高斯性的假设,是一个多变量的相关性度量。实际上,CE度量的是统计独立性,比相关性更宽泛的概念,在统计独立的情况下,其为0。CE还具有单调变换不变性,且在高斯分布的情况下,与相关系数等价。简单列一下CE的优点:
无模型假设,
可处理非线性关系,
统计独立性度量,
单调变换不变性,
在高斯情况下与相关系数等价。
综合了如此多优点,CE是一个完美的相关性度量,完全可以替代Pearson相关系数,适用于任何类型的相关性度量。Pearson相关系数作为一个历史悠久的统计工具,可以进入历史了。
关于CE与Pearson相关系数的对比,可见如下论文,论文利用著名的NHANES医学体检数据证明了CE的显著优越性。
具体见如下论文:
Ma, Jian. “Discovering Association with Copula Entropy.” arXiv preprint arXiv:1907.12268 (2019).
这里主要介绍论文的实验部分。实验利用CE分析了著名的美国国家健康和营养体检调查(NHANES)数据,实验中使用的是2013-2014年度的实验室化验数据,来自美国全国各地上万人规模的调查人群样本,包含血液、尿液等426项化验结果变量。实验利用copent包计算了化验变量之间的相关性强度,得到的CE相关矩阵如下图所示(横纵坐标序号对应变量的意义见下表):
实验发现,根据相关矩阵,这些变量可明确地分为5组,每一组都对应着某种健康问题。化验变量分组情况见下表:
这里着重介绍一下其中的第1组和第5组变量。第1组变量对应的是人因为环境化学元素暴露造成的影响,其中的PAH子项与汽车尾气、厨房油烟和吸烟等密切相关,另外两个子项则对应的是环境重金属在血液和尿液中的影响,PAH和重金属是广泛共存于自然环境中的相互关联的主要环境污染。第5组变量对应的是使用塑料制品对人的健康的影响,其中的Phthalates就是塑料生产过程中需要的化学品。
就我所知,以上对NHANES数据的相关性分析是首次,类似的结果也是首次发现。此结果为环境污染对人类健康的危害给出了清晰的实证证据。这样的发现也主要是因为分析工具——CE的优越性带来的。
变量选择
变量选择,又称特征选择,是统计和机器学习的基本问题。当人们试图从一组自变量和目标预测变量之间建立函数关系时,往往希望只选择真正与目标变量有内在联系的自变量的一个子集作为函数模型的输入,以提高模型的科学性(或可解释性),降低模型的复杂度。这样的问题称为变量选择。在统计和机器学习中,建立的函数关系一般为分类预测模型或者回归模型。
传统的变量选择方法很多,主要的有准则法、模型正则化方法和关联度量方法。主要的准则法有AIC和BIC等,通过在似然函数上加上对模型复杂度的惩罚项得到。模型正则化方法主要用于广义线性回归模型,在学习模型的过程中,通过在似然函数上加上模型参数(线性系数)的1范数或2范数或二者的组合得到,经典的方法包括LASSO、岭回归(Ridge Regression)和弹性网络(Elastic Net)等。以上两类方法都是基于似然函数加惩罚项的形式完成变量选择,都是模型有关的。关联度量的方法则是通过自变量和目标变量之间的关联强度来选择变量,是模型无关的方法。主要的关联关系度量包括传统的Pearson相关系数,但它只能度量线性关系,仅适用于线性模型。几个主要的非线性关联度量也都被应用到变量选择问题上,包括希尔伯特-施密特独立性准则(Hilbert-Schmidt Independence Criterion:HSIC)和距离相关(Distance Correlation:DC)等。
变量选择问题,推荐CE方法,不建议LASSO或者p-value等传统方法。本方法利用CE度量自变量和目标变量之间的关联强度,根据强度从大到小依次选择变量。 在变量选择问题上,CE已被真实数据实验证明优于以下主流变量选择方法:
LASSO / Ridge Regression / Elastic Net,
AIC / BIC,
Adaptive LASSO,
Hilbert-Schimdt Independence Criterion (HSIC),
Distance Correlation (dCor).
Heller-Heller-Gorfine Tests of Independence,
Hoeffding's D test,
Bergsma-Dassios T* sign covariance,
Ball correlation.
实验采用了著名的UCI心脏病数据集,此数据集建立的目的是利用临床体征预测心脏病,一个重要的特点是,在数据集的75个属性中,有13个被临床专家认为是与病症有关的。这就为变量选择提供了一个参考的金标准,就可以检验方法的有效性。本实验将CE方法与以上方法进行对比,结果CE方法在预测性和可解释性上均优于其他方法,选出了最多的参考变量,充分表明了方法的优越性。部分对比结果见下图。
CE为变量选择问题提供了统一的理论框架。它具有以下优点:
模型无关,
数学理论坚实,
物理上可解释,
具有非参数估计算法,不做理论假设,
几乎不需要调参。
本方法做变量选择是模型无关的,这与基于似然函数的方法相比,无需考虑模型及其复杂度等因素,具有普适性的明显优势。作为一种关联度量工具,CE与其他度量工具相比定义坚实,具有很多理想的独立性度量公理属性,因此也具有明显的理论优势。另外熵是一种物理意义明确的数学概念,CE可被认为是从自变量到目标变量的函数关系包含的信息量,因此很容易从物理上理解和解释得到的模型。在方法实现上,CE的估计方法基于序数统计量,是非参数的,不做任何理论假设,充分发挥了其理论优势。同时,其估计方法具有良好的渐近稳定性,几乎不需要调参,与LASSO等结果严重依赖超参数选择的方法形成了鲜明对比。总之,本方法具有理论和计算上的明显优势,将变量选择问题变成了一种科学,而不像LASSO等方法是一门艺术。
具体见如下论文:
Ma, Jian. “Variable Selection with Copula Entropy.” Chinese Journal of Applied Probability and Statistics (accepted). See also arXiv preprint arXiv:1910.12389 (2019).
实验R代码见: https://github.com/majianthu/aps2020
因果关系普遍存在于自然界当中,发现因果关系是科学的主要命题之一。从一组随机变量的时序观测中发现变量之间的因果关系,被称为因果发现问题。时序因果关系发现方法在多个学科领域都有重要应用价值。
如何度量因果关系是因果发现问题解决的基础。控制论学者维纳提出了一种因果关系的哲学概念,表述为因必须有助于改善果的预测。在此理念基础上,格兰杰提出了著名的格兰杰因果关系(Granger Causality: GC)检验。GC检验是经典的因果发现工具,但它只适用于高斯的情况。Schreiber定义了用于发现稳态时序包含的因果关系的传递熵(Transfer Entropy:TE)的概念。TE是GC的非线性推广,利用信息论的概念定义,等价于条件互信息(Conditional Mutual Information:CMI),本质上是检验条件独立性(Conditional Independence),是模型无关的,因此适用于任何情况的因果关系检验。TE作为广泛采用的因果关系度量,较之其他经验式带有模型假设的因果关系推断方法更科学合理,具有更广泛的普适性。
CE是统计独立性度量,而TE是条件独立性度量。我们证明了二者之间在数学上有着本质上的内在逻辑联系。通过并不复杂的数学变换,可以很容易证明,TE可以表示为只包含CE的数学形式。这就为估计TE提供了理论基础。
在过去的研究中,因果关系的估计往往在一定的假设前提下进行,无假设前提的因果关系估计被很多研究者认为是不可能的。我们基于TE的CE表示形式,利用非参数的CE估计算法,提出了简单优雅、易于理解和实现的非参数TE估计方法。这样,不带任何假设条件的因果关系发现就成为了可能。
为了验证提出的非参数TE估计方法,论文将该方法应用于大气污染问题中的因果发现,研究了北京地区气象因素和PM2.5之间的因果关系。采用北京大学陈松蹊教授团队在UCI机器学习数据集仓库分享的北京PM2.5数据,利用上述TE估计方法,我们就可能去试着发现一些气象因素与PM2.5之间的因果关系来。陈教授分享的数据包含了北京地区2010年至2014年之间的连续气象观测数据和PM2.5数据。我们的分析选择其中一段无缺失值的连续数据记录,利用上述方法很容易就可以估计出气象因素对1至24小时后PM2.5的影响程度。利用上述估计方法并不是无条件的。应用时,我们默认假设了时序是稳态的,也假设了时间段之间的马尔科夫性,也就是不相邻的时间段之间无关。对24小时内滞后关系的分析发现,温度、湿度、压力等气象因素对PM2.5的形成的因果关系是一个逐渐增强的过程。
同样在上述实验数据的基础上,我们将提出的TE估计方法与另外两种条件独立性度量进行了对比实验,估计从气象因素到PM2.5的因果关系24小时走势。这两种度量分别是基于核函数的条件独立性度量和条件距离相关(Conditional Distance Correlation:CDC)。论文通过将用CE估计TE与其它两种方法进行了对比,结果(见下图)显示TE的估计效果更好。
具体见相关论文:
Ma, Jian. “Estimating Transfer Entropy via Copula Entropy.” arXiv preprint arXiv:1910.04375 (2019).
实验R和Python代码见:https://github.com/majianthu/transferentropy
以上介绍的CE的四个应用之间有着内在的联系。从理论基础上讲,它们都是基于CE对统计独立和条件独立的理论框架,学习某种内在的统计联系,这是共同点。区别在于四个应用研究的联系不同,以及关联结构的表示方式不同。关联发现问题主要关注成对变量之间的静态的统计相关,表示为相关矩阵的形式;结构学习则关注一组变量之间整体的关联结构,表示为图的形式;变量选择的目的是要建立一个多对一的关联结构,最终要表示为函数的形式;时序因果发现是动态系统中的因果关系,它也可以构建表示变量之间因果关系的有向图结构,也可以用来进行变量选择,构建时序预测的函数关系模型。
总之,利用CE度量统计独立和条件独立关系,可以估计随机变量之间的相关性和因果性关系强度,进而通过相关或因果关系发现表示成基本的矩阵形式,通过结构学习生成直观的无向或有向图的形式,或者通过变量选择构造具有预测能力的静态或动态时序的函数模型的形式。
相关性和因果性是统计学中的两个基础性概念,对应于概率论中的统计独立和条件独立。统计相互独立(statistical independence)和条件独立是两个不同的概念,但又有着内在的联系。我们通过CE的概念,给出二者之间的内在联系的理论框架,以及在此理论框架基础上的估计方法。
前者可以用CE来衡量。CE是一个完美的衡量统计独立性/相关性的数学概念,具有很多数学家梦寐以求的独立性度量的公理属性。它等价于信息论中的MI概念。后者可以用TE来衡量。TE等价于条件MI。我们证明了TE可以用CE来表示。也就是说,条件独立可以通过统计独立来表示和计算。因此二者之间具有内在的理论联系。
相关性不等于因果性,二者是不同的概念,但人们有时却容易把二者等同起来。举一个我们做的时序因果发现的研究作为例子加以说明。具体见论文
Ma, Jian. “Estimating Transfer Entropy via Copula Entropy.” arXiv:1910.04375 (2019).
论文给出了一种利用CE来估计TE的算法。论文采用了一个环境气象的数据来验证TE估计算法。数据是北京的PM2.5观测数据,另外还有同时观测的北京地区气象数据。论文实验分析了气象因素(温度、露点、气压和风速等)对PM2.5浓度的因果强度,用从时序观测数据中估计的TE来衡量,发现了二者之间的因果关系变化规律。
这里要强调的是论文的讨论部分。我们讨论对比了时序相关性和时序因果性,发现即使是气象因素和PM2.5浓度之间相关性微弱的情况下,二者之间仍然有时滞因果关系。论文的图2(下图)以温度因素为例,对此做了说明。子图(a)和(c)分别对应TE和CE,也就是因果性和相关性。我们可以发现,相关性强度几乎为0,而因果性强度依然很高。
我们认为,这一分析结果是由时序观测的对象系统的动态性造成的,气象因素对PM2.5浓度变化的影响不是即时的,而是由于大气系统的内部运动过程,有一个滞后的效应所致。此时,时序变量之间没有即时的相关关系,但存在时滞的因果关系。
TE估计方法将统计独立性度量CE用于条件独立性的度量——TE的表示和估计。从而,我们就提出了一个基于CE概念,能够度量独立性和条件独立性两个基本概念的理论框架。与此类似,核函数的方法和距离相关的方法也可以应用到这两个概念的度量问题上,也分别构成了类似的理论框架。但基于CE的理论框架更优越,理论上,CE的定义更严格;计算上,基于CE的估计方法也更简单优雅,普遍适用,且计算量相对要小。
我们利用下表对比三种统计独立度量概念,可以看到CE具有多方面的理论优势。比如,CE天然的是一个多变量的度量,而其他二者需要通过扩展定义来满足多变量的情况;CE具有单调变换不变性和与相关系数等价等属性,而其他二者不具备。在计算成本上,CE计算复杂度低,而其他二者则具有较高的计算复杂度。
在变量选择和因果发现两个应用中,我们利用真实数据对比三种框架中的相应方法。实验结果也表明了CE框架的度量工具均优于其他两个框架中的相应的工具。在实验中,CE框架工具能够比其他二者更高效准确的发现更多的相关/因果关系。
注:上述论文中非参数CE估计方法已实现为R和Python的算法包copent,在CRAN和PyPI上共享。
参考文献
Ma, Jian, and Sun, Zengqi. “Mutual information is copula entropy.” Tsinghua Science & Technology 16.1 (2011): 51-54. See also arXiv preprint arXiv:0808.0845 (2008).
Ma, Jian, and Sun, Zengqi. “Dependence structure estimation via copula.” arXiv preprint arXiv:0804.4451 (2008).
Ma, Jian. “Discovering Association with Copula Entropy.” arXiv preprint arXiv:1907.12268 (2019).
Ma, Jian. “Variable Selection with Copula Entropy.” Chinese Journal of Applied Probability and Statistics (accepted). See also arXiv preprint arXiv:1910.12389 (2019).
Ma, Jian. “Estimating Transfer Entropy via Copula Entropy.” arXiv preprint arXiv:1910.04375 (2019).
Ma, Jian. “copent: Estimating Copula Entropy in R.” arXiv preprint arXiv:2005.14025 (2020).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 08:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社