majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵 - 献给香农百年的礼物 精选

已有 19474 次阅读 2016-5-19 11:16 |系统分类:论文交流

——信息论被称为20世纪重要的理论之一。今年是信息论的奠基人香农诞辰100周年,谨此致意。

1.信息论的发表
1948年,香农在贝尔实验室学报上发表了信息论的奠基之作《A Mathematical Theory of Communication》。香农在论文中总结提炼了当时各种通讯手段的抽象模型,讨论了在环境噪声影响下如何进行通讯的问题。在信息论提出以前,通讯科技人员在设计通讯系统和方法时缺少理论指导,主要依靠经验。香农的信息论给出了信息的衡量、表示和传输的理论,为信息通讯问题奠定了科学基础。香农的信息论是预言性的,指出了在各种通讯条件下通讯系统的信息传输的理论极限,为通讯工程师开发设计通讯技术的发展指出了方向。

单从字面来看,信息论是关于信息的理论。但对于这个名字,香农本人并不满意,他更倾向于将其叫做“信息传输(Transmission of information)”的理论,这也表明了香农本人提出信息论的初衷,主要是针对信息通讯问题。信息论的影响力并不限于通讯领域,也被介绍到其他学科,甚至一度引起了信息论与多学科融合的热潮。

2. 信息论的基石——熵和互信息
信息论的精髓在于定义了香农熵、互信息(Mutual Information)等概念,并给出了信息表示和通讯传输极限的数学计算方法。熵概念是信息论的基础。在1948年论文中,香农借鉴了玻尔兹曼在统计力学中提出的熵的概念,定义香农熵,用来衡量信源的不确定性或随机性。这样,信息就可以理解为消除不确定性所需的信息的数量。在同一篇论文中,香农还定义了信道容量(Channel Capacity)的概念,由此引出了后来被香农称为互信息的概念。信道容量概念是信息论的精华,是香农解决信息传输问题的核心结论。基于此概念,香农给出了著名的计算高斯信道容量的香农公式。

作为衡量信道传输能力的概念,互信息在信息论中占有核心性地位。但在1948年论文中,香农并未单独定义此概念。后来,香农逐渐认识到单独定义此概念的必要性,因此给出了定义,并将其称为“互信息”,用于衡量信道输入和输出随机变量之间的共同信息。香农的互信息定义为熵和条件熵的差值。互信息被认为是两个随机变量之间的相关性,或者是由一个变量而得知的另一个变量的信息。因此,互信息除了用来衡量信道容量问题外,还可以应用于通讯系统以外的其他系统,用来衡量系统的复杂度、相关性等,因而在其他学科领域也得到了广泛的应用。

香农利用熵和互信息等基础性概念很好地阐释了信息通讯的信源和信道编码问题,即熵解释了衡量信源编码效率,互信息给出了信道容量的度量方法,自提出以来共同构成了整个理论的两块基石。

3. Copula熵
2008年,Ma和Sun发表论文在信息论的理论上作出了贡献。他们在论文中定义了一种新的熵的概念,称为Copula熵(Copula Entropy),可以用来衡量随机变量之间的全阶次相关性。他们证明了Copula熵和互信息概念之间的等价性,即互信息等于负的Copula熵。证明因此明确了互信息本质上也是一种熵,可以明确的写出数学表达式,因此明确了熵和互信息两个原本不同的概念之间的本质上的统一性。在统一性的基础上,作者还给出了一种简洁的互信息估计方法。

Copula熵概念的定义借助于Copula理论。Copula理论是关于随机变量之间相关性的理论。我们知道通常的相关性是包含在随机变量的联合分布函数的参数之中,如高斯函数的相关矩阵就表示了高斯变量之间的相关性特征。Copula理论给出了一种表示所有随机变量之间相关性的理论框架。根据该理论,任一个联合分布都一个表示为以随机变量的边缘函数为自变量的某种函数的形式,此种函数就称为Copula函数。根据定义,Copula函数是在单位多维立方体上的分布函数。Copula理论中的Sklar定理给出了Copula函数的存在性和唯一性条件,使得任一分布函数都对应一Copula函数。

利用Copula理论框架,随机变量的联合分布被分解为Copula函数和边缘函数两个部分,这两个部分之间不具有直接的联系,联合分布的Copula函数和边缘函数可以分别指定,属性相同的随机变量可以通过不同的Copula函数的耦合得到不同的联合分布函数。这种联合分布、边缘函数无关的特性,为我们分析和设计多变量联合分布提供了理论基础。同时,边缘函数包含了随机变量自身的全部信息,而Copula函数则包含了随机变量之间相关性的所有信息。这种分解为我们分析相关性提供了理论基础。

由Copula理论得到的Copula熵具有很多有趣的性质。首先从定义来看,Copula熵是一种香农熵,因此其具有香农熵具有的连续性、对称性和可加性等特性;同时,由于Copula函数具有边缘函数单调变换不变性,因此Copula熵天然的继承了这一不变性特性。

由Copula密度函数而定义的Copula熵从一个新的角度,给出了对互信息概念更深入的理解。Copula函数被认为是包含了随机变量之间所有相关性的信息,那么Copula熵作为相关性的随机性的度量,就等于给出了随机变量之间所有阶次相关性的信息量。

上面提到,Copula理论将联合分布分解为边缘函数和Copula函数两个相对独立的部分,这也对应到联合熵的分解:随机变量的联合熵也可以相应地分解为边缘熵和Copula熵两个相互无关的部分。而互信息与Copula熵等价,因此互信息(Copula熵)只与Copula函数有关,与边缘函数无关、联合分布函数无关,这与香农基于边缘熵和联合熵的互信息定义构成了显著的区别。

香农的互信息定义针对的是随机变量对,但Copula熵概念不限于变量对的情况,也适用于多变量的情况,多变量之间具有对称性,扩展了互信息的定义和适用范围。

需要指出的是,Copula熵本身是负的,它表明了由于多变量之间具有相关性,使得多变量之间相互包含有其他变量的信息,因此就带来了联合熵的总信息量的减少,表现为联合熵小于各个变量的边缘熵的和。

4. Copula熵对信息论的意义
新概念对香农信息论的意义是基础性的:1)首先,Copula熵深化对互信息、条件熵等基础概念的深层次理解;2)Copula熵也深化信道容量的理解,最大化互信息实质是最大化信道发送和接收端之间的全阶次的非线性相关性;3)Copula熵也在信息论和copula理论之间架起了一座桥梁。

5.相关研究工作
Copula熵是对已有研究工作的推进和总结。
首先,关于相关性度量的研究工作。以往针对相关性度量主要是针对线性相关性,给出的相关性度量包括相关系数,Kendall的tau和Spearman的rho等。相关系数度量的是二阶相关性,隐含的规定了高斯假设,因此对应了低阶的相关性信息。这些二阶相关性度量可以写成Copula函数的某种数学形式,因此只反映了Copula函数中部分相关性信息。Copula熵则是包含了所有的相关信息,因此可以度量全阶次、非线性的相关性。

其次,关于多变量的相关性度量。根据定义,互信息度量的是两个随机变量之间的相关性。因此很自然地,有很多学者研究如何将互信息定义从二变量扩展到多变量的情况,其中较为著名的概念包括Total correlation, common information, conditional MI, 以及watanabe1960等都给出了互信息的多变量扩展形式。Copula熵是定义在一组随机变量之上的,且符合对称性,因此是一种互信息的多变量形式扩展,用于衡量多个随机变量的相关性。这为研究复杂系统中各个因素之间的统计关系提供了数学工具。

再次,互信息的估计。一直以来,如何估计互信息是信息论实际应用中的一个基本问题。一般是Plug-in法,先估计概率密度,再估计联合熵和边缘熵,从而根据定义得到互信息的估计;也有学者利用非参数方法估计互信息。而Ma和Sun基于Copula熵和互信息的等价性证明,给出了一种简单的非参数的互信息估计方法,方法包含两个步骤:先根据序数统计量估计Copula密度,再估计Copula熵,由于熵估计的方法很多,这里也可以利用非参数的方法估计Copula熵。这种方法以Copula熵理论为基础,思路清晰且计算简便,且每一步均采用非参数方法,因此广泛适用,相对其他方法具有很强的竞争力。

6. 新的研究问题
Copula熵的提出,为很多问题的解决带来了新的思路。
1)比如信道容量估计问题。信道容量定义为输入和输出之间最大的互信息。根据互信息和Copula熵的等价性,求解信道容量就等价于最大(Copula)熵问题。2)信息论较多的应用于高斯信道,著名的香农公式就是求解高斯信道的容量,引入Copula熵概念后,我们可以利用Copula理论与信息论的关系,求解非高斯信道的容量计算问题;3)Copula熵也为数据分析带来了新的分析哲学,由于Copula熵与边缘函数无关,因此可以在考虑随机变量为非高斯变量的情况,同时,Copula熵可以用来衡量全阶次的、多变量的非线性相关性,这在分析的问题日益复杂的情况下具有十分重要的意义;3)考虑到相关性与因果关系之间的紧密联系,Copula熵也可以用来分析复杂系统中多变量之间的因果关系。

7. 结论
信息论是介于应用数学、电子工程和计算机科学之间的交叉性学科,与统计物理等有着密切的内在联系。信息论的基本概念在其他学科交叉领域具有广泛的应用,起着基础性的引领作用。Copula熵定义了一种全阶次、多变量的非线性相关性度量概念,融合了香农熵和互信息等基本概念,扩展了信息论的理论和应用边界,必将对相关学科研究和应用产生根本性的影响。

参考文献
1. Ma Jian and Sun Zengqi. Mutual information is copula entropy. arXiv preprint arXiv:0808.0845, 2008.
2. Shannon C E. A mathematical theory of communication. Bell System Technical Journal, 1948, 27(3):3 - 55.




https://blog.sciencenet.cn/blog-3018268-978326.html


下一篇:利用Copula熵发现北京大气污染背后的因果关系
收藏 IP: 114.248.99.*| 热度|

11 袁贤讯 彭雷 魏焱明 李强子 张学文 黄河宁 王凌峰 zjzhaokeqin xiyouxiyou xlianggg aliala

该博文允许注册用户评论 请点击登录 评论 (10 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 23:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部