|
作为一种基础性的数据分析工具,Copula熵(Copula Entropy:CE)被提出以来,在多个不同学科得到了实际的应用,包括水文学、环境气象学、认知神经学、系统生物学、老年医学和能源工程等。在这些应用中,CE被用来分析和度量多学科数据中的统计关联性或因果性,用于增加对数据中变量间统计关系的理解,或者用于建立和评价模型。CE工具不仅带来了建立理论模型时的便利性,同时也改进了计算的可靠性和效率。
洪水灾害是主要自然灾害之一,洪水预报是降低洪水损失和管理洪水资源的重要手段。基于降水数据的降水量-径流量模型可以用来预报一段时间后的洪水。但是,水系统具有复杂性和非线性的特点,导致建立这样的模型时选择正确的模型输入十分困难。陈璐等[1,2]提出利用CE的方法来选择输入并建立神经网络预报模型。相比于传统的方法,基于CE的方法可以建立高维模型且对单个变量的边缘分布不做假设,同时由CE来估计降水量和径流量的数量关系的误差更小。陈璐等将方法应用于建立金沙江流域的洪水预报模型,结果显示利用CE选择输入的神经网络模型取得了最好的预测效果。
水文事件(如洪水、干旱、高温和风暴等)的风险分析和管理需要建立多随机变量的概率模型,研究中大量地使用Copula工具,特别是藤Copula(Vine Copula),解决此类问题。藤Copula是一种由二变量Copula函数构造高维Copula函数的方法,构造时需要确定各个子Copula函数间的层累结构关系。Ni等[3]利用MI和CE之间的等价关系,提出了基于MI的藤Copula结构选择方法,并应用于干旱识别中特征变量建模问题和多水文站流量相关结构建模问题中。
水文气象观测网络是获取水文信息的基础设施。如何设计并优化网络站点是一个综合性的科学和工程问题。一个基本的设计原则是观测站点之间尽量统计独立,这样才能最大程度的获取水文系统的信息。MI是衡量统计独立性的主要工具,但是其计算是一个难题。Xu等[4]提出了一个基于CE的多目标优化的水文观测网络设计方法,包括两步:1)基于CE的信息传输将观测站点分组;2)对每个分组选择最优的站点组合。基于CE的计算方法不仅能够处理水文变量的非高斯性,同时在计算性能上也更可靠、更有效率。作者将方法应用于上海降水观测网络的设计。结果显示,CE的方法计算精度更高,且可以应用于高维的多变量估计情况。同样基于最少重叠信息的原则,Li等[5]提出了一个由两个子目标构成的网络优化目标,其中一个子目标基于CE而设计,用于衡量冗余信息量。作者将此方法分别应用于汾河径流观测网、北京市区以及太湖盆地的降水观测网的设计和优化,结果表明了方法可靠且有效。
多站点径流生成是随机水文学的主要问题之一,生成的流量信息对任何水资源管理都是必不可少的。在径流数据记录有限的情况下,生成多站点径流数据十分必要,需要设计相应的数据生成模型。Porto等[6]提出了结合广义线性模型(GLM)和Copula函数的多站点年度径流生成模型,前者表示时序结构,后者为多站点的空间相关性建模。在评价模型性能时,作者采用了包括CE在内的多个统计描述性指标,其中CE用来衡量非线性的全关联。作者将该模型用于生成巴西的雅瓜里比-大都市水库系统的多站径流时序数据,结果显示模型表现出了优于当前最好水平的性能,特别是在衡量多站相关性的CE指标上,较其他模型更接近于历史观测数据。
环境污染是现代社会的主要问题之一。从气象学的角度分析大气污染的成因,明晰其内在机理,有助于更好的理解污染问题,进而预测、干预和管理污染。理解大气系统中的因果关系是问题的关键。基于对气象因素和环境污染物的观测,可以利用统计学中的TE方法分析气象因素对环境污染的因果关系。马健[7]利用其提出的基于CE的TE估计方法,分析了北京地区的气象和PM2.5连续观测数据,得到了四个气象因素对PM2.5浓度的24小时时滞内的因果强度变化图。变化图显示,四种气象因素对PM2.5浓度的因果强度大致经历快速升高和缓慢增加两个阶段。作者还特别讨论和验证了该方法的平稳性假设和马尔科夫性假设在此中尺度数值分析问题上的适用性。论文所得到的因果变化图反映了大气系统运动的内在动态特征,增加了人们对PM2.5污染的气象成因的理解。同时,得到的时序因果关系也为整合气象因素,构建更优性能的污染预报模型提供了参考依据。
认知神经学通过分析大脑活动的各种模态的观测数据,理解大脑作为信息处理器官,对外界刺激的表示、处理和通讯的机理。作为一个非线性的统计度量,MI被认为是分析大脑信号间关联的理想统计工具。但由于MI的估计十分困难,使其难以得到广泛的应用。Ince等[8]根据MI和CE之间的等价关系,提出了一种MI估计方法,称为高斯Copula互信息(Gaussian Copula Mutual Information:GCMI)。GCMI方法利用了CE与边缘函数无关的性质,首先将每个变量的边缘函数转化为高斯函数,从而得到联合高斯分布,再根据所得高斯分布相关矩阵与MI的关系来计算MI。该方法简单方便,且与分布无关。但由于从高斯分布数据计算MI是有偏差的,因此此方法还需要进行校正纠偏操作。Ince等将GCMI与其他MI估计方法进行了对比,并将其应用于分析人脸检测任务的EEG数据[9]和听觉语音刺激任务的MEG数据[10]。在人脸检测任务的实验中,GCMI被用来计算图像内容与认知响应之间的关联强度,并成功选出认识响应敏感区域(图像中的眼睛部分)。在听觉刺激实验中,Ince等研究了语音中的节奏特征对大脑听觉的节律同步的影响。通过对语音刺激的EEG响应数据的分析,作者发现了改变音节和词汇之间的停顿会导致听觉delta带同步的降低。在此实验中,GCMI是数据分析的主要工具。
系统生物学的一个主要任务是通过生化运动学模型,研究调控、信号传导和代谢过程之间的交互。建立这样的模型需要选择合适的模型输入变量,MI是变量选择的工具之一。但常用的kNN的MI估计常常是有偏差的,需要进行修正。Charzyńska和Gambin[11]提出了偏差校正方法,并发现当利用MI和CE之间的关系估计MI时,校正效果显著。作者将方法应用于受到广泛研究的p53蛋白和Mdm2连接酶之间的负反馈环路问题模型上,结果显示此方法能够比传统的本地敏感性分析方法得出更准确地反映系统行为的模型输入输出关系的分析结果。
系统生物学对分子生物学数据分析的主要目的之一是建立复杂生物现象的网络和动态机制,以分析生命组织的功能和行为。MI在构建基因通路网络的过程中发挥基础性作用。Farhangmehr等[12]首次提出在网络构建中利用CE来估计MI。他们将方法应用于酵母细胞周期数据,将分析得到的动态网络与京都基因组学百科数据库进行了对照。实验结果显示,利用CE来估计MI提高了计算效率。
世界人口老龄化使得解决养老问题成为社会的迫切需求。智慧养老的目的是将人工智能技术用于解决老年人面对的多方面养老需求问题,特别是老年医学问题。由于衰老过程普遍出现人的认知能力和行动能力的严重衰退,因而在老年人的疾病谱系中痴呆症和跌倒是老年人面对的两个主要疾病负担。
早期筛查和诊断可以帮助痴呆症患者和家庭及早干预并管理病情发展,可以有效提高病人生活质量,降低家庭和社会成本和负担。MMSE(Minimal Mental State Examination)是临床广泛采用的认知能力筛查工具之一。马健[13]通过利用CE分析了手指敲击运动(finger tapping)的特征和MMSE之间的关联强度,发现一组与MMSE相关关联的特征,包括敲击频率(或敲击次数或敲击平均时间间隔)等。在此关联关系的基础上,他们构建了从特征到MMSE的预测模型,取得了良好的预测效果。此预测模型有望用于痴呆症等疾病的认知能力筛查工作。
跌倒是老年人面对的重大风险,需要科学管理和及早干预。跌倒风险预测是管理跌倒风险的重要手段之一。TUG(Timed Up and Go)测试是一种主要的跌倒风险评估工具。马健[14]提出了一种结合视频分析和机器学习技术的跌倒风险预测方法。该方法首先从老年人进行TUG测试的视频中分析出人体3D姿态信息,再由一段时间的姿态信息序列计算出一组步态特征,通过利用CE分析步态特征和跌倒风险指数之间的关联关系,选择出一组与风险关联的步态特征(包括步幅、步态速度和步态速度的方差等),最后用此特征作为输入构建跌倒风险的预测模型。该方法在真实数据上的实验显示了良好的预测效果。此分析结果也表明了步态特征反映的行动能力与跌倒风险之间的内在联系,使得模型具有临床意义的可解释性。
在以上两个研究的基础上,马健[15]还利用CE对手指敲击运动特征数据和步态特征数据进行了联合分析,发现了某些手指运动特征与跌倒风险之间具有一定的关联性。这一发现为首次发现,揭示了衰老过程中认知能力和行动能力之间的关联,提供了科学实验证据,加深了对衰老的生理特征的认识和理解。
天气是能源系统的重要影响因素,直接影响能源的生产和消费两端。特别是当可再生能源整合到能源系统中后,风速和光照等天气因素决定了风能和光伏能源的生产能力,而温度变化则会影响居民的能源消耗需求。但自然系统具有较大的随机性,给新能源系统的稳定高效运行带来了挑战。因此,新型能源网络管理系统需要建立合理的模型,以便将新能源集成到网络中。信息论为管理天气系统的随机性提供了工具。清华大学电机系的Fu等[16]研究了基于信息论在集成能源系统中建立天气模型的方法。作者采用了Copula函数建立天气变量的联合分布模型,并采用CE计算的MI作为模型准确性的评价指标,以指导建模过程。同时,MI还被用来衡量各种能源产出之间的关联强度。作者将得到的集成能源系统模型用于模拟中国北方某地区的能源系统运行情况,并与实际数据进行了对比。结果显示,系统模型的模拟与实际情况基本符合,说明构建的天气模型能够满足能源管理系统运行需求。
注:本博文为此综述论文的节选。
马健.(2021).Copula熵:理论和应用.[ChinaXiv:202105.00070]
[1] Lu Chen, Vijay P. Singh, and Shenglian Guo. Measure of correlation between river flows using the copula-entropy method. Journal of Hydrologic Engineering, 18(12):1591–1606, 2013.
[2] Lu Chen, Vijay P. Singh, Shenglian Guo, Jianzhong Zhou, and Lei Ye. Copula entropy coupled with artificial neural network for rainfall–runoff simulation. Stochastic Environmental Research and Risk Assessment, 28(7):1755–1767, 2014.
[3] Lingling Ni, Dong Wang, Jianfeng Wu, Yuankun Wang, Yuwei Tao, Jianyun Zhang, Jiufu Liu, and Fei Xie. Vine copula selection using mutual information for hydrological dependence modeling. Environmental Research, 186:109604, 2020.
[4] Pengcheng Xu, Dong Wang, Vijay P. Singh, Yuankun Wang, Jichun Wu, Lachun Wang, Xinqing Zou, Yuanfang Chen, Xi Chen, Jiufu Liu, Ying Zou, and Ruimin He. A two-phase copula entropy-based multiobjective optimization approach to hydrometeorological gauge network design. Journal of Hydrology, 555:228–241, 2017.
[5] Heshu Li, Dong Wang, Vijay P. Singh, Yuankun Wang, Jianfeng Wu, Jichun Wu, Ruimin He, Ying Zou, Jiufu Liu, and Jianyun Zhang. Developing a dual entropy-transinformation criterion for hydrometric network optimization based on information theory and copulas. Environmental Research, 180:108813, 2020.
[6] Victor Costa Porto, Francisco de Assis de Souza Filho, Taís Maria Nunes Carvalho, Ticiana Marinho de Carvalho Studart, and Maria Manuela Portela. A GLM copula approach for multisite annual streamflow generation. Journal of Hydrology, 598:126226, 2021.
[7] Jian Ma. Estimating transfer entropy via copula entropy. arXiv preprint arXiv:1910.04375, 2019.
[8] Robin A.A. Ince, Bruno L. Giordano, Christoph Kayser, Guillaume A. Rousselet, Joachim Gross, and Philippe G. Schyns. A statistical framework for neuroimaging data analysis based on mutual information estimated via a gaussian copula. Human Brain Mapping, 38(3):1541–1573, 2017.
[9] Robin A. A. Ince, Katarzyna Jaworska, Joachim Gross, Stefano Panzeri, Nicola J. van Rijsbergen, Guillaume A. Rousselet, and Philippe G. Schyns. The deceptively simple N170 reflects network information processing mechanisms involving visual feature coding and transfer across hemispheres. Cerebral Cortex, 26(11):4123–4135, 2016.
[10] Stephanie J. Kayser, Robin A.A. Ince, Joachim Gross, and Christoph Kayser. Irregular speech rate dissociates auditory cortical entrainment, evoked responses, and frontal alpha. The Journal of Neuroscience, 35(44):14691–14701, 2015.
[11] Agata Charzyńska and Anna Gambin. Improvement of the k-NN entropy estimator with applications in systems biology. Entropy, 18(1):13, 2015.
[12] Farzaneh Farhangmehr, Daniel M. Tartakovsky, Parastou Sadatmousavi, Mano R. Maurya, and Shankar Subramaniam. An information-theoretic algorithm to data-driven genetic pathway interaction network reconstruction of dynamic systems. In 2013 IEEE International Conference on Bioinformatics and Biomedicine, pages 214–217, 2013.
[13] Jian Ma. Predicting MMSE score from finger-tapping measurement. bioRxiv, page 817338, 2019.
[14] Jian Ma. Predicting TUG score from gait characteristics based on video analysis and machine learning. bioRxiv, page 963686, 2020.
[15] Jian Ma. Associations between finger tapping, gait and fall risk with application to fall risk assessment. arXiv preprint arXiv:2006.16648, 2020.
[16] Xueqian Fu, Hongbin Sun, Qinglai Guo, Zhaoguang Pan, Wen Xiong, and Li Wang. Uncertainty analysis of an integrated energy system based on information theory. Energy, 122(122):649–662, 2017.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-28 23:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社