|
Copula熵(Copula Entropy:CE)作为一个具有普适性的数学概念,在越来越多的学科领域得到了实际应用。本博文继续介绍最新的CE的多学科应用,包括水文学、认知神经学、生物信息学、土木工程和航天工程等领域。
流域分区是水文学研究的重要方法,根据水文相似性特征划分流域内相似性区域,可解决无水文观测地区的水文计算等难点问题。径流响应是重要的流域水文特征,根据流域水文站点观测之间的相似性做流域分类是一种基本的研究路径。传统的流域分类方法基于相关性评价,往往难以反映水文系统内在的复杂关系。刘磊等 [1] 提出采用基于 CE 的 R 统计量来衡量径流相似性,以对流域进行分区。他们将方法应用于鄱阳湖水系,利用该流域的水文站观测对流域进行了分区,并将方法与传统的 K 均值聚类方法进行了对比。结果表明,该方法能够有效捕捉流域内湖库对径流的调节作用,从而得到较传统方法更合理的流域分区。
Ince等[2]根据互信息(Mutual Information:MI)和CE之间的等价关系,提出了一种MI估计方法,称为高斯Copula互信息(Gaussian Copula Mutual Information:GCMI)。在 GCMI 算法的基础上,Combrisson 等 [3] 提出了基于信息论的群体层面分析大脑认知网络的方法,将非参数的排列操作与信息度量相结合,用于分析固定效果或随机效果模型,以适应多人间和多次任务间的变化。他们将方法应用于两个已有研究的数据。第一个研究分析人执行认知行为映射任务时的 MEG数据中的高 Gamma 行为(High Gamma Activity),发现了任务相关的大脑网络,涉及多个运动区、体感区和视觉皮层区域等。第二个研究分析奖惩学习任务的前脑岛(anterior Insula)SEEG 数据,发现了奖惩任务的响应时延,以及奖和惩响应的显著差别。
很多疾病的发生与基因结构变异有关。拷贝数变异(Copy Number Variations: CNVs)指长度大于 1kb 的 DNA 片段的变异,在人类基因组中大量存在。作为重要的基因变异, CNVs 包含了大量 DNA 序列、疾病点和功能单元,能为疾病研究提供线索。研究表明,多种癌症的形成和发展与不同的 CNVs 有关。因此,发现不同基因的 CNVs 与不同癌症之间的关系有助于研究癌症病因和诊断方法。从大量的 CNVs 的基因特征中选择出与癌症相关的特征是生物信息学的一个重要问题。 Wu 和 Li[4] 提出了一种基因选择方法,称为相关冗余和交互分析(Correlation Redundancy and Interaction Analysis: CRIA)方法,根据 CNVs 选择与癌症有关的基因,以用于癌症分类。 CRIA 方法利用了 CE 的多变量相关性特性,设计了基因特征交互强度度量,用于筛选与癌症类型相关性强的基因。他们将该方法应用于 cBioPortal 的癌症基因组数据,利用了其中的 6 种癌症数据,选择出了 200 个与癌症有关的基因。为了验证算法的有效性,他们基于亚利桑那州立大学的数据将方法与其他 8 种基因选择算法进行了对比,结果显示 CRIA 方法选择的基因能够更准确地预测癌症类型。
建筑能源消耗占全部能源消耗的四成左右,建筑节能技术是重要的绿色能源技术,对实现联合国的碳中和目标意义重大。供暖、通风和空调(HVAC)系统贡献了商业楼宇四成以上的能耗,是建筑节能的主要研究对象之一。HVAC系统的运行具有时延的特性,来自于媒介传导的滞后和热惯性。理解并运用这种特性,有利于设计适当的控制策略,从而达到节能的目的。Li等[5]将基于CE的传递熵(Transfer Entropy:TE)理念方法引入到HVAC领域,开发了一种基于信息论框架的无模型时延鉴别方法,改进HVAC系统的时序预测。他们改进了kNN的多变量TE估计器,结合优化方法设计了时延鉴别算法。他们将算法应用于大连某四层教学楼的供热监控系统,分析室内温度与天气参数(如室外温度、相对湿度、太阳辐射、风速等)和供热参数(如热水供应和回流温度等)的数据,鉴别时延特性,进而利用后两组参数预测下一段时间的室温。结果表明,TE方法能够鉴别参数之间的时延关系特性,进而提高室温预测性能。
卫星是航天时代的主要航天器类型,在信息时代有着广泛的民事和军事用途。作为一种在极端环境运行的复杂系统,卫星的在轨健康状态监测十分重要。卫星遥测数据是各种传感器参数的编码,包含了卫星内部运行系统物理参数的交互关系信息。卫星的异常模式会由于这种交互而在内部传播,因此分析这种内部交互导致的故障传播链条有助于及时发现卫星异常状态,保障卫星正常运行。分析遥测参数之间的因果关系是一种解决问题的路径。 Liu 等 [6] 提出直接将基于 CE 的 TE 应用于分析真实的卫星遥测数据,得到了遥测参数之间的故障传导图,结果要优于传统的 TE 方法。Zeng 等 [7] 提出了一种改进的 TE度量,称为 NMCTE,用于分析遥测参数之间的因果关系网络,该度量利用了基于 CE 的 TE 表示和估计方法。他们又提出了基于所得因果网络的异常检测的 CN-FA-LSTM 方法。他们将 NMCTE 方法应用于真实的卫星遥测数据,得到了具有良好的可解释性的因果网络。他们又将 CN-FA-LSTM 方法在 NASA公开的 SMAP 和 MSL 数据集上与其它 6 种方法进行了对比,验证了方法的优越性。
更多CE的相关内容,请见如下综述论文:
马健. Copula熵:理论和应用. ChinaXiv:202105.00070 (2021).
刘磊, 高超, 王志刚, 王晓艳, 章四龙, and 陈娜. 基于非线性相关性和复杂网络的径流相似性分区. 水科学进展, 2022.
Robin A.A. Ince, Bruno L. Giordano, Christoph Kayser, Guillaume A. Rousselet, Joachim Gross, and Philippe G. Schyns. A statistical framework for neuroimaging data analysis based on mutual information estimated via a gaussian copula. Human Brain Mapping, 38(3):1541–1573, 2017.
Etienne Combrisson, Michele Allegra, Ruggero Basanisi, Robin A. A. Ince, Bruno Giordano, Julien Bastin, and Andrea Brovelli. Group-level inference of information-based measures for the analyses of cognitive brain networks from neurophysiological data. bioRxiv, 2022.
Qiang Wu and Dongxi Li. CRIA: An interactive gene selection algorithm for cancers prediction based on copy number variations. Frontiers in Plant Science, 13, 2022.
Zhiwei Li, Peng Wang, Jili Zhang, and Hua Guan. A model-free method for identifying time-delay characteristics of HVAC system based on multivariate transfer entropy. Building and Environment, 217:109072, 2022.
Hao Liu, Dechang Pi, Shuyuan Qiu, Xixuan Wang, and Chang Guo. Data driven identification model for associated fault propagation path. Measurement, 188:110628, 2022.
Zefan Zeng, Guang Jin, Chi Xu, Siya Chen, Zhelong Zeng, and Lu Zhang. Satellite telemetry data anomaly detection using causal network and feature-attention-based lstm. IEEE Transactions on Instrumentation and Measurement, 71:1–21, 2022.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 14:11
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社