majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵的多学科实际应用 (四)

已有 1962 次阅读 2021-11-18 07:04 |系统分类:论文交流

本文继续介绍Copula熵(Copula Entropy:CE)的多学科实际应用,包括其在计算神经学、生物信息学、临床诊断学和航空工程等领域的应用。

前文()已经介绍了CE在水文学、环境气象学、生态学、化学信息学、认知神经学、系统生物学、老年医学、公共卫生学、经济政策学、政治学,以及能源工程、制造工程、可靠性工程、通信工程、测绘工程和金融工程等领域的实际应用,至此其应用领域达到了20个。

计算神经学

计算神经学是利用计算理论和方法来研究和理解神经系统的功能和机理的学科,研究如何描述生物神经元对信号刺激的个体和群体响应等问题。神经可塑性(neural plasticity)是指神经元网络对外界刺激的适应性结构变化,构建可塑性理论模型是计算神经学关注的主要问题之一。 Leugering 和 Pipa[1] 基于Copula 理论提出了一个神经元群体可塑性的理论框架,构建了一种自适应网络模型,可以在未知模型输入变化的情况下保持模型输出的不变性, CE 在该框架中用于度量神经元群的统计特性,衡量输入输出之间的信息量。神经元之间的信息传输分析是计算神经学的另一个重要问题。分析计算神经元之间的信息传输关系需要涉及多个神经元之间的互信息(Mutual Information: MI)的分解。部分信息分解(Partial Information Decomposition)就是将 MI 分解为协同(Synergy)、冗余(Redundancy)和独特信息(Unique Information)三个部分的理论。基于 CE 理论和方法, Pakman等 [2] 提出了一种估计独特信息的方法,并应用于分析多个神经元模型的信息处理。

生物信息学

生物信息学(Bioinformatics)是通过算法分析基因数据(包括基因表达谱数据)来研究生命和疾病机理的新兴学科。基因表达谱是利用 DNA 微阵列技术在基因分子层面观察某一生命组织动态得到的数据,从而能够在基因组水平上反映生命系统的各种现象和机理。 Wieczorek 和 Roth[3] 提出了一种研究时间序列数据之间相互作用的分析方法,称为因果压缩(Causal Compression)。与传统的分析全时间序列之间的因果关系不同,该方法研究了基于定向信息(Directed Information)分解的时间序列间相互因果作用的稀疏表达,并据此给出了时序因果分割和因果二分图发现两类问题的解法。基于 CE 与 MI 之间的等价性,作者证明了该方法只与数据分布的 Copula 密度函数有关,并据此设计了求解方法。作者将该方法应用于 NCBI 数据库中的人类 C 型肝炎病毒感染数据(NCBI/GEO查询号: GSE7123),研究了接受了聚乙二醇干扰素和利巴韦林治疗的重组丙型肝炎病毒核心蛋白基因型 1 感染的基因表达谱时序数据,关注了在干扰素信号传导中具有重要交互角色的两个基因:转录子 STAT1 和干扰素诱导抗病毒基因IFIT3,分别生成了二者在有效救治和无效救治病人内相互作用的不同。研究发现,根据分析结果,干扰素疗法消除了大多数有效救治病人体内两种基因之间的关联,而无效救治病人体内的关联则不受影响。同时,分析表明两种病人救治前后二者之间均存在因果交互作用,但对于有效救治病人,早期的 IFIT3 对后期的 STAT1 的影响更显著,这与已有研究结论相符合。

临床诊断学

心脏病是最常见的临床疾病之一。医生已经积累了丰富的心脏病临床诊断经验,可以通过各种生理测量结果作出诊断决策。在此经验基础上开发智能临床诊断模型是业界长期追求的目标,开发此类模型的关键在于选择一组生理测量变量来构建预测诊断模型。基于著名的 UCI 心脏病数据集,马健 [4] 提出采用 CE 作为变量选择方法,用以选择一组生理变量构建诊断模型。该数据集包含了来自世界四地真实的临床心脏病生理测量和诊断数据,其中 13 个生理测量变量被医学专家认定为是临床相关的。实验结果表明, CE 方法选择出了13个临床医生认定变量中的 11 个变量,是对比方法中最多的,从而得到了最好的预测准确率。同时, CE 方法还发现了认定变量以外其他与诊断相关的变量,为临床进一步检验提供了新的参考。

糖尿病是另一种常见临床疾病。对糖尿病人的病情管理与临床诊治结果(发病率和致死率)密切相关,因此建立严格的糖尿病患者住院管理流程对其安全十分重要,这就需要对病情管理标准进行分析研究。为了评估住院患者的救治效果,美国业界建立了健康事实(Health Facts)数据集 ,包含了 130 所美国医院和救治网络的糖尿病患者的数据。基于该数据集 1999 至 2008 年的 10 年间 101,721 名住院患者的数据, Mesiar 和 Sheikhi[5] 利用 CE 变量选择方法建立预测模型,用于从其他 49 个变量预测“是否已用药”变量,取得了良好的预测效果,在仅选择使用 20 个变量的情况下就获得了 97.2% 的准确率,增进了对用药相关变量的认识,构建了合理用药评价模型。

航空工程

航空飞行器系统日趋复杂,飞行器设计首先需要加深对其总体设计参数的认识。对各种设计参数间的耦合关系的理论分析,有助于分析设计方案可行性或优化总体设计方案。 Krishnankutty 等 [6] 基于 CE 与 MI 的等价关系,提出了两种基于 Copula 的 MI 估计方法,并将方法应用于美国 22 种喷气战斗机的技术参数数据的分析,估计了飞行航程和可承受负载之间的耦合关系,验证了分析方法的有效性。

更多CE理论及其多学科实际应用的介绍,请见如下综述论文:

马健 (2021).Copula熵:理论和应用.[ChinaXiv:202105.00070

参考文献

  1. Johannes Leugering and Gordon Pipa. A unifying framework of synaptic and intrinsic plasticity in neural populations. Neural Computation, 30(4):945–986, 2018.

  2. Ari Pakman, Amin Nejatbakhsh, Dar Gilboa, Abdullah Makkeh, Luca Mazzucato, Michael Wibral, and Elad Schneidman. Estimating the unique information of continuous variables in recurrent networks. Advances in Neural Information Processing Systems, 2021.

  3. Aleksander Wieczorek and Volker Roth. Causal compression. arXiv preprint arXiv:1611.00261, 2016.

  4. Jian Ma. Variable selection with copula entropy. Chinese Journal of Applied Probability and Statistics, 37(4):405–420, 2021. See also arXiv preprint arXiv:1910.12389 (2019).

  5. Radko Mesiar and Ayyub Sheikhi. Nonlinear random forest classification, a copula-based approach. Applied Sciences, 11(15), 2021.

  6. Baby Alpettiyil Krishnankutty, Rajesh Ganapathy, and Paduthol Godan Sankaran. Non-parametric estimation of copula based mutual information. Communications in Statistics - Theory and Methods, 49(6):1513–1527, 2020.



https://blog.sciencenet.cn/blog-3018268-1312862.html

上一篇:Copula熵的多学科实际应用 (三)
下一篇:南水北调工程中Copula熵的应用
收藏 IP: 221.218.140.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 04:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部