|
本文继续介绍Copula熵(Copula Entropy:CE)的多学科应用,包括挪威奥斯陆大学的北欧山地陆气耦合建模、日本东京工业大学的免疫系统通信机制监测、英国剑桥大学和帝国理工学院的语言模型词嵌入质量评估和瑞典林奈大学的加密货币市场预测等。
地球物理学
陆气耦合(Land-Atmosphere Coupling)是指地表和大气边界层之间的湍流交换过程,导致了多时空尺度的能量和物质循环,也对极端天气的发生产生影响。引入陆气耦合可以提高数值天气预报和气候模型的预测能力。理解冬季稳定边界层的陆气耦合变弱现象,并在预报模型表示边界层子网格尺度过程是一个值得关注的问题。低温天气下湍流变弱导致的解耦现象,使得预报模型中湍流参数化的传统相似度理论失效,进而使得近地温度建模不准确。2米温度是近地大气的最常用预报变量,建立2米温度预测模型被认为是地表通量参数化开发的关键步骤。基于挪威芬瑟积雪覆盖山地地区的气象观测记录,Mack等[1]提出了一种基于Copula贝叶斯网络的2米温度插值模型,用于替代数值天气预报系统中的传统模型。他们首先利用CE分析了芬瑟两个观测站的气象观测变量之间CE和解耦度量之间的关系,并对比了实际观测和传统2米温度模型分别对应的2米温度和10米温度之间的CE值与解耦度量之间的关系。分析发现,随着垂直解耦程度增加,两个站点之间的CE增加,称为“信息解耦”;同时,相较于观测,传统模型2米温度和10米温度之间的CE随着解耦度量的减小而增加的幅度更大,表明传统模型未能充分利用有效观测信息。他们利用藤Copula和Copula贝叶斯网络相结合的方法建立了地表和大气温度耦合的模型用以预测近地温度,获得了比传统模型更优良的性能,验证了CE分析的合理性。作者认为,利用CE理论进行耦合不确定量化是一个新的概念,同时利用CE计算模型和观测之间的信息损失也可以作为一个模型预测性能评估的新指标。
免疫学
作为一种通用的第二信使,细胞间钙离子被用于免疫系统激活监测的研究。免疫系统靠淋巴细胞等免疫细胞之间的交互来发挥作用,但我们对淋巴细胞间通信机制仍然缺乏了解,如何量化淋巴细胞之间的通信机制是了解免疫系统运行的本质性问题。淋巴系统间的协调行为发生在微米尺度,需要明确的实证研究来阐明这种通信机制的原理。安部武志等[2]提出利用TE度量来分析小鼠B细胞活体钙离子成像,通过对自动跟踪成像数据进行预处理,利用基于CE的传递熵(Transfer Entropy:TE)估计方法计算成对细胞间的TE。他们定义信息传输率为TE和移动细胞间欧式距离的比值,分析结果表明信息传输率和细胞间距离为负相关关系,从而为淋巴细胞间交互可能的旁分泌通信机制提供了支持证据。这种基于CE的TE计算框架也为不同时空尺度上免疫细胞交互研究提供了可靠的度量指标。
计算语言学
词嵌入(Word Embedding)是自然语言处理(NLP)的底层技术,通过将词汇映射到语义向量空间,使相近语义的映射向量在向量空间中也距离相近。高质量的词嵌入是自然语言模型训练的目标,关系着下游NLP任务完成的质量。因此,如何衡量词嵌入质量就是一个重要的NLP问题。作为一个模型无关的度量,互信息(Mutual Information:MI)被用于评估词嵌入质量,计算有多少原始语义输入信息被保留在嵌入空间中,而如何估计MI成为了解决问题的关键。Chen等[3]通过扩展CE理论提出了一种基于Vector Copula的MI估计方法,先估计Vector Copula,再基于CE与MI的等价性计算MI。他们将方法应用于语言模型词嵌入质量的评估问题,将包含正面或负面评价的IMDB影评数据集组成成对的文本评测数据,然后计算了Llama-3和BERT两个模型在此数据集上的词嵌入,再利用Autoencoder模型将原始词嵌入向量无损映射到16维向量空间,最后利用该方法计算此16维成对向量集合之间的MI。他们将所提出的MI估计方法与同类方法进行了对比,实验结果表明,该方法在两个语言模型的词嵌入上的MI估计明显好于对比方法,证明了该方法的有效性和优越性。
金融工程
近年来,机器学习方法在金融市场预测领域的研究兴趣正在增加,主要得益于其非线性分析能力和较高的资产预测准确性,但是在加密货币市场预测的实际部署却很少,因为传统的机器学习方法不能够在动态市场环境和极端市场条件下选择出与目标金融资产有关联的预测变量,根本原因在于方法背后不合理的有效市场假设。CE方法能够在无分布假设的条件下分析非线性、非高斯性和非对称性的相关性,为解决问题提供了工具。基于自适应市场假设,Mahmutovic[4]提出了一种在真实市场动态性条件下进行有效且可解释预测的方法,方法采用基于CE的方法选择时变且尾部相关的指标变量,同时采用Copula散度混合误差函数来指导预测模型学习。他基于四种加密货币(比特币、以太币、瑞波币和狗币)真实多年历史数据验证了方法,结果发现,基于CE的方法在提高了预测准确度的同时还增加了模型的可解释性,而Copula散度误差函数也减小了累积误差。方法的成功说明了自适应市场假设在加密货币市场上的合理性。
更多Copula熵的理论和应用,请见我们在ChinaXiv的综述论文。
参考文献
[1] Laura Mack, Marvin Kähnert, and Norbert Pirk. Probabilistic modelling of atmosphere-surface coupling with a copula bayesian network. arXiv preprint arXiv:2509.11975, 2025.
[2] 安部武志, 浅井義之, and 安達貴弘. 免疫細胞カルシウム濃度動態に基づく未病検出のための高次グラフシグナル解析. 生体医工学, Annual63(Proc):430–432, 2025.
[3] Yanzhi Chen, Zijing Ou, Adrian Weller, and Michael U. Gutmann. Neural mutual information estimation with vector copulas. In Advances in Neural Information Processing Systems, 2025.
[4] Amanda Mahmutovic. Forecasting cryptocurrency returns in adaptive markets with an extended copula based feature selection and extended copula divergence hybrid loss function. Master's thesis, Linnaeus University, 2025.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 14:53
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社