majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵的多学科实际应用 (三)

已有 1998 次阅读 2021-10-12 19:59 |系统分类:论文交流

本博文继续前两篇博文()介绍Copula熵(Copula Entropy:CE)的多学科应用,包括化学信息学、经济政策学、政治学、通讯工程、测绘工程和金融工程等6个领域。

化学信息学

化学信息学是化学和信息学科的交叉学科,通过表征化学结构为数据,解决诸如分子设计、化学反应模拟和规划等问题。定量构效是该领域的前沿问题,研究分子结构与分子理化性质之间的定量关系,以指导具有指定特性的分子设计,应用广泛。分子理化特性可以理解为分子结构的某种对称变换不变性,而从数据学习得到这种不变性变换是分子设计的关键目标。Wieser等[1]将对称变换学习问题转化为信息瓶颈(Information Bottleneck)问题,提出了一种对称变换信息瓶颈(Symmetry-Transformation Information Bottleneck:STIB)方法。该方法将分子表征表示为由两个部分组成的隐含表示,其中一个部分对应不变性表示,基于互信息(Mutual Information:MI)或CE的变换不变性,设计了问题模型的学习算法。作者将算法应用于包含13.4万有机分子的QM9数据库,使用其中具有固定化学计量(C7O2H10)的6095个分子的子集,并将其对应的带隙能量和极性作为目标不变性属性。实验结果表明,STIB方法给出了能够学习出表征分子属性、带隙能量和极性不变性的对称变换,验证了方法的有效性。

经济政策学

经济政策的评估需要定量分析,定量分析方法可以科学、客观地评估政策效果。Shan和Liu[2]提出了一种可以定量分析政策组合效果的决策树构建方法,CE被用来度量非线性相关关系并构建决策树,方法的思想是利用基于CE定义的信息增益来构建用以区别不同政策对象群体的政策决策树,由树的叶子节点来表示不同政策组合对应的群体划分。他们将该方法应用于发展经济学领域,评估我国的减贫政策效果,研究分析了2018年由政府开展的贫困家庭状况普查的问卷调查数据中四川省的数据。分析发现,就业政策、新收入来源和是否有抵押贷款是影响家庭收入的主要政策因素,并揭示了这些政策组合对应的不同目标贫困群体收入结构的不同特征。该方法在无历史数据的情况下,评估验证了减贫政策的有效性,并发现了更加有效的政策组合方案。

政治学

政治安全事关国家安危。政治学研究关心政权领导力因素与政权危机之间的关系,并根据这些信息配置资源,开展情报收集、稳定或颠覆政权等行动。基于雪城大学莫伊尼汉全球事务研究所的国际政治领导力数据集,Card[3]研究了37个领导力因素与政治安全之间的非线性关系,采用CE(MI)作为非线性分析工具,重点关注了两个领导力变量(政权建立原因和政权结束原因)与其他因素的关系。分析结果佐证了社会学家的已有理论,分析也印证了已知的关系,发现了未知的关系和现象。

通讯工程

通讯安全是移动通讯的主要关切之一,一般通过通讯层的加密技术加以解决。在资源受限的新兴网络(如IoT、WSN等)中,密钥分发是一个挑战。无线信道的互易性为通讯双方提供了共享密钥的机制,双方可通过测量无线信道获取密钥。密钥容量概念为无线信道密钥提取提供了理论上限。然而,现实中密钥容量往往受到诸多实际物理条件(如终端移动、信道噪声等)的限制,需要对其进行定量分析。Wang等[4]研究了均匀散射环境下物理因素对密钥容量的影响,将其转化为随机变量的MI计算问题,并基于仿真物理环境验证其理论推导的正确性,仿真实验采用了基于CE的MI估计算法估计密钥容量。仿真结果表明,理论推导得到了验证,能够指导实际应用。

测绘工程

高光谱遥感是应用广泛的前沿测绘技术,通过遥感光谱成像,能够获取不同地物的诊断性光谱信息。由于高光谱图像波段数多,数据大且存在大量冗余信息,需要利用特征提取技术对有效波段进行选择,以表征成像对象体。因此,高光谱图像波段选择是该领域的重要问题之一,主要思想是选择一个波段子集,使得成像评价准则函数达到最大。其中,基于信息论的准则是波段选择的主要方法之一。Zeng和Durrani[5]提出利用基于CE的MI选择波段的方法,并将其应用于美国印第安纳西北的Indian Pine处采集的真实高光谱数据,结果表明CE提供了一种鲁棒的MI波段选择方法。

金融工程

量化金融是通过对金融数据的数量关系分析指导金融决策的新兴金融学科。基于金融交易系统产生的大量金融市场交易数据,利用数学工具分析金融产品之间的数量关系,可以明晰市场规律和动态,进而管理金融资产。其中,分析市场金融变量之间的相关性是金融工程的重要问题,可以帮助交易员洞察它们之间的动态关系,进而调整投资组合和管理风险。由于金融市场变量具有非线性、非高斯性等特征,使得MI成为了理想的相关性度量,而MI估计算法则成了量化金融工具箱的重要工具之一。基于CE的MI估计算法就被量化金融算法库MLFinLab[6]实现,并得到业界广泛应用。

基于中国股票市场(沪市A股指数、深市A股指数和沪深300指数)真实数据,Wang[7]研究了利用股票资产之间的相关性关系网络,优化投资组合的方法。方法采用了包括CE在内的线性和非线性相关性度量,基于相关性强度构建股票资产间的关系网络,进而构建投资组合。研究中估计了不同Copula参数函数族的CE(MI)。

分析金融数据需要对其建模数学模型,但金融变量以及其联合分布具有非高斯性,给数据建模带来了挑战。Calsaverini和Vicente[8]给出了一种巧妙的Copula函数模型选择方法。该方法利用CE(MI)的边缘分布无关特性,将Copula鉴别问题的目标与边缘函数分开,再利用CE的定义,将问题转化为以MI为上界的模型选择问题。作者还定义了超量信息(Informaion Excess)的概念。作者将建模方法应用于1990至2008年间标普500指数的150只股票的每日对数收益率数据,利用超量信息,验证了该方法作用于T-Copula函数族时的有效性。

更多应用介绍,请见如下综述论文:

马健(2021).Copula熵:理论和应用.[ChinaXiv:202105.00070

参考文献

  1. Mario Wieser, Sonali Parbhoo, Aleksander Wieczorek, and Volker Roth. Inverse learning of symmetries. In Advances in Neural Information Processing Systems, volume 33, pages 18004–18015, 2020.

  2. Qingsong Shan and Qianning Liu. Binary trees for dependence structure. IEEE Access, 8:150989–150998, 2020.

  3. Stuart William Card. Towards an information theoretic framework for evolutionary learning. Master’s thesis, Syracuse University, 2011.

  4. Xu Wang, Liang Jin, Kaizhi Huang, Mingliang Li, and Yi Ming. Physical layer secret key capacity using correlated wireless channel samples. In 2016 IEEE Global Communications Conference (GLOBECOM), pages 1–6, 2016.

  5. Xuexing Zeng and T S Durrani. Band selection for hyperspectral images using copulas-based mutual information. In 2009 IEEE/SP 15th Workshop on Statistical Signal Processing, pages 341–344, 2009.

  6. Hudson and Thames. Machine learning financial laboratory (MLFinLab), 2021. URL: https://github.com/hudson-and-thames/mlfinlab.

  7. Qiutong Wang. Social networks, asset allocation and portfolio diversification. Master’s thesis, University of Waterloo, 2015.

  8. Rafael Calsaverini and Renato Vicente. An information-theoretic approach to statistical dependence: Copula information. EPL (Europhysics Letters), 88(6):68003, 2009.




https://blog.sciencenet.cn/blog-3018268-1307713.html

上一篇:Copula熵的多学科实际应用 (二)
下一篇:Copula熵的多学科实际应用 (四)
收藏 IP: 36.110.78.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 20:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部