majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵的社会科学应用

已有 661 次阅读 2022-8-9 11:55 |系统分类:论文交流

Copula熵(Copula Entropy:CE)是本人在清华读博期间提出的统计学概念,可以用来衡量统计相关性和因果性,具有传统统计学方法不具有的显著优势,应用广泛。

虽然是一个数学概念,它却在社会科学领域产生了广泛影响,已经被应用于经济学、社会学、教育学、心理学、法学、政治学和金融学等学科领域,研究的问题包括扶贫政策评估、议价机制、产业链分析、性别平等、高中学科教育、心脑关系、社区犯罪、政治安全和金融工程等重要话题,现将相关内容简介如下。

经济学

经济政策的评估需要定量分析,定量分析方法可以科学、客观地评估政策效果。罗良清等[1,2]提出了一种可以定量分析政策组合效果的决策树构建方法,CE被用来度量非线性相关关系并构建决策树,方法的思想是利用基于CE定义的信息增益来构建用以区别不同政策对象群体的政策决策树,由树的叶子节点来表示不同政策组合对应的群体划分。他们将该方法应用于发展经济学领域,评估我国的减贫政策效果,研究分析了2018年由政府开展的贫困家庭状况普查的问卷调查数据中四川省的数据。分析发现,就业政策、新收入来源和是否有抵押贷款是影响家庭收入的主要政策因素,并揭示了这些政策组合对应的不同目标贫困群体收入结构的不同特征。该方法在无历史数据的情况下,评估验证了减贫政策的有效性,并发现了更加有效的政策组合方案。

经济学的核心目的是发现因果关系。传统的经济学依靠推理建模以及基于此的实验设计。因果发现是从数据中发现因果关系的方法,将其与经济学理论模型相结合是设计经济学实验的新路径。Bossemeyer[3]基于CE和MI的关系提出了一种条件独立性测试算法,并将其应用于因果结构发现的PC算法中。他利用新PC算法研究了经济学中的议价理论,研究讨价还价行为中互惠关系的作用,以及响应时间在这个过程中的作用。他将算法应用于eBay的Best Offer平台数据,发现交易双方让价行为之间存在关联,印证了互惠理论;同时,发现了对手还价响应时间对下一次要价存在因果效应。

产业链是指产业部门之间基于经济关系形成的链条式关联关系形态。产业链基于资源要素分配和专业化分工等多种因素构成上下游关系,来进行价值互换,上游企业向下游提供产品和服务,下游向上游反馈信息,由此形成关联互动关系。产业链各环节之间的相关性分析,对产业布局管理和投资组合设计具有重要参考意义。韦颖璐[4]基于CE概念,提出了pair-copula熵的概念,用于度量多变量内部的成对相关关系。她将该概念应用于国内畜禽养殖产业链各环节之间的相关性研究,基于该领域内9家上中下游主要上市企业的股票价格数据,运用pair-copula熵度量了产业链内上中下游之间的相关性,发现该产业链上游相关性较强,下游相关性较弱;无条件相关性强,条件相关性弱;上中之间相关性强等现象。

社会学

性别不平等是社会学研究的问题之一。由性别视角,我们可以发现很多不平等现象,如两性在收入上、教育上、职业上的不平等等。分析和鉴别导致不平等现象的社会学因素是学者们关心的问题,利用定量方法分析相关社会学数据是研究的手段之一。然而各种社会因素之间的因果链条十分复杂,需要采用科学的数据分析工具加以应对。Ma[5]提出了一种多域因果关系鉴别方法,将性别因素作为社会外在变量,将不平等问题转化为数据分析中的域迁移问题,利用基于 CE 的条件独立性测试发现社会变量之间的因果关系。他将方法应用于美国国家成人收入社会调查数据,分析了性别、教育和收入之间的因果关系链条,发现了性别导致教育不平等,进而造成收入不平等的科学证据。

教育学

高中教育各学科之间具有内在的联系,教学大纲中强调了数学对物理、化学和生物等学科的基础性地位,数学知识、数学思维和思想方法深刻地渗透影响着其他学科的教学。因此,数学成绩被认为与其他学科成绩具有相关性。利用实证的方法研究数学与其他学科的关系,分析数学成绩与其他成绩之间的相关性是一个重要的基本问题,对于教学改革和学习方式的选择具有普遍参考意义。柳琼[6]基于某市2013级理科学生高一、高二期末考试成绩和高三两次模拟考试成绩,研究了数学成绩与其他学科成绩之间的相关性。作者比较了经典线性相关系数、秩相关系数和互信息(Mutual Information:MI)三种相关性度量方法,从CE和MI理论关系的角度分析论证了MI度量的优越性,并实验证明了MI度量能够更好地刻画揭示数学对其他不同学科(语文、英语、物理、化学和生物等)的影响力机制。

心理学

大脑是一个分布式的网络系统。它不仅控制身体,改变内部生理状态,也影响多个高级过程。同时,内脏信息也时刻受到大脑的监控,也就意味着内脏过程也会反映到皮层活动中。内脏事件相关的大脑活动研究是一个重要的话题。植物神经系统中的过程之间相互关联,而信息论则提供了研究它们之间关系的工具。Ravijts[7]研究了四种情绪刺激特征(效价、唤醒、支配和喜欢)下心跳诱发脑电位(HEP)的时间交互近似估计问题。他采用了用于情绪分析的生理信号DEAP数据集,利用基于CE的GCMI方法估计了MI、协同和冗余等统计量,用于度量不同情绪刺激下HEP上的时间交互。实验发现了支配和喜欢情绪刺激下HEP上的时间交互现象,第一次揭示了情绪感知调制的HEP的时序特性。

法学

社区是基本的社会生活单元,社区治安管理与每个人的生活息息相关。社区属性与社区犯罪之间具有内在联系,分析社区经济、社会和人口等属性与各类犯罪之间的关系,可以加深对犯罪行为发生的理解,对执法部门合理安排部署资源力量具有重要参考意义。Wieser[8]基于CE与MI的等价关系,提出了一种新的信息瓶颈(Information Bottleneck)估计方法。由于利用了CE的变换不变性,该方法较传统同类方法具有更好的估计性能。他将方法应用于美国社区与犯罪数据集,分析125种经济社会因素与18种犯罪属性(包括8种犯罪行为,人均犯罪率和人均(非)暴力犯罪率)之间的关系,学习得到了可以表示这种关系的潜变量模型,为构建犯罪预测模型提供了参考。

政治学

政治安全事关国家安危。政治学研究关心政权领导力因素与政权危机之间的关系,并根据这些信息配置资源,开展情报收集、稳定或颠覆政权等行动。基于雪城大学莫伊尼汉全球事务研究所的国际政治领导力数据集,Card[9]研究了37个领导力因素与政治安全之间的非线性关系,采用CE(MI)作为非线性分析工具,重点关注了两个领导力变量(政权建立原因和政权结束原因)与其他因素的关系。分析结果佐证了社会学家的已有理论,分析也印证了已知的关系,发现了未知的关系和现象。

金融学

量化金融是通过对金融数据的数量关系分析指导金融决策的新兴金融学科。基于金融交易系统产生的大量金融市场交易数据,利用数学工具分析金融产品之间的数量关系,可以明晰市场规律和动态,进而管理金融资产。其中,分析市场金融变量之间的相关性是金融工程的重要问题,可以帮助交易员洞察它们之间的动态关系,进而调整投资组合和管理风险。由于金融市场变量具有非线性、非高斯性等特征,使得MI成为了理想的相关性度量,而MI估计算法则成了量化金融工具箱的重要工具之一。基于CE的MI估计算法就被量化金融算法库MLFinLab[10]实现,并得到业界广泛应用。

基于中国股票市场(沪市A股指数、深市A股指数和沪深300指数)真实数据,Wang[11]研究了利用股票资产之间的相关性关系网络,优化投资组合的方法。方法采用了包括CE在内的线性和非线性相关性度量,基于相关性强度构建股票资产间的关系网络,进而构建投资组合。研究中估计了不同Copula参数函数族的CE(MI)。

分析金融数据需要对其建模数学模型,但金融变量以及其联合分布具有非高斯性,给数据建模带来了挑战。Calsaverini和Vicente[12]给出了一种巧妙的Copula函数模型选择方法。该方法利用CE(MI)的边缘分布无关特性,将Copula鉴别问题的目标与边缘函数分开,再利用CE的定义,将问题转化为以MI为上界的模型选择问题。作者还定义了超量信息(Informaion Excess)的概念。作者将建模方法应用于1990至2008年间标普500指数的150只股票的每日对数收益率数据,利用超量信息,验证了该方法作用于T-Copula函数族时的有效性。

R藤Copula是一种灵活的构建多元copula分布的工具,确定藤的结构是建立此类模型的关键步骤。Alanazi[13]基于CE和MI、CMI之间的关系,提出了一种R藤copula的构建方法,基于MI建立最小生成树,再计算前一子树每对边上的CMI,根据CMI建立新的子树并决定藤copula的层级结构。他将该R藤copula构建方法应用于股票间相关结构的建模问题,基于德国DAX指数15种主要股票数据(2005年1月至2009年8月)构建了资产间关系结构的R藤copula模型,与传统方法相比,该方法建立的copula相关结构模型能够更好地拟合数据。

信用风险是金融银行业面对的主要基本风险之一,保障金融安全需要有效地管理信用风险。信用评分卡模型是一种对客户进行信用风险评价的模型方法,是管控金融风险的决策工具。该类模型根据客户的信用历史数据为其划分信用等级,来决定其金融权限。传统的建立信用评分卡模型方法依靠专家经验,效率低且生成的模型不够完善。孔祥永等 [14] 提出一种基于 CE 的自动化信用风险模型构建方法,能够显著提高建模效率,可以同时保证模型具有高预测性能和可解释性。作者将该方法在真实信用卡数据上与专家建模进行了对比,实验结果表明方法大大缩短了建模时间,且能够得到媲美专家模型的预测性能和可解释的客户信用特征。

了解更多Copula熵的理论和应用,请见我们在ChinaXiv的综述论文

参考文献

  1. 罗良清, 平卫英, 单青松, and 王佳. 中国贫困治理经验总结:扶贫政策能够实现有效增收吗?. 管理世界, 38(2):70–83, 2022.

  2. Qingsong Shan and Qianning Liu. Binary trees for dependence structure. IEEE Access, 8:150989–150998, 2020.

  3. Leonie Bossemeyer. Machine Learning for Causal Discovery with Applications in Economics. Master's thesis, Ludwig-Maximilians-Universität München, 2021.

  4. 韦颖璐. 基于pair--copula熵的相关性度量. 硕士学位论文, 苏州大学, 2021.

  5. Jian Ma. Causal domain adaptation with copula entropy based conditional independence test. arXiv preprint arXiv:2202.13482, 2022.

  6. 柳琼. 基于Copula和MI理论的相关性度量及其应用研究. 硕士学位论文, 三峡大学, 2018.

  7. Liesa Ravijts. Revealing temporal interactions around the heartbeat-evoked potential modulated by emotional perception. Master's thesis, Ghent Univeristy, 2019.

  8. Mario Wieser. Learning Invariant Representations for Deep Latent Variable Models. PhD thesis, University of Basel, 2020.

  9. Stuart William Card. Towards an information theoretic framework for evolutionary learning. Master's thesis, Syracuse University, 2011.

  10. Hudson and Thames. Machine learning financial laboratory (MLFinLab), 2021. URL: https://github.com/hudson-and-thames/mlfinlab.

  11. Qiutong Wang. Social networks, asset allocation and portfolio diversification. Master's thesis, University of Waterloo, 2015.

  12. Rafael Calsaverini and Renato Vicente. An information-theoretic approach to statistical dependence: Copula information. EPL (Europhysics Letters), 88(6):68003, 2009.

  13. Alanazi, F. A. Truncating Regular Vine Copula Based on Mutual Information: An Efficient Parsimonious Model for High-Dimensional Data. Mathematical Problems in Engineering, 2021, 4347957.

  14. 孔祥永, 王浩, 袁伟, and 蔡明. 一种自动化特征工程信用风险评价系统及方法, 2021. CN114049198A.




https://blog.sciencenet.cn/blog-3018268-1350530.html

上一篇:Copula熵的多学科实际应用 (九)
下一篇:Copula熵的多学科实际应用 (十)
收藏 IP: 47.245.33.*| 热度|

2 王安良 王凌峰

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-10-4 14:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部