majianthu的个人博客分享 http://blog.sciencenet.cn/u/majianthu

博文

Copula熵的社会科学应用(二)

已有 761 次阅读 2023-12-17 17:38 |系统分类:论文交流

本文继续前一篇博文介绍Copula熵(Copula Entropy:CE)在社会科学领域的应用,包括经济学、管理学、语言学、新闻传播学、军事学、情报学和金融学等领域。CE被应用于研究投资者情绪、粮食安全、库存管理、海外并购、政府热线、疫情期间公众情绪、战场态势感知、颠覆性技术情报分析和金融安全等重要问题。

经济学

投资者情绪对财经市场有着广泛而多面的影响,投资者情绪分析是经济学研究的重要问题之一。由于社交媒体和市场关系整合,投资者情绪会在人群和国家间传播,进而形成传播网络,使得局部情绪波动得以迅速扩散,造成系统性影响。Han和Zhou[1]提出了一个基于小波分析、传递熵和网络分析组合的方法,研究公司间投资者情绪传播的模式,其中采用了基于CE的传递熵估计方法。他们采用2015-2021年间的中国137家新能源汽车上市公司的百度搜索索引数据来代表投资者情绪,将其用小波分析分解为多尺度信息,再用传递熵构建情绪传播网络,最后用网络分析的方法分析短期和长期传播特征。他们发现,投资者情绪表现为短期局部活跃,并具有连续且逐渐增长的进化模式。

管理学

准确预测农产品期货价格有助于为政府相关部门的科学决策提供参考,因而对保障国家粮食安全具有重要意义。然而价格预测受多种复杂因素的影响,如国际形势、市场情绪博弈等。因此,识别价格的影响因素对构建准确的价格预测模型至关重要。An等[2]提出了一个基于历史数据和文本数据的融合多种方法的混合预测框架,其中经验模态分解(Empirical Mode Decomposition:EMD)用于预处理历史数据,动态主题模型(Dynamic Topic Model:DTM)和情感分析用于提取微博文本信息,再利用CE等方法对提取的因子进行筛选,用于构建预测模型。作者在两个实际数据上验证了该方法框架:国家统计局的猪肉价格数据和大连商品交易所的大豆期货价格数据,并收集了相应时间内的微博文本数据。在实验中,作者将CE方法与同类的dCor和HSIC方法进行了对比,结果表明,在两个数据上,基于CE的预测模型都给出了最好的预测性能。

库存管理是企业运营管理过程中的关键环节,也是管理学的重要问题之一。报童问题是典型的单周期库存管理模型,一直是本领域研究的焦点。近年来,利用数据驱动模型和方法的报童问题研究展现出比传统方法的优越性,进而成为了热门话题。Tian和Zhang[3]提出了一种端到端的算法框架,利用深度学习模型从在线商品评论等特征数据中预测订单数量,其中采用了包括CE在内的方法来选择模型的输入特征。他们将方法应用于汽车库存管理问题,基于2016至2022年间的大众朗逸汽车的历史销售量、汽车之家网站的评论、百度搜索指数、和宏观经济指数等数据构建了模型。结果显示,本方法能够大幅减少超额成本和短缺成本之和,与同类方法相比减少了31.8%的成本。

中国企业海外并购面临着时代的机遇和挑战。探究影响中国企业海外并购的国内外各种因素,分析并购的短期和中长期绩效,具有重大的理论和现实意义。王琳君[4]提出利用Copula VECM模型,分析与海外并购数量强关联的经济变量对并购的影响,特别考虑了被其他研究者忽视的宏观经济变量的动态影响。由于此类经济变量较多,容易使构建的VAR模型复杂度增加,导致估计模型的不准确性。因此,他提出利用CE对经济变量进行选择后再建立模型。他在Wind数据库中选取了海外并购数量和其他7个与并购数量可能关联的宏观经济变量的季度数据,通过CE关联度分析后,得出结论认为宏观经济杠杆率、GDP、货币供给增长率和汇率四个宏观经济因素是影响我国海外企业并购活动不可忽视的重要因素。他进一步分析论述了所选变量对并购数量影响的内在经济逻辑,增强了模型的合理性。

计算语言学

城市服务热线是政府公共管理系统的重要组成部分,促进了政府和市民的沟通,改善了政府的公共服务。但传统的人工派单方式无法满足日益增长的热线诉求,如何高效快速的处理大量的市民热线诉求是城市服务热线提高服务质量面临的重要课题。大量的热线文本数据积累为快速筛选和处理热线诉求提供了可能,可以利用自然语言处理方法处理热线文本数据,进而构建智能派单系统。陈作海等[5]提出了一种基于知识图谱技术的城市热线派单方法,基于城市热线数据构建热线知识图谱,再对待派单诉求根据构建的知识图谱检索结果进行派单,大大改善了热线服务的工作效率。在此智能派单系统中,CE作为特征选择方法被用来对城市热线数据进行预处理,以构建和更新知识图谱。结果表明,CE表现优于其他同类方法。作者将该方法应用在济南市民服务热线的系统上,通过不断更新知识图谱,最终获得了90%以上的派单准确率。

新闻传播学

公共卫生事件发生过程如何影响公众情绪是一个重要的问题,具有理论和现实意义,对政府的信息发布和舆情管控具有参考价值。特别是新媒体环境中,公众情绪的传播和演化过程受多种因素影响,因而更趋复杂。新冠疫情的发生给研究这类问题提供了条件。Zhang等[6]研究了上海新冠疫情发生期间,疫情过程对公众情绪的影响特点和机理。他们以微博平台上“上海疫情”主题的数据为基础,研究了公众情绪的影响因素、时间演化以及疫情与公众情绪之间的因果关系。研究利用了基于CE的传递熵方法分析了疫情和公众情绪之间的因果关系,实证地发现了疫情过程对公众负面情绪的因果效应大于正面情绪,且正面情绪对负面情绪具有抑制效应。

军事学

目标意图及时准确识别是战场态势感知的一项重要内容,是指挥决策的基础和前提。空中飞行目标意图识别会面临多种不确定性的挑战,如行为特性与物理特性的不确定性、飞行规则的不确定性和行动能力的不确定性等,使得及时准确的意图识别十分困难。张可等[7]提出了一种基于动态贝叶斯网络的目标意图识别方法,用于从复杂态势中目标的时序数据中完成意图识别,方法利用基于CE的互信息估计算法从目标属性和目标意图数据来生成贝叶斯网络结构,再利用自适应遗传算法迭代优化网络结构,利用最终优化得到的网络来进行未知目标的意图识别。他们将该方法应用于空中目标的处理过程,利用空中目标的位置信息、飞行信息,以及雷达和通讯系统信息来识别其6种不同意图(巡逻、预警/指挥、电子侦察、电子干扰、攻击和打击等)。该方法可不限于空中飞行目标,可以很方便地推广到其他类型目标上。

情报学

颠覆性技术是具有原始创新性的技术,会对现有主流技术和产业产生变革性作用,推动经济社会发生突变式进步。开展颠覆式技术的前瞻识别及预判研究是科技情报分析领域的重要问题,对科技政策制订、科技产业布局和科技创新生态培育具有指导意义。基于知识网络分析的科学、技术和产业互动模式研究是解决识别研判问题的路径之一。许海云等[8]提出了一个颠覆性技术研究流程框架,以渐进式技术为参照获取科技、专利和产业文献资料的文本数据,利用自然语言处理技术分别构建三者的知识网络,再利用知识网络的三种整体网络属性和网络社区相似度属性将知识网络互动模式划分为预设的五种模式,包括科学-技术-产业联动模式。其中,CE被用来度量三种知识网络的整体网络属性之间的关联度,以表征互动模式。他们以再生医学(干细胞)领域作为颠覆性技术对象,以白血病治疗领域为渐进性技术参照开展实证研究,获取了截至2020年底的权威数据库相关文本数据,利用该流程框架研究了两个对比领域科学-技术-产业互动模式的共性和差异,加深了对颠覆性技术创新生态要素的知识流动和扩散规律的认识。

金融学

投资组合的选择是金融决策的重要问题。廖轶楠[9]研究了投资标的筛选的问题,他基于净资产收益率、净利润三年复合增长率和市盈率三项指标从A股4000多家上市公司中初步筛选了10家A股上市公司,再利用CE等工具对标的股票的价格数据进行了统计分析,以判断投资组合的抗风险能力。

股票市场的投资者总是希望投资发展良好的上市公司,因此甄别一只股票的好坏对投资者十分重要。ST股票制度是在我国A股市场实施的股票风险警示机制,有助于投资者选择投资组合并规避风险。股票分类是股票分析领域的一类重要问题,对金融市场投资者具有参考价值。朱仲儿[10]提出了一种基于机器学习方法的ST股票分类方法,采用Boruta算法和CE方法进行特征选择,再利用6种回归模型进行预测,利用Optuna框架对模型的超参数寻优。他选取了tushare数据库中上交所和深交所的2076只股票(含351只ST股票)自2016年以来的数据,含有139个股票特征变量,最终利用Boruta和CE方法筛选了7个可解释的变量。模型预测结果表明该方法在筛选特征和XGBoost模型组合上获得了最好的预测精度。

R藤Copula是一种灵活的构建多元copula分布的工具,确定藤的结构是建立此类模型的关键步骤。王念鸽[11]基于CE与MI、CMI之间的关系提出了一个类似的藤copula结构选择算法。作者利用该算法分析了中证五大行业指数之间的相关结构,利用2019年3月1日至2022年3月1日之间的数据,构建了基于Kendall相关系数的藤copula结构和基于MI的藤copula结构,结果表明,从拟合优度指标看,后者的结果优于前者的结果;从可解释性角度看,后者的结果刻画的五大行业资产之间的依赖关系更合理。

金融危机的发生使金融系统的系统性风险问题受到各国监管部门的关注。我国股票市场放开管制加深了经济金融的一体化程度,造成了各个行业之间的耦合,从而加大了系统性风险的程度,因此需要对跨行业的风险溢出效应加以研究,以期进行防范和化解。熵作为量化不确定性的数学工具,十分适合度量金融风险组合。熊靖宇[12]采用CE等工具对2005年1月5日至2020年7月3日我国股票市场11个行业的日对数收益率数据进行了分析,研究行业个体风险和跨行业风险溢出特征的动态演变过程,特别针对2008年金融危机、2013年钱荒和2015年股灾三个时期的风险特征进行研究。研究发现,行业联合CE动态变化滞后于累加独立熵发生,说明了行业间联动导致了系统性风险增强;2008年金融危机的市场内部传染性更强,破坏程度更大;近期11个行业内部关联水平较强。

金融脆弱性是由金融部门自身高负债经营带来的内在不稳定性。金融脆弱性度量工具可以使国家及时地对危机进行响应和干预,因此得到了大量的研究。日益成熟的网络分析理论为从金融网络的角度度量金融脆弱性提供了方法工具,但传统的网络构建方法只是基于线性关系度量工具,如皮尔逊相关系数等,不能够反映金融系统中的非线性关系特性。Chen等[13]提出了一种利用CE改进的网络曲率(Network Curvature)金融脆弱性度量方法,该方法先利用CE构建金融网络,再计算网络的四种离散Ricci曲率作为市场脆弱性度量。他们将该度量方法应用于2006年4月至2022年4月间沪深300指数的股票数据,分析金融危机前后的市场脆弱性。结果表明,该度量方法比基于皮尔逊相关的方法更清晰地描述了金融危机后市场的脆弱性,且具有传统风险度量同样的风险度量能力。

准确地预测金融产品价格可以帮助投资者管理风险并进行投资决策,因而建立相关预测模型是研究者关心的重要问题之一。由于金融产品之间存在内在的市场逻辑,它们的价格也会产生相应的因果联动效应。因此,可以利用这种价格间的因果关系建立比传统方法更准确的价格预测模型。Zhang等[14]提出了一种基于价格间因果关系的迁移学习框架,利用基于CE的传递熵方法计算不同金融产品价格之间的因果关系,以选择因变量价格用于预测果变量价格,再在选择的基础上,提出了用于训练深度学习模型的学习算法以得到预测模型。他们将算法分别应用于国际主要的财经指数、能源期货价格和农产品期货价格2010年至2021年的每日价格数据上,结果发现,利用基于CE的传递熵方法发现了同类价格间的因果关系,在此基础上,利用该迁移学习框架得到的模型在三类价格数据上均给出了较同类对比算法更好的预测结果。

更多Copula熵的社会科学应用,请参见前一篇博文;更多其多学科应用,请参见ChinaXiv上的此篇综述论文

参考文献

  1. Muye Han and Jinsheng Zhou. Multi-scale characteristics of investor sentiment transmission based on wavelet, transfer entropy and network analysis. Entropy, 24(12):1786, 2022.

  2. Wuyue An, Lin Wang, and Dongfeng Zhang. Comprehensive commodity price forecasting framework using text mining methods. Journal of Forecasting, 42(7):1865–1888, 2023.

  3. Yu-Xin Tian and Chuan Zhang. An end-to-end deep learning model for solving data-driven newsvendor problem with accessibility to textual review data. International Journal of Production Economics, page 109016, 2023.

  4. 王琳君. 中国企业海外并购的影响因素和绩效评价研究. 博士学位论文, 中国科学院大学, 2022.

  5. 陈作海, 钱恒, and 高永超. 一种基于知识图谱的城市热线派单方法及系统, 2023. CN115860436A.

  6. Bowen Zhang, Jinping Lin, Man Luo, Changxian Zeng, Jiajia Feng, Meiqi Zhou, and Fuying Deng. Changes in public sentiment under the background of major emergencies – taking the Shanghai epidemic as an example. International Journal of Environmental Research and Public Health, 19(19):12594, 2022.

  7. 张可, 刘施彤, 郑植, 贾宇明, and 黄乐天. 一种基于动态贝叶斯网络的目标意图识别方法, 2022. CN114997306A.

  8. 许海云, 王超, 陈亮, 徐硕, 杨冠灿, and 朱礼军. 颠覆性技术的科学-技术-产业互动模式识别与分析. 情报学报, 42(7):816–831, 2023.

  9. 廖轶楠. 基于 Copula 熵选股及集成神经网络预测的投资组合管理研究. 硕士学位论文, 南京信息工程大学, 2023.

  10. 朱仲儿. 多种机器学习方法的股票分类预测. 硕士学位论文, 上海师范大学, 2022.

  11. 王念鸽. 基于互信息的 Vine Copula 模型的高频数据投资组合风险测度研究. 硕士学位论文, 浙江财经大学, 2023.

  12. 熊靖宇. 基于 Copula 熵的行业风险溢出效应分析. 硕士学位论文, 东北财经大学, 2020.

  13. Mengyuan Chen, Jilan Liu, Ning Zhang, and Yichao Zheng. Vulnerability analysis method based on network and copula entropy. Preprints, 2023.

  14. Dabin Zhang, Ruibin Lin, Tingting Wei, Liwen Ling, and Junjie Huang. A novel deep transfer learning framework with adversarial domain adaptation: application to financial time-series forecasting. Neural Computing and Applications, 2023.



https://blog.sciencenet.cn/blog-3018268-1414211.html

上一篇:Copula熵的水文学应用
下一篇:Copula熵的多学科实际应用 (十八)
收藏 IP: 36.110.78.*| 热度|

1 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 02:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部