KeAi Publishing 植根中国 影响 ...分享 http://blog.sciencenet.cn/u/keaipublishing

博文

Risk Sciences | 金融领域深度学习的可解释性: 基于Heston模型的案例研究

已有 185 次阅读 2026-1-14 17:18 |系统分类:科研笔记

image.png

image.png

将深度学习模型应用于期权定价与风险管理金融模型校准的过程中,一个不可回避的问题随之产生:当神经网络输出一组“最优参数”时,是依据哪些期权价格做出的判断?这些参考依据是否合理?若无法回答这些问题,即便模型拟合效果再出色,也难以真正令人信服。本文围绕这一核心问题展开研究,选取一个在理论与实践中均被广泛应用、发展成熟的随机波动率模型作为“试验平台”,在完全可控的实验环境中,系统对比各类可解释性工具,探究何种工具能真正帮助我们理解神经网络的决策机制。

本文作者以经典的Heston模型为研究对象,利用该模型生成大量“理想化”期权数据。研究过程中,作者随机抽取多组模型参数,通过传统数值方法计算不同行权价与到期期限对应的隐含波动率曲线,随后将整个“波动率曲面”作为神经网络的输入,对应的参数组则作为输出。与部分仅将神经网络用于加速定价公式求解的研究不同,本文直接训练网络学习“从波动率曲面到模型参数”的完整映射关系,实质上是将整个模型校准过程交由深度学习完成。研究团队分别训练了结构相对简单的全连接网络与更为复杂的卷积网络,随后引入一系列可解释性工具,对比分析其实际效用。

本文的首个重要研究发现是,明确证实了在其他领域广泛应用的多种“局部可解释性方法”,在此类金融模型校准问题中实则并不可靠。这类局部方法通常通过简单模型对复杂网络在特定预测点附近的行为进行近似拟合,再从拟合结果中推断“哪些输入变量最为重要”。作者研究发现,此类方法的分析结果具有不稳定性:对同一个样本多次运行该方法,得到的“重要区域”结果差异显著。更关键的是,这些被标注为重要的区域在行权价——到期期限平面上呈现出分散分布的特征,难以与Heston模型背后的金融直觉相契合。例如,金融理论早已明确指出,哪些期权价格主要反映当前波动率水平、哪些捕捉价格分布的非对称性与曲率特征、哪些则主要与长期波动率相关。然而,局部可解释性方法往往无法得出具有说服力的对应关系。因此,在模型校准这类高度非线性、存在全局相互依赖关系的任务中,仅依靠局部近似方法,难以揭示神经网络真实的决策逻辑。

在此基础上,本文引入了基于合作博弈论的全局可解释性方法,重点应用了Shapley值法。该方法将每一个期权报价视为“博弈参与者”,将神经网络的预测结果视作一场“博弈”,通过Shapley值衡量每个期权报价对最终预测结果的平均贡献度。借助这一方法,研究人员能够在整个波动率曲面上绘制出直观的“贡献热力图”,清晰识别出对特定参数影响最大的行权价与到期期限组合。由于Heston模型本身已得到深入研究,学术界对于哪些期权信息应决定哪些模型参数早已形成明确的理论预期,因此Shapley值成为检验神经网络是否“学到了正确规律”的理想基准。研究结果显示,对于全连接网络而言,基于Shapley值得到的输入变量重要性分布与理论预期高度契合:决定当前波动率水平的参数主要依赖短期平值期权的信息;描述波动率偏度与曲率的参数则更多受短期深度实值或深度虚值期权影响;而与长期波动率水平相关的参数,主要由长期限期权合约决定。这一结果表明,全连接网络不仅能实现对数据的精准拟合,还能准确捕捉到模型的核心结构特征。

本文的第二个同样具有启发性的研究发现是,利用Shapley值法能够有效对比不同神经网络架构的优劣。从直觉上看,卷积网络在图像任务中往往表现优于简单的全连接网络,这也促使许多研究者将卷积结构移植到期权波动率曲面的分析中。但本研究发现,在模型参数校准问题中,情况恰好相反:全连接网络不仅实现了更低的预测误差,Shapley值分析结果还显示,该网络能精准聚焦于更符合金融直觉的信息区域。反观卷积网络,其往往会关注一些相关性较低的区域,同时忽略本应起决定性作用的关键价格点。作者认为,这一差异源于卷积层与池化层的内在运行机制:这些网络层擅长数据平滑与局部最大值提取,这一特性在捕捉图像的轮廓与纹理特征时十分有效,但在本研究场景中,却可能模糊甚至消除模型参数与特定行权价、到期期限之间的精细对应关系。换言之,Shapley值不仅能帮助我们解释特定神经网络 “关注了哪些信息”,还能作为选择模型架构的实用工具。在本研究的基准问题中,Shapley值分析结果明确表明,相较于直接套用计算机视觉领域常用的卷积结构,选择结构更简单的全连接网络更为合适。

综上,本文以一个理论研究成熟的金融模型为对象,开展了严谨的 “开盒实验”:一方面对比分析了在金融深度学习场景中,哪些可解释性工具真正具备实用价值;另一方面探究了当不同网络架构的表面拟合精度相近时,何种架构展现出更可信的决策逻辑。对于非该领域的读者而言,本文的两大核心结论具有重要参考意义:(1)在定价模型校准的深度学习应用中,基于Shapley值的全局可解释性方法,相较于常用的局部方法,结果更稳定,且更贴合金融直觉;(2)借助这类全局可解释性工具,作者发现结构更简单的全连接网络在本研究任务中的表现优于卷积网络。这一研究结论为未来针对更复杂金融模型与真实市场数据的研究,提供了清晰且具有实操性的思路与方向。

引用本文

Brigo, D., Huang, X., Pallavicini, A., & de Ocariz Borde, H.S. (2026). Interpretability in deep learning for finance: A case study for the Heston model. Risk Sciences, 100030.

作者简介

image.png

Damiano Brigo教授现任伦敦帝国理工学院数学金融讲席教授,2012至2019年期间担任该校数学金融研究组负责人。他同时隶属于随机分析研究组,并在金融行业多家学术顾问委员会担任职务。

Brigo教授曾任职于伦敦国王学院,担任 Gilbart讲席教授兼研究组组长;也曾出任惠誉评级董事总经理兼全球量化创新主管、意大利联合圣保罗银行旗下意大利商业银行信用模型主管、米兰博科尼大学固定收益教授、意大利联合银行定量分析师,以及Capco研究院院长。

Brigo教授在数学金融、系统理论、概率论与数理统计领域的顶级期刊发表论文逾130篇,为Springer和Wiley出版社撰写的多部著作,已成为随机利率与信用建模领域的经典参考书目。其谷歌学术 H 指数为43,论文被引次数超11000次。他曾担任International Journal of Theoretical & Applied Finance; Mathematics of Control, Signals & Systems; Applied Mathematical Finance; Information Geometry 等期刊编委,并入选金融行业权威期刊Incisive传媒Risk Magazine 从1998到2017年期间被引次数最多作者榜单。

Brigo教授的研究方向包括:各资产类别估值、信用衍生品、利率/股票/外汇衍生品、单变量与多变量波动率微笑建模、套期保值、风险计量、融资成本、交易对手信用风险、估值调整、大宗商品与通胀随机模型、相依性动态分析、流动性风险、最优执行策略、信息几何与随机分析、非线性随机滤波、混合分布相容随机过程,以及流形随机微分方程与粗糙微分方程。

Brigo教授于1996年获阿姆斯特丹自由大学随机滤波微分几何专业博士学位,他曾以优异的成绩获得帕多瓦大学数学学士学位。

image.png

Xiaoshan Huang 现任伦敦巴克莱企业及投资银行定量分析师,隶属于定量分析股票与混合产品部门,专攻定量投资策略方向。她在巴克莱任职逾三年,核心工作为面向机构客户,开发并落地跨多资产类别的系统化、规则化投资交易策略及指数产品。

加入巴克莱之前,Xiaoshan曾任职于德勤会计师事务所,担任交易与定量风险团队助理经理,专攻市场风险、模型风险及模型验证领域。她拥有扎实的学术背景,持有伦敦帝国理工学院数学与金融硕士学位 (该专业常年位列全球顶级定量金融项目榜单) 同时拥有拉夫堡大学与上海大学双校数学学士学位。她的早期职业经历包括:在伦敦XSOR 资本担任量化研究员实习生,以及在香港保诚集团担任战略岗实习生,期间斩获财务规划大赛一等奖。Xiaoshan凭借数学建模、金融工程领域的专业能力,以及为全球金融市场搭建高性能工具的实操经验,获得行业认可。

image.png

Andrea Pallavicini于1995年获天体物理学学士学位,1999年以欧洲核子研究中心(CERN)大型正负电子对撞机二期(LEP2)物理相关研究成果,从帕维亚大学取得理论与数学物理学博士学位。

1999年,他加入米兰近郊的 FMR 咨询公司,从事数学建模工作,该公司专注于为航空航天业及金融机构开发数值程序库。2004年,他转至米兰意大利联合商业银行(Banca IMI),投身金融建模领域,主要负责奇异衍生品定价,以及数值程序库的设计与落地工作。2008 年,他出任米兰莱昂纳多银行(Banca Leonardo)金融工程主管;2011 年,担任 Mediobanca 金融模型主管。

自 2011 年起,他加入意大利联合圣保罗银行集团(Intesa Sanpaolo)旗下的米兰意大利联合商业银行,担任股票、外汇及大宗商品模型主管。2012 至 2021 年,他受聘为伦敦帝国理工学院客座教授。

多年来,他在金融建模、理论物理及天体物理学领域的核心期刊上,发表了多篇学术论文与面向行业从业者的专业文章。他还著有两部专著:《信用模型与危机:一段关于债务抵押债券、Copula理论、相关性和动态模型的旅程》与《交易对手信用风险、抵押品和融资:所有资产类别的定价案例》。

image.png

Haitz Sáez de Ocáriz Borde是国际知名人工智能研究者,目前同时隶属于牛津大学与剑桥大学,研究方向为几何深度学习与生成式基础模型。在剑桥大学,他担任计算机科学与技术系访问学者,指导博士生开展大语言模型推理、科学人工智能及计算结构生物学领域的研究工作。

Haitz在学术界与行业顶尖研究实验室均拥有卓越履历。他近期曾任Supermodel.ai首席研究科学家,主导设计了公司级自回归基础模型,实现高保真图像与视频生成,并带领 15 人精英工程师团队达成国际领先的推理速度。其行业经历还包括在英伟达公司的任职期,期间研发了基于人工智能的网格生成深度学习模型并获得专利;以及在麻省理工学院计算机科学与人工智能实验室的研究经历,主攻扩散模型与低秩适配器的数学基础理论。

作为将微分几何与拓扑学应用于机器学习领域的专家,Haitz合作撰写了多篇高影响力论文,发表于神经信息处理系统大会、国际机器学习大会、国际学习表征大会等顶级学术会议。他拥有牛津大学人工智能博士学位、剑桥大学机器学习哲学硕士学位,以及伦敦帝国理工学院航空工程工学硕士学位。凭借杰出的创业领导力,他斩获国王创业实验室种子基金大赛奖项,目前担任多家未公开阶段初创企业的科学顾问,推动几何智能与大规模生成式人工智能交叉领域的创新发展。

免责声明

本文仅代表Andrea Pallavicini 先生的个人观点,不代表其供职机构意大利联合商业银行(Banca IMI)的官方立场。

image.png

Risk Sciences 是由清华大学经济管理学院与科爱公司共同创办的国际学术期刊。创立于2024年,旨在发表和推动多领域新兴风险与颠覆性科技的学术研究和行业实践,包括经济、金融、管理、农业、工程、环境、健康、公共卫生、公共管理、法律、自然科学等领域。该期刊是亚洲地区首次建立风险相关交叉学科领域的综合性学术平台。

风险科学包含研究来自各行各业与社会的风险与不确定性的识别、量化、分析、交流和治理的多学科领域。在人类文明进入高度复杂性的当代,风险科学成为快速发展的新交叉领域。Risk Sciences 致力于成为促进相关多领域的协同发展与融合创新的顶级国际学术平台。



https://blog.sciencenet.cn/blog-3496796-1518447.html

上一篇:EMCON高被引论文 | 英国自来水和瓶装水中的合成微塑料:对人体暴露的影响
收藏 IP: 117.136.1.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-14 20:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部