||
文章亮点
文章给出的AMac方法对近期提出的模型置信集 (Model Confidence Set, MCS) 构造方法Mac进行了改进,其改善了Mac方法在小样本及大噪声下的有限样本表现。另外,针对高维变量引起备选模型集过大致使现有模型置信集构造方法计算失效的问题,文章提出了模型选择路径 (Model Selection Path, MSP) 的概念以高效缩减备选模型集,并在线性模型框架下给出了MSP的构造算法。试验表明“MSP+现有MCS构造方法”的两步法可在高维情形下高效构造满足给定置信水平的MCS。
文章介绍
1. 研究背景及目的
实际应用中,当研究问题有多个可选模型时,常用的做法是利用某一模型选择准则 (例如:BIC准则,AIC准则等) 从备选模型集中挑选出一个最佳的模型用于建模分析。尽管模型选择在理论及方法论上取得了很多成果,然而在数据信息不足时,数据的微小扰动 (增删一些数据) 会造成选择过程确定的最优模型不断变化,这便是模型选择的不确定性问题。在传统的数据分析中,数据分析人员往往忽略模型选择过程的不确定性,这往往会造成过于理想化的估计或预测结果。
考虑到单个模型结果存在较大不确定性,学者们更期望结合多个“好模型”的结果给出更有价值的结论。MCS是一个具有给定置信水平以包含“最佳模型”的多个备选模型的集合,反映了“最佳模型”被一些模型包含的概率大小,类似于参数估计的置信区间,可以给出模型选择不确定性的度量,同时综合MCS中模型的结果可以得出更加可靠的结论。
随着模型选择不确定性问题关注度的上升,近年来MCS的构造方法也引起了学者们的广泛研究。尽管,近年来先后出现了MCS、LRT、LMB、Mac等一系列优秀方法,但在MCS构造中依然存在如下关键问题:(1) 虽然Mac方法构造出的模型置信集较于其他方法有着模型集更小的优点,然而Mac在小样本和大噪声下的表现仍有待提高。(2) 已有方法在可选模型集较大时均因计算时间过长而难以实施,这在解释变量维数较高时极易发生。基于以上两个MCS构造中的关键问题,文章提出了AMac方法对Mac的有限样本表现进行改善,同时提出MSP的概念用于解决高维变量下MCS的计算难题。
2. 算法及结果展示
AMac算法图:
AMac与Mac结果对比图:拥有更高的覆盖率,小样本下所得MCS覆盖率更接近指定值,受噪声变化的影响更小。
MSP算法图:
MSP构造MCS缩减时间图:由指数增长缩减为线性增长。
MSP构造MCS效果展示图:构造出的MCS拥有更小的模型集,且能够达到指定的覆盖率。
AMac及MSP在“Diabetes”数据集上效果展示:
3. 总结与讨论
论文围绕模型置信集构造问题,首先提出了一种新的模型置信集构造算法AMac,其次给出了MSP的定义及线性模型下MSP构造算法以解决高维变量下模型置信集构造中的计算难题。通过理论证明及模拟试验可知:(1) AMac较Mac方法有着更高的经验覆盖率,AMac构造的MCS在数据信息较少或数据波动较大时具有更理想的效果,同时AMac较Mac对于噪声具有更好的稳定性。(2) MSP能够很好的同现有MCS构造算法结合,并给出较为理想的MCS构造结果。
论文在线性回归模型下给出了MSP构造算法以解决高维变量下的MCS构造问题。但是,通过MSP来缩减模型集的想法却不仅仅针对线性回归模型,任何可以快速得到模型选择路径的模型集均可以采用本文的思想以解决高维问题,例如,对于广义线性模型,添加Adaptive lasso惩罚项的对数似然函数,其参数估计依然具有变量选择的一致性,并且可以通过局部二次近似算法得到其解路径,因此对于广义线性模型也可以构造MSP解决高维变量问题,然而如何通过LQA算法高效构造出MSP还有待进一步研究。
论文AMac方法采用的Bootstrap方法是固定模型的做法,即模型参数事先由估计给出,然后将估计参数带入模型通过不断产生误差项以构造新的数据进行模拟。另外Bootstrap还可以采用扰动数据的形式,即保持解释变量X不变,通过在原始数据Y上添加扰动来产生新数据进行模拟。能否将两种形式的Bootstrap方法进行有效结合以给出更好的模拟概率还有待进一步研究。
论文作者
文法广
山东大学数学学院
研究方向:变量选择
Jiming Jiang (蒋继明)
加利福尼亚大学戴维斯分校统计学系
研究方向:统计学
栾贻会
山东大学数学学院
研究方向:时间序列分析
原文出自Mathematics 期刊:https://www.mdpi.com/2690366
期刊主页:https://www.mdpi.com/journal/mathematics
Mathematics 期刊介绍
主编:Francisco Chiclana, School of Computer Science and Informatics, De Montfort University, UK
期刊主题涵盖纯数学和应用数学所有领域,重点发表代数、几何和拓扑、函数插值、差分和微分方程、计算和应用数学、概率与统计、数学物理、动力系统、工程数学、数学和计算机科学、数学生物学、网络科学、金融数学、以及模糊集、系统和决策等相关领域的文章。现已被SCIE (Web of Science)、Scopus等重要数据库收录,JCR Category Rank: 21/489 (Q1)。
2023 Impact Factor:2.3
2023 CiteScore:4.0
Time to First Decision:17.1 Days
Acceptance to Publication:2.6 Days
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-1 12:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社