IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

统计机器学习中参数可辨识性研究及其关键问题

已有 228 次阅读 2024-6-20 10:39 |系统分类:博客资讯

引用本文

 

冉智勇, 胡包钢. 统计机器学习中参数可辨识性研究及其关键问题. 自动化学报, 2017, 43(10): 1677-1686. doi: 10.16383/j.aas.2017.c160720

RAN Zhi-Yong, HU Bao-Gang. Parameter Identifiability and Its Key Issues in Statistical Machine Learning. ACTA AUTOMATICA SINICA, 2017, 43(10): 1677-1686. doi: 10.16383/j.aas.2017.c160720

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160720

 

 

关键词

 

可辨识性,统计机器学习,参数估计,奇异学习理论,贝叶斯推断 

 

摘要

 

参数可辨识性研究在统计机器学习中具有重要的理论意义和应用价值.参数可辨识性是关于模型参数能否被惟一确定的性质.在包含物理参数的学习模型中,可辨识性不仅是物理参数获得正确估计的前提条件,更重要的是,它反映了学习机器中由参数决定的物理特征.为扩展到未来类人智能机器研究的考察视角,我们将学习模型纳入"知识与数据共同驱动模型"的框架中讨论.在此框架下,我们提出两个关键问题.第一是参数可辨识性准则问题.该问题考察与可辨识性密切相关的各种判断准则,其中知识驱动子模型与数据驱动子模型的耦合方式为参数可辨识性问题提供了新的研究空间.第二是参数可辨识性与机器学习理论和应用相关联的研究.该研究包括可辨识性对参数估计、模型选择、学习算法、学习动态过程、奇异学习理论、贝叶斯推断等内容的深刻影响.

 

文章导读

 

"辨识"概念起源于统计学, 并在控制科学中得到了巨大的发展.根据文献[1-2]记载, 上世纪20年代, 一些经济学家在统计推断模型中首次提出了"辨识"概念及其相关问题.1934年到1975, 一批经济学家对此做出了里程碑式的理论化奠基工作; 这其中包括多个诺贝尔经济学奖得主, 1969年荷兰经济学家Jan Tinbergen与挪威经济学家Ragnar A. K. Frisch, 1975年美国经济学家Tjalling Koopmans, 1989年挪威经济学家Trygve M. Haavelmo, 以及2007年美国经济学家Leonid Hurwicz.在此期间, "辨识"为标题的论文有Koopmans1949年针对经济模型发表的文献[3]; 而文献[4]认为Haavelmo是辨识问题中给出通用与准确数学公式化的首位研究者, 并明确指出它与估计问题的不同("Haavelmo was the first to give a general and precise mathematical formulation of the identification problem, and to distinguish it clearly from the estimation problem").

 

在此之后, 控制学界发展了基于控制理论的"辨识"研究.开创性工作有Zadeh1956年针对黑箱系统建模问题[5]以及1962年针对"电阻-电感-电容"网络系统[6]提出的辨识问题.根据文献[4]评述, ZadehKalman提出的辨识问题更强调(黑箱)模型的选择与估计("For Zadeh or Kalman, identification is the selection and estimation of a model"), 或者更侧重"从样本到总体(From sample to population)".这不同于当时已有经济模型中辨识问题更强调"可辨识性(Identifiability)", 即更侧重"从总体到结构(From population to structure)".在发展出状态空间表示方法之后, 控制学科为辨识理论体系产生出了许多独有的学术贡献和系统性研究工作[7-12].

 

从辨识研究的发展史可以看出, "辨识"是数学模型与控制系统中最核心和最基础的研究内容之一.虽然学界认为线性系统和模型辨识研究已经成熟("System identification for linear systems and models is a well-established and mature topic)", 然而, Ljung指出辨识非线性模型是"更加丰富且严苛的领域" ("Identifying nonlinear models is a much more rich and demanding problem area")[13].辨识概念及其研究主题不仅持续扩展其应用领域, 而且已经滋润了其他学科的迅速发展.本文正是在统计机器学习研究背景下进行关键问题讨论[14-15], 这不同于经典统计模型和控制模型[16-17].对于这样十分活跃且为当下最为"显学"的研究领域进行辨识主题的全面综述无疑是很大的挑战, 因此, 我们把范围限定为统计机器学习模型中的参数可辨识性.参数可辨识性是关于模型参数能否被唯一确定的性质, 也是系统辨识理论研究中不可或缺的子问题.

 

机器学习研究本质涉及到多种数学空间的学习.如果考察各个空间的关联(1), 可以把机器学习模型视为一个参数学习机; 这也说明可辨识性是机器学习理论研究中的核心内容之一.然而, 目前它并没有得到学术界的广泛重视和深入系统性研究.本文从新视角定义的模型类别开始讨论该专题, 研究其中的两个关键问题, 特别强调对未来发展轨迹提出新的见解.

 1  机器学习中各个空间关系示意图

 

我们主要讨论统计机器学习中有关参数可辨识性的关键问题.所以, 我们把机器学习模型置于统计框架下.按照Amari等信息几何的观点[18], 可以把参数化的统计分布族看作具有几何结构的统计流形, 每一个具体的统计分布被视为统计流形上的一个点.因此, 可辨识性问题考虑的是:对于给定的参数统计模型, 是否存在不同的参数值, 它们对应的统计分布是相同的.

 

在机器学习文献中, 与局部不可辨识等价的一个概念是奇异性(Singularity), 如果一个统计模型的Fisher信息矩阵不是处处严格正定的, 我们称此模型为奇异学习机[19].奇异学习机在机器学习理论和应用中具有重要的地位[20-23].如果一个学习机具有层次结构[24-26]、隐变量[27-28]、状态变量[29-31]、讨厌参数[32]、语法规则[23]、耦合的子模型 [15, 33], 那么这个学习机通常是奇异的.基于奇异学习机在机器学习领域普遍存在, Watanabe指出:几乎所有的学习机都是奇异的(Almost all learning machines are singular)[22].奇异学习机包括多层感知器、径向基函数、高斯混合模型、玻尔兹曼机、Bayes网络等.

 

在机器学习领域, 相对于各种各样具体的学习算法而言, 与可辨识性有关的研究则显得相对缺乏.长期以来, 此问题并没有得到广泛的关注.直到近几年, 随着日本学者AmariWatanabeFukumizu等关于奇异学习理论的完善, 越来越多的学者开始关注这一理论; 这一点可以从近年来机器学习主流期刊和国际会议的文章数量看出来.这些理论成果主要得益于两个方面: 1) Amari的信息几何理论[18]; 2) Watanabe基于代数几何(Algebraic geometry)和代数分析的奇异学习理论[23].

 

针对机器学习领域中的可辨识性研究, 本文以机器学习和神经计算为应用背景, 主要讨论参数可辨识性研究在统计机器学习中的两大关键问题, 简述其研究进展和研究难点, 并提出若干瓶颈问题.第一个问题主要讨论与可辨识性准则相关的几个问题, 其中包括判断学习机器奇异的准则(因为模型奇异和模型局部不可辨识是等价的[34]), 也包括判断参数全局可辨识的准则(这对模型的可解释性和透明度有重要意义).第二个问题主要讨论奇异性对机器学习各个方面的影响; 这种影响包括机器学习理论、参数估计、模型选择、学习算法、学习过程动态分析、Bayesian推断等.

 2  基于知识与数据共同驱动的机器学习模型(其中, 两个子模型通过耦合算子互相联结[14-15])

 3  根据先验领域知识、推理方法、模型类型, 模型参数, 模型透明度等划分的模型方法[15]

 

本文试图说明参数可辨识性研究是统计机器学习中的基础理论内容, 并给出其中的两个关键问题.文献[80]主要讨论了统计框架下两个关键问题的技术解决, 本文则侧重研究框架的选择, 并将可辨识性问题纳入此框架下进行讨论, 期望加深对深度学习以及人工智能在方法论发展前景下的问题认知.同时, 我们也试图说明参数可辨识性研究的大背景是人类对生物智能与机器智能的深刻认知与理解.由于生物智能本质是非透明的, 我们必须借助机器智能仿真揭示生物智能的内在机理.这也表明机器智能不是简单地复制生物智能功能, 而是可以超越现有生物智能的知识与众多功能.目前深度学习网络在若干大数据应用中取得了卓越成功, 包括超出人类平均水平的模式识别精度[81].但是, 当下深度学习网络仍然属于黑箱模型范畴, 并缺乏理论解释的支撑.在文献[82], 作者指出:无论是基于"工具论(追求效率或预测)""认知论(追求解释或理解)"为导向的研究, 以人工神经元网络为代表的数据驱动模型必然要走向包容"增加模型透明度(或可理解性)"的学习目标.回到本文图 2中示意的机器学习模型, 在给定的参数集里, 哪些参数是可辨识的, 哪些参数是不可辨识的?对于不同的奇异机器学习模型, 它们各自的参数空间几何结构有何不同?这些问题都会指向参数可辨识性的研究内容.这些研究会带来对模型自身物理意义的解释, 以及对输入输出响应关系的解释, 它是导致我们对学习机器持续完善以及对人工智能深刻认知的必然路径.

 

因此, 本文侧重于从参数可辨识性研究角度为机器学习理论和实践带来新的研究视角, 希望能够引起不同学科领域中研究者的进一步思考和质疑.我们认为今后对各个层面问题给出完整而严谨的数学表达定义是必不可少的内容和挑战, 更大的挑战是如何将控制科学中的重要概念结合到其他学科领域研究中.比如, 在金融、经济、教育、社会发展中, 某些自变量的设定(如存贷款基准利率)或公共政策的调整(如发展指标)可以借鉴控制科学中提出的"调节""反馈""可控性""可观性"以及"平行管理与控制[83]"的概念而开展研究.对于这些典型的复杂巨系统[84-87]问题(它们的演变机理在本质上同样不透明, 并与智能及非智能人类行为相关), 知识与数据共同驱动的建模思想及其参数可辨识性研究会对深度学习、人工智能以及其他学科发展产生独到的贡献.

 

作者简介

 

胡包钢

博士, 中国科学院自动化研究所研究员.主要研究方向为人工智能, 计算机建模.E-mail:hubg@nlpr.ia.ac.cn

 

冉智勇

博士, 重庆邮电大学计算机学院讲师.主要研究方向为机器学习, 模式识别, 系统辨识.本文通信作者, E-mail:ranzy@cqupt.edu.cn



https://blog.sciencenet.cn/blog-3291369-1438956.html

上一篇:直播预告‖自动化前沿热点讲堂之第二十七讲
下一篇:平行区块链:概念、方法与内涵解析
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-22 22:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部