||
作者:张拳石(上海交通大学约翰霍普克罗夫特计算机科学中心长聘教轨副教授),邓辉琦(上海交通大学张拳石副教授团队博士后研究员)
人工智能领域 3 位知名华人科学家马毅、曹颖与沈向洋联名在中国工程院院刊《信息与电子工程前沿(英文)》(FITEE)上发表了名为“On the principles of Parsimony and Self-consistency for the emergence of intelligence”的论文。该文提出智能系统的两大理想原则——简约性(Parsimony)与自洽性(Self-consistency),分别回答了人工智能在学习过程中“学什么”与“怎么学”两大根本问题,在国际上引起广泛关注。我们团队一直聚焦可解释人工智能领域;作为FITEE期刊的通讯专家,荣幸受邀从可解释角度谈谈我们的粗浅理解。
虽然这篇论文和神经网络可解释性貌似在处理不一样的问题,但是根本上说,很多问题的出发点其实是类似的——目前的深度模型往往不是一个“干净”模型。这里的“干净”包含很多层面的意义,既有知识表达层面的简约与透明,也有模型表达能力和优化能力内在机理的干净与可解释。然而,目前深度模型往往采用了大量trick操作,比如权重衰减(weight decay)、随机梯度下降(SGD)、动量(momentum)、批量归一化(batch normalization),使深度模型变成各种复杂因素、复杂效应的集合体,其知识表达和运行机理很难让人条分缕析地拆解出来。因此,在深度学习中众多复杂因素中,哪些是不可或缺的本质因素,哪些是无效的冗余因素,是深度学习理论发展的根本难题。因为目前无法彻底解释神经网络,深度学习依然困于“经验性调参”范畴,尚未真正实现理论驱动的深度网络结构设计和优化。
事实上,对于这一问题的解决,学界存在不同路线。其中两种路线认可度较高。
具体地,第一条路线聚焦于对深度模型的事后解释,希望从面向某一特定问题的众多经验性的深度学习算法中,理论证明其算法有效性的公共机理,并从去芜存菁的角度反向证明经验性算法中的内在错误。第二条路线则致力于提出一些理想的人工智能模型性质,并设计一个“干净”的深度模型,使得该模型的训练和表征充分地、干净地体现这些模型性质。
我们团队近年来一直沿着第一条路线,试图证明归因算法[1]、对抗训练优化能力[2]、以及对抗迁移性[3,4]等方向上众多经验性算法背后的数学共性,从而去芜存菁,对不同模型/算法给出统一的解释,并修正其理论缺陷。
而马毅等老师的论文则沿着第二条路线,直接为“学什么”给出一套新的建模和学习方式,替代了传统的反向传播算法,贯彻了一套干净的理想的训练机理。如果我们无法彻底解释现有深度模型,为什么不构建一套训练和表征机理更干净的深度模型系统呢?该文对“学什么”的重新建模,有望为理论研究深度模型表征提供新路径,为深度学习从粗暴式炼丹范式转向理论驱动范式,增加了新的可能路径。
论文提出简约性与自洽性作为智能系统的基础性原则。其中,简约性原则直接回答了以上“学什么”的问题,指出深度模型的学习目标是基于外部观测数据,学习低维、紧凑、结构化的表示。然而,仅凭借简约性原则,并不能确保深度模型所学到的表示能够捕获感知外部观测数据中的所有重要信息。为此,论文在简约性之外提出互补的自洽性原则,探讨了深度模型“怎么学”的问题。自洽性原则认为,深度学习系统通过最小化观测数据和预测数据之间的内部差异,以寻求最自洽的特征表示。
当然,深度学习真正的本质因素可能比这两个原则复杂得多,但两个原则的提出是一项富有前瞻性的探索,为理解深度学习的本质因素提供了新视角。
关于简约性原则,论文进一步探讨:与其像传统深度学习一样,猜测网络架构和反向传播网络参数,我们能否直接地构建/推导神经网络的架构和参数?关于这个问题,论文从简约性原则出发,将“最大化简约性”目标函数的优化过程等同于神经网络的构建过程(即每产生一步迭代,对应人为搭建一层神经网络),从而构建一类可解释的深度神经网络(如ReduNet)。因此,这类网络在每一层的优化都是显式、可解释的,网络的所有层次结构、算子、以及算子的参数值都能利用前向传播算法显式地构造得出,而无需反向传播算法进行学习。这类网络在表达能力、优化动力学上自然也有更清晰、明确的意义。因此,论文对可解释“白盒”网络的构建是非常有意义的一次尝试。它也将我们的研究目光更多引向这个重要也富有挑战性的方向。
另外,巧合的一点是,这类依据简约性原则构建的深度神经网络,与传统深度学习中多种经典、久经考验的网络架构十分相似,例如ResNet、ResNeXT、Transformer等。这种相似性或许暗示简约性与这几类神经网络机理的一致性。尽管目前还缺少进一步验证,但也为我们理解这些神经网络的内在机理提供了新视角。
然而,仅有简约性尚不能保证学习的高效性。智能系统的学习应该同时具备自洽性,能从压缩表示中重新生成观测数据的分布。论文指出,简约性与自洽性这两个原则是高度互补的,应配合使用。基于此,提出一个人工智能的闭环系统:
系统中的编码器对应简约性原则,用于学习压缩表示,而系统中的解码器则对应自洽性原则,用于最小化表示空间中的预测误差。在这一闭环系统中,论文将学习目标设置为同时优化简约性和自洽性。文章阐明,从博弈论角度来看,这种最优的“简约”和“自洽”恰好可以解释为编码器和解码器之间零和博弈的平衡点。
综上,从深度学习发展进程看,我们认为这篇论文是关键一环。提出一个建模机制和优化机制相对干净的深度模型,为深度学习的发展拓展了新的可能性。因此,我们大力推荐这篇文章。我们相信,随着深度学习的发展,我们有望在不远的将来彻底解释深度模型,真正实现理论驱动的深度网络结构设计和优化。
路漫漫其修远兮,吾辈上下而求索。
[1] A General Taylor Framework for Unifying and Revisiting Attribution Methods. arXiv: 2105.13841, 2022.
[2] Why Adversarial Training of ReLU Networks is Difficult? arXiv:2205.15130, 2022.
[3] Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability. arXiv:2207.11694, 2022.
[4] A Unified Approach to Interpreting and Boosting Adversarial Transferability. ICLR 2021.
【作者简介】
邓辉琦,上海交通大学张拳石副教授团队博士后研究员。研究兴趣聚焦可信机器学习,尤其是神经网络的可解释性与安全性等。2021年于中山大学数学学院获博士学位,博士期间曾于香港浸会大学和美国德州农工大学访问学习3年。近3年内,在ICLR、AAAI、KDD、Pattern Recognition等顶级会议和期刊上发表论文多篇,其中ICLR论文受邀做大会口头报告(top 1.5%)。
---------------------------------------------------
【马毅、曹颖、沈向洋3位知名学者联袂在FITEE发表position paper“On the principles of Parsimony and Self-consistency for the emergence of intelligence”,提出智能系统两大理想原则——简约性与自洽性,分别回答人工智能“学什么”“如何学”两大根本问题。本文已在线出版,详见https://doi.org/10.1631/FITEE.2200297。】
论智能起源中的简约与自洽原则
马毅1,曹颖2,沈向洋3
1加州大学伯克利分校电子工程与计算机系,美国加利福尼亚州,94720
2加州大学伯克利分校分子与细胞生物系,霍华德·休斯医学研究所,美国加利福尼亚州,94720
3粤港澳大湾区数字经济研究院,中国深圳市,518045
摘要:深度学习重振人工智能10年后的今天,我们提出一个理论框架来帮助理解深度神经网络在整个智能系统里面扮演的角色。我们引入两个基本原则:简约与自洽;分别解释智能系统要学习什么以及如何学习。我们认为这两个原则是人工智能和自然智能之所以产生和发展的基石。虽然这两个原则的雏形早已出现在前人的经典工作里,但是我们对这些原则的重新表述使得它们变得可以精准度量与计算。确切地说,简约与自洽这两个原则能自然地演绎出一个高效计算框架:压缩闭环转录。这个框架统一并解释了现代深度神经网络以及众多人工智能实践的演变和进化。尽管本文主要用视觉数据建模作为例子,我们相信这两个原则将会有助于统一对各种自动智能系统的理解,并且提供一个帮助理解大脑工作机理的框架。
关键词:智能;简约;自洽;编码率减少;深度网络;闭环转录
Yi MA, Doris Tsao,Heung-Yeung Shum, 2022. On the principles of Parsimony and Self-consistency for the emergence of intelligence. Frontiers of Information Technology & Electronic Engineering, early access. https://doi.org/10.1631/FITEE.2200297
关于FITEE
Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子2.526,位于JCR Q2分区。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城。实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。
2019年,荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(梯队期刊)。2021~2022年,先后入选信息通信领域(中国通信学会组织评选)和计算领域(中国计算机学会组织评选)高质量科技期刊分级目录,均被列为最高的T1级别。
期刊官网:
http://www.jzus.zju.edu.cn
Springer主页:
http://www.springer.com/computer/journal/11714
在线投稿:
http://www.editorialmanager.com/zusc
更多精彩内容,请关注“信息与电子工程前沿FITEE”(fitee_cae)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 17:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社