||
在人工智能第三波热潮中,深度学习的端到端理念被广泛采用,在后续研究中还有什么方向值得去尝试呢?
从端到端到平行智能 -----人工智能前瞻
张军平、陈德旺
如果把人工智能的终极目标看成是模仿人类的大脑,那么神经网络研究的兴衰,至少在目前来看,就几乎等同于人工智能的大半个发展史。
一、现在:端到端
从20世纪中叶人工智能界的先驱McColluch和Pitts发现了神经元的“兴奋”、“抑制”算起,到1956年Rosenblatt提出感知机模型,可称其为盛世,再到Marvin Minsky (马尔文 明斯基)1969年出版的Perceptron引发的衰败,算是第一次高潮。这轮高潮主要是学术圈的自嗨。
从1986年Remulhart反向传播(BP)的提出,到1989年Hornik和Cybenko等万能近似定理(universal approximation theorem)的推出,到各种较深层的非线性神经网络的流行,再到1995的统计学习理论开始一统江山。BP算法被认为只是把大家的视野又重新吸引回神经网络,算是人工智能的第二次高潮。这仍是以学术圈的自娱自乐为主。
从2006年Geoffrey Hinton首次在《Science》杂志上发表深度伯兹曼机模型、研究者对神经网络的十年怕井绳的观望心态,到2012年深度模型AlexNet首次在ImageNet大规模图像识别竞赛中大获全胜,再到各类考虑深度、宽度、多尺度、多模态、对抗、自编码、注意力的深度模型的提出。学术圈和产业界都进入了深度狂欢状态,这是第三波高潮。虽然在技术层面,并没有非常明显的理论上的突破,更多的是由于大数据或数据增广带来的模型描述能力以及硬件GPU算力的提升。虽然,因为前二次热潮的教训,相关人员都清楚过度吹嘘人工智能前景可能带来的风险。但是,人在江湖,身不由已。学者、学生、资金都已经前赴后继地投身到人工智能产业化的道路上,希望能抢先一步能形成垄断优势、行业壁垒。最好能成江湖三足鼎立之势,再谋独孤求败之实。各大人工智能公司开出的诱人高薪真应了那句话“21世纪什么最重要,人才!”
这一波热潮中,人才的背后其实是端到端的概念在支撑着。一如人工智能上一波低潮时,但凡提到自己是做“神经”,就容易发生类似于基金项目直接被枪毙、被鄙视为缺乏统计意义等各种杯具一样。现下如果不提到“端到端 ”,就很难让神经网络占了大半壁江山的科研人员认可你成果的意义了。端到端也成了近几年人工智能最时髦的名词。
一方面,端到端确实解决了一个大的问题,即对领域知识的掌握程度。以往在不同领域的应用,必须有专业的人员参与。而端到端的模式,将这些知识的学习都化归为网络权值的自学习,从而大幅度减少了对专业知识的依赖。直接后果就是产业界和学术界的同化现象。我在之前写的文章中“童话(同化)世界的人工智能”中分析过这一现象。
可是,端到端的设计理念也引来了不少的吐槽,比如模型的可推广性问题、以及对人类强人工智能的不可企及问题等。
人们也在思考,如果要延续这一拨热潮,得敢问路在何方呢?仍然是迷一般的、人类的思维该如何引入呢?除了端到端,还有什么方向值得去尝试呢?不妨回头看下大约在第二波人工智能热潮时期甚至更早期的一些大家的思考。
二、过去:思维科学
谈到思维,不妨先想想我们认人的习惯。当人在远处时,有多少人是先看人脸的呢?尤其在距离非常远的时候。对于熟悉的人,我们实际上会很自然地可以根据他或她走路的轮廓变化来判断。这与多数深度学习看重非常精细的特征是不同的,是一种整体认知的方式。
图 1 步态轮廓图
研究人类整体认知行为的理论和方法都挺多的,比如格式塔心理学、比如中科院心理所的陈霖院士提到的大范围优先理论,甚至中国的阴阳八卦、易经中多少也包含了这样的思想。据我所知,以阴阳八卦来研究的有香港中文大学的徐雷教授,基于易经研究的有IEEE Fellow、澳门大学的讲座教授陈俊龙。不过,整体认知有个比较普通、难以克服的问题,就是如何量化、程序化。
除了整体论的思考外,90年代初期钱学森院士曾指出,要研究人的智能,也许可以从逻辑、形象、创造这三个递进的层次去着手研究思维科学(Noetic Science)。他认为通过思维科学中的递进性的研究,有可能实现20世纪初期哲学家怀海德在与其学生罗素合著书籍《数学原理》中的思想。后来怀海德又将其思想进一步升华,提出了“过程哲学”观点。在1929年出版的、著名的形成上学书籍或“过程哲学”经典书籍《Process and Reality》(过程与实在)中,怀海德曾指出,人的认知、社会的认知最终可以上升到一种自我成长、自我成熟的阶段,正如现在的宇宙演化。在这一“过程”思想中,他将哲学的考虑转到对科学与技术的考虑上, 提出了虚实共存形成过程的概念。换句话说,就是虚实平行,永恒的不断纠缠、不断演绎的过程,而算法的实现就可以考虑平行智能体系。
图2: 左:《过程与实在》(怀海德); 右:《哥德尔-逻辑的生活》(John L. CASTI, Werner DePauli)
在思维科学的研究中,还有一位西方的智者也必须提一下,那就是哥德尔。他最著名的是打破了早期“怀海德思想”的、为人工智能奠定基础的“哥德尔不完备定理”。简单来说,就是没有一个定理是完备的,不能证明其为真,也不能证明为伪。这个定理写得非常的聪明,因为你说它不完备,那它就是对的;如果你说它是完备的,那也表明了他是对的。和他这个定理类似的还有波普的科学证伪理解。他从另一个侧面说明了,能称之为科学的东西必然是存在解释不了的现象。否则就是伪科学。
除了这不完备定理,哥德尔在晚年一直想证明更为“广义的不完备定理”,即他认为要么人类是能超过所有计算机的、要么数学不可能是由人类创造的,要么两者都成立。后来他将注意力集中到第一条。
他认为在人类思维超越计算机这事上,存在两个可以比较的不等式;最高的是想象智能,这一智能只有部分可以通过语言的形成表达,即想象智能大于语言智能;而在现有的计算机体系结构上,又只有部分的语言智能能够通过算法呈现,即语言智能大于算法智能。比较巧的是,我国哲学家老子写的《道德经》中“道、可道、非常道” 似乎也表达了同样的哲理;“道”是敢干,是创业的基础,是算法智能;“可道”是敢说,是创新的基础,是语言智能;“非常道”是敢想,是革命的基础,也是想象智能。
�
图3:左:道德经; 右:钱学森书摘录
钱学森在 1995年指出,逻辑智能是机器可以完全完成的,比如吴文俊的机器证明便是如此。后两者则需要人或完全只能人来完成。但它们的提升都不开信息网络的支持。不仅如此,爱因斯坦也表达过他对智能观的认识,认为“智能的真正标识不是知识,而而是想象”。
时间飞快,从钱学森提出思维科学已经过了近三十年,从怀海德的过程哲学理念甚至已经提出了一百多年了。在人工智能如此热火的今天,有没有可能基于现在的软硬件条件来部分实现他们的观点呢?
三、未来:平行?
回顾怀海德提出过程哲学的历史,可以发现其主要出发点是来源于20世纪初物理学界的两朵乌云所导致的牛顿经典力学的颠覆。那么,在数据世界、在人工智能领域,会不会发生类似的情况呢?我们来做些分析和比较。
在百年前完全没见过大数据的时代,人们分析世界、观察世界往往是基于很少甚至个例的样本集,但却能形成非常重要的普适定律、大定律。比如牛顿被掉下的苹果砸出的万有引力定律。虽然只是科学史上的传奇故事,但多少也反映了数据量并不需要太多。当然以当时的情况,也无法获取多少。
图4:牛顿、苹果、万有引力
随着时代的变迁,数据的规模也在不断增加,于是我们发现世界的发展变得不再像牛顿物理学时代那么确定了。再也无法出现阿基米德所说的,给个杠杆,就能把地球撬起来的情况了。世界的不确定性在增加,要模拟真实世界的变化也变得有些代沟了。
到了21世纪,随着采集设备的廉价化,数据也因此能相当方便和便宜的获取。丰富的数据也使得模型刻画世界的不确定性,从certainty变到probable,再变到了现在的possible。而在深度学习与大数据的双重推动下,我们可以看到在人工智能及相关研究领域呈现了一个非常明显的特点,就是大数据、小规律。
深度学习的模型在特定问题的预测优异性,较传统学习方面很明显,但往往在参数寻优收敛后,就只适用于模型训练所对应的特定问题,而不具备推广性。究其原因,我在“深度学习,你就是116岁的长寿老奶奶”和“童话(同化)世界的人工智能”中有过探讨。从某种意义来看,这一现象也正是大数据、小规律的表现。
图5:小数据大定律 vs 大数据小定律
另外,现今人工智能的发展趋势与一位经济学家默顿·米勒的观点也很契合,即默顿定律(Merton Laws)。该定律认为,人最理想的情况是自我预言,自我实习。举个不恰当的例子,据说杨振宁约12岁的时候,就喜欢看很多物理学方面的书籍。有次在上学的时候,他从艾迪顿的《神秘的宇宙》里看到了一些新的物理学现象与理论,便表现了极大的兴趣。回家后就跟父母开玩笑说,将来要拿诺贝尔奖。结果梦想真的实现了。这就是默顿定律的体现,是一种自我预言、自我激励、自我实现。另外,默顿定律里还有一个重要的观点,即人必须参与到循环中,机器智能与人类智能协同、混合。
那我们在大数据环境下,其实也可以看到这样一种可能,即大数据背景下的默顿定律,或者说通过大数据来将模型世界封闭,形成对实际世界的逼近,从而可以完成对无穷多小规律的生成演绎。
要实现这样的封闭,最直接的策略就是利用大数据来建立一个与实际社会平行的人工社会,从而填补模型世界与实际世界的代沟。 这样的系统构造模型与两位管理学大家的想法是一致的。一位是Deming, 他曾说过“非上帝不信,非数据不认”的名言。他认为现今人类的决策有85%是不合理的,因为缺乏数据。如果数据充分,那计算对世界的指导将会有三个递进的层次:描述、预测和引导,分别对应于以数据来说话、预测未来、引导未来。而Drucker则认为“最好的预测世界的方式就是创造它”。那么,通过生成大量数据来建立平行系统,正吻合了这两位的观点。
不过,要让两者得到有机的混合,实现两位大家的思想,还得再构造三套额外的系统来支撑。一套用于管理和控制虚实之间的差异,一套用于实验与评估虚实之间的差异系统,一套用于学习和训练虚实系统。 这样,就形成了平行系统或平行智能的基本框架。
图6: 平行智能的框架
大致来说,这套平行系统可以利用数据驱动来实现描述性的计算,利用预测和分析实现预测式计算,利用引导式计算来引导未来。对应三个子系统,我们可以构造人工社会(A)来实现描述性计算,通过计算实验(C)来预测分析,并构造平行执行(P)来学习和自适应。并在信息化、自动化、智能化的驱动下,形成具有敏捷性、可聚焦特定小规律、易于发现规律能收敛的人在回路的混合系统。最终实现Deming所想要达到的目标,即描述智能、预测智能和引导智能,也就可以将钱学森想刻画的递进思维科学、甚至《道德经》中的道、可道、非常道进行完美呈现。
图7:描述、预测与引导智能
有没有人想过呢?王飞跃教授在2004年就有过这样的思想,并提出了基本的框架。而LeCun Yan在2016年预测学习(Predictive Learning)的报告中,也提到了引入人工环境的想法。另外,关于如何实现构造复杂大世界,Ian GoodFellow2014年提出的生成式对抗网事实上已经是这么处理。它正是在一个封闭的网络中,通过判别器和生成器的反复对抗,来不断地自我预言、自我完善、自我实现中。
图8:左:Lecun Yan的平行观; 右: Ian GoodFellow的数据虚拟生成对抗
Lecun Yan和Ian GoodFellow提供了一个可实现的渠道。那还有其他可行的方案吗?基于现在环境,我们推测有几种可能。一是建立虚拟环境,这一环境的建立可以考虑基于现在成熟的游戏引擎来构造,也可以考虑虚拟现实技术;二是混合,目前有的增强现实技术,可以认为是人机混合的一种方式,在此基础上再构造人工社会,那会就可以形成混合的闭环境。数据、平行、混合,在这一平行系统中,有可能过程哲学一样,系统能自我预言,自我成长,自我完美。也就可能实现从最初的牛顿定律向默顿定律的突破,从UDC(不确定性、多样性、复杂性)到AFC(灵活性、聚焦性、收敛性)的突破,为今后能发现超越深度学习的小规律作更强的准备。
图9:左:从UDC到AFC; 右:实际系统与人工系统
这一方法也不是在分布式系统中常采用的分治,因为它意味着要将复杂数据简单化和分拆。平行智能则不同,是希望在实际系统的基础上引入大量虚拟系统,实现对混合系统的复杂化,这样才有可能在理论上保证默顿定律的有效和可实现。在此基础上,将波普尔(Karl Popper)认为的三重世界 --- 物理世界、心理世界、人工世界 --- 通过物理空间和网络空间虚实混合,将人在回路的混合智能有机地体现在社会物理网络系统(CPSS)中,并通过ACP的平行认知系统来实现。
图10:复杂系统的分治(并行) vs 平行
图11 社会物理网络系统与平行认知系统
事实上,我们现在已经在一些系统上能看到这一框架的端倪。比如AlphaGo的围棋系统,一方面,他目前的战绩对人类是接近全胜,另一方面,你还能从中看到另一层信息,即他正通过巨量虚拟数据的训练来获得少量的规律。这些规律突破了围棋界近300年的既成棋谱,也让很多高段位棋手开始重新思考围棋的下法,甚至开始采用AlphaGo、AllphaZero归纳出来的少量规律来下棋。而这些策略其实和我们上面提到的大数据小定律的发展是吻合的。
图12:Alpha从大数据中获得的小规律
不过,我们还得自问一句,平行智能能实现吗?我觉得有可能,但一定有山一般的难题在等着解决,比如复杂系统中的协调问题、实验评估问题等。不过鲁迅也说过“世界上本来没有路,走的人多了,也就变成了路”。
张军平
2018年9月13日
后记:2018年9月7日到9日,中国自动化学会混合增强智能专委会在西安交通大学举办了首届混合增强智能讲习班,主题是“人在回路的混合智能”。讲习班邀请 了11位国内在混合智能方面的著名专家。其中王飞跃教授安排在9月9日上午,做平行智能方面的报告。比较遗憾的是,教授讲习班开班日感冒,嗓子完全不能发声,便委托我来代讲。我虽然听过好几次教授的报告,但毕竟台上台下是不一样的,始终是一知半解。所以,晚上便和王教授以前的博士生、也是我的同学 --- 福州大学的陈德旺教授,一起分析和解读了教授发过来的PPT内容。因为怕讲不好,我便结合了我自己的研究方向,改题目为“从端到端到平行”来讲了。本文是根据报告内容整理后的文章。
算下来,好象有很长时间没跟德旺合作写文章了。我记得第一面见他的时候,是在中科院自动化所博士入学考试的时候。他年轻,一幅挺不可一世的样子。不过后来入学后,住同一层久了,大家熟悉了,就玩得开了。有过一次,他跑我寝室,两人一起唱歌,结果他的歌声让走廊对面的同学出离愤怒,过来敲门抗议了。再后来,我发现高维非线性数据降维问题很有意思,而交通方面也没有相关的研究。王教授听说了,便鼓励我和德旺一起合作,最后形成了流形学习(Manifold Learning)在智能交通的第一篇应用文章(Chen et al., 2004),是基于一维流形、即主曲线来分析交通流问题。毕业后,虽然各奔东西,不过合作的文章还是有一些(附于后,算是纪念)。2010年的时候,我在北京见过王教授一面,两人一起在北京王府井的一个店吃了顿饭。教授跟我说,数据驱动的智能交通应该是未来的发展方向,建议我写一篇综述。我爽快地答应了,然后花了至少十个月的时间完成了这项工作(Zhang et al, 2011)。认真的事呢,总是有好的回报的,这篇文章现在是ESI高倍引。后来有回我还跟教授说过,如果当时在“Data-Driven”前加个Big,说不定会更受重视,因为论文发表后,大数据的热潮就兴起了。
参考文献:
1. Junping Zhang, Fei-Yue Wang, Kunfeng Wang, Wei-Hua Lin, Xin Xu, Cheng Chen, "Data-Driven Intelligent Transportation Systems: A Survey," IEEE Transactions on Intelligent Transportation Systems, vol. 12, no. 4, pp. 1624-1639, 2011.
2. Junping Zhang, Xiaodan Wang, Uwe Kruger, Fei-Yue Wang, "Principal Curve Algorithms for Partitioning High-Dimensional Data Spaces," IEEE Transactions on Neural Networks, vol. 22, no. 3, pp. 367-380, 2011.
3. Junping Zhang, Uwe Kruger, Xiaodan Wang, Dewang Chen, "A Riemannian Distance Approach for Constructing Principal Curves," International Journal of Neural Systems, vol. 20, no. 3, pp. 209-218, 2010.
4. Junping Zhang, Dewang Chen, Uwe Kruger, "Adaptive Constraint K-segment Principal Curves For Intelligent Transportation Systems," IEEE Transactions on Intelligent Transportation Systems, vol. 9, no. 4, pp. 666-677, 2008.
5. Dewang Chen, Junping Zhang, Shuming Tang, Jue Wang, "Freeway Traffic Stream Modelling based on Principal Curves and its Analysis," IEEE Transactions on Intelligent Transportation Systems, vol. 5, no. 4, pp: 246-258, 2004.
延伸阅读:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 06:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社