|||
我们对世界的认知,对智慧的了解,一直摇摆在感性和理性的不同主导中。这不仅反映在艺术与科学的不同,传统思维和现代文化的冲突,人文主义和理性思考的矛盾上,即使在人工智能研究的几十年发展史上,也反映在符号主义和联接主义不同发展路线的竞争上。
在今日大数据热潮中,重新焕发青春的神经网络,模式识别,机器学习和人工智能,都始于20世纪50年代。1957年美国海军研究室Frank Rosenblatt,提出了一种模拟神经元的感知,有识别智能的数学模型——Perceptron。这个能够在线学习,具有图像识别功能的原型,在计算机模拟试验后,其硬件的实现,Mark 1 Perceptron,由400个光学传感器,用变阻器作为电导的权重,随机连接到一组“神经元”而成。这里每个神经元电路对应于一个视觉的判断,神经元汇合传感来的电流,以是否超过域值来输出逻辑判断。它是可以通过样本来学习的,在训练中根据误差的反馈,用马达调节变阻器来改变神经元中联接的权重。这是只有输入输出无隐含层的人工神经元网络。当它连接有n个传感器的输入,每个神经元在数学上,实现了以一个n维空间的超平面,来区分样本点的数学模型。其学习的过程是用迭代的算法,调节这个超平面的参数,使得它对样本区分的误差为最小。这实际上也是一种统计分类,其收敛的算法,成为模式识别中线性分类法基础。这也是认知、心理和智能研究上联结主义的开端。
在1958年由美国海军组织的发布会上,Rosenblatt公布了这个研究,在当时还是雏形的人工智能社区引发了热烈讨论和广泛联想。《纽约时报》报道说:“Perceptron将会是能够行走,会交谈,有视觉,能写作,自我繁殖,感知自身存在的电脑胚胎。”这种智能基于感知和联想,对输入的数据学习分类和类比判断,是在模拟动物的本能和应用经验的方式。
随后的年间,人们很快发现了它的局限性。对于许多模式,Perceptron并不能通过训练来分辨,比如说,在二维平面1,3象限上同属一类的点与2,4象限上属另一类的点,无法用一条直线来划分,这意味着Perceptron不能识别XOR逻辑的模式。研究的热情在失望中消退。1969年,当时AI界的领军人物Marvin Minsky 和 Seymour Papert 在《Perceptrons》书中总结说:Perceptron神经网络只能区分线性可分的模式,它甚至不可能学习简单的XOR逻辑。尽管他们知道,这对多层网络并非如此,其后也有人发表了多层网络的XOR逻辑实现的研究,但人们对AI的研究已被新的方向所吸引,Perceptron已是昨日黄花,大家都认为Minsky权威的论断,已经终结了人工神经元网络的前途。不幸地让这方向的研究停滞了十几年,AI由此转入研究用逻辑的方法,搜索推理知识的轨道。
其实早在Perceptron之前,人们就开始探索采用机械化的方式,代替人类理性推想的可能性。笛卡尔希望把一切问题变为数学问题,用解析几何把几何问题化成代数问题。莱布尼茨开始研究符号思维,形式逻辑。希尔伯特设想建立一个公理化的体系,把一切数学问题,变成可以采用机械化的方式,进行形式逻辑推理。虽然哥德尔证明了这总体上是不可能的。但许多定理的机械化证明,不仅是可能的还是可行的。王浩在这方面做了先驱性的工作,1959年他用IBM 704型计算机上证明了罗素与怀特海《数学原理》中几百条有关命题逻辑的定理。吴文俊把几何命题转换成多项式,根据“多元多项式环中的理想都是有限生成的”,把几何证明问题变成计算机判定理想成员的运算。吴方法目前仍是机器证明研究的高峰。这些数学家的工作,只把计算机当作机械运算的工具,不认为有什么智能。AI这词是在Perceptron热潮中,研究社区的群体叫出来的。机器证明到了后来,因为专家系统才被宗为AI中符号主义的先驱。它实现的是人类逻辑推理的智能。
Feigenbaum的DENDRAL专家系统和指导性的论文,正值人们对Perceptron失望之时,沿符号主义的思路出现。它根据给定的有机化合物分子式和质谱图数据,在保存有化学和质谱仪知识的数据库中,用逻辑推理的方法,从几千种可能组合中挑选出正确的分子结构。这是个能产生高端实用价值的计算机新用法。人们憬然而悟,为什么我们不参考理性人思考的方式,直接从成熟的知识系统中,用逻辑来猜测搜索求解?几百年发展的科学研究知识已是一个巨大的宝藏,科学用因果关系,构造了一个可以理解的世界模型,以此发现了许多的规律,作为站在智慧高端的人类,我们不必再模仿生物的低级智能了,只要模仿人类的理性,以谓词逻辑的运算和启发式的搜寻,就有了高级的智慧。如同机械放大了人力,我们可以用计算机来提高推理能力!这个基于科学推理和知识系统的计算主义智能研究路线,使得专家系统在70和80年代成为人工智能的代名词。人们相信,实现具有人类智慧的机器,只是一个工程问题了。1981年,日本投入了大量的资金,开始了雄心勃勃第五代计算机的研究。然而在专家系统长达十几年探索中,人们认识到有两个根本的问题绕不过去。一是互动(interaction)问题,专家系统只能模拟人类深思熟虑的理性,对于机器人最需要的是感知、移动、互动,而不是人类最无趣的抽象思维技能。二是放大(scaling up)问题,想象中无限美好的前景,只限于较窄一类问题的专家咨询,或小尺寸游戏问题的演示;将这些证明过原理的设计应用在实践时,各种复杂因素产生了组合爆炸。人类瞬间都能做出的判断,例如识别人脸,穿过有家具的房间,对计算机都艰难无比。这让AI的主流研究在80年代,虽然有些商业应用,但思想上沉闷乏味,终于进入冬天。
科学研究的激情也如新颖时装的热潮,不同的思路总要等到主流新奇穷尽、精彩衰竭之后,才会引人注目。人们早就知道一个人工神经元(Perceptron),能在n维空间中确定一个超平面。不难证明两层的人工神经元网络,有能力进行任给的样本组分类,也可以实现输出输入任定的布尔值映射。这意味着任何分类和逻辑问题的答案,都可以通过网络中合适的联结权重来实现。关键是怎么通过样本的学习,自动地调节这些权重,来实现这个映射。这才是机器自己获得的,而不是设计者赋予的“智能”!
1982年,美国加州工学院物理学家J.J. Hopfield,在有隐含层的神经网络上,用Back Propagation算法完成了XOR逻辑的学习,他解释学习算法收敛性的物理类比,直观易懂,又欣起了联结主义智能的热浪。其实多层神经网络能够实现XOR逻辑,早在70年代就有研究论文,1974年Paul Werbos也已给出如何训练一般网络的BP学习算法,当时却无人重视。直到80年代,BP算法才被David Rumelhart,Geoffrey Hinton,Ronald Williams,David Parker,Yann LeCun重新发现。对具有可微的激励函数的多层神经网络,BP对各层的误差梯度有简单的链式法则,因此最快地缩小误差的迭代计算便是个学习过程。
单层的Perceptron,只能辨识线性可分的模式,在输入输出之外具有隐层(多层)的神经网络,理论上能够识别任给的模式和实现逻辑推断,BP算法奠定了它们学习算法的基础。经此突破后,得力于语音和手写体字的识别的市场需求和硬件支持成熟,90年代对人类智能模仿的研究,又回到以模式识别为主的路子上。但是BP算法虽然在理论上适用于任意多层的神经网络,其误差传播的梯度随着层数加多而弥散,对非凸目标函数容易陷入局部稳定平衡点而无法提高效益,或陷入“死记硬背”(Overfitting),只记住样本而不会类推的局面。所以对这算法真正有效的还只有浅层的网络。许多的研究集中在多层神经网络学习算法的改进上。几年间,类比于统计热力学模拟退火技术,用波耳兹曼模型说明趋于全局稳定的学习算法,模拟进化过程能迅速收敛的遗传算法等等纷现。但是从80年代起近二十年间,各种效率较高模式识别模型,如向量机,Boosting等也不过是与浅层神经网络相似的数学模型。
浅层的神经网络仅仅具有简单分类能力的低阶智能。模式辨识在技术上是用特征来分类的,通常依赖于人工选择辨识的特征。这对于复杂的情况,模糊的特征以及即时的需求有着极大的局限。而人类的大脑甚至动物的大脑都具有深层的网络结构,低层对感知的信号作出特征的抽象,高层对这些特征归纳再进一步抽象,逐层辨识抽象使得能够分析复杂的情况。学习的关键是如何将这深层的潜力变成功能。对深层神经网络的学习,在2006年Hinton等发表深度学习文章之前,都未能在理论上有突破。
每层神经元的映射也可以看成对输入属性的抽象。那么用某种反馈奖励机制的的方法来作预先学习,有可能在样本中自动地聚合出一些属性的抽象,而合适的抽象又能在后续样本训练中被强化,作为下一层模式识别所需要的特征。这作预习的前者是无监督学习(Unsupervised Learning),类比于人的智商悟性;有目标训练的后者称为监督学习,好比是上课学习。Hinton的创意是深信度网(Deep Belief Nets,简称DBN)的深度学习,在深层网络中逐层采用无监督的预先学习和随后的监督学习,来提高学习效率。这在语音识别上获得很大的成功。另一方面,动物脑子在出生之始,并非是同质通用的构造,其低层如视神经,听觉神经都有遗传而来的分化结构,早在60年代Hubel和Wiesel就发现猫脑皮层中其独特的网络结构可以有效地降低学习的复杂性,于是人们提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。具有局部联接和参数共享的卷积数学模型,含有较少的参数和位移,缩放扭曲等不变性,作为神经网络的低层很容易学习二维图像特征提取,可以用直接输入原始图像的监督训练,这种具有“先天”视觉低层结构的人工大脑很快地就在图像识别上放出异彩。
2014年Facebook,应用9层神经网络的深度学习方法,对人脸的识别率可达到97.25%,而在电话答复系统,iPad的Siri中,各种代替人力的语音辨识技术已被广泛地应用。机器在模拟视觉和听觉的辨识能力上已经非常接近于人类了。用人工智能技术创作的绘画和音乐作品,已经达到可以让人欣赏享受的水平了。
我们越来越难以理解其细节的机器智能在涌现,而我们能理解的世界必须有清晰的逻辑构造。
逻辑是用于形式语言精确交流的一种约定,逻辑和数学并不产生新的信息,不作任何(物理或其他科学的)新发现,它只是把已有的发现,做出新的表达,让你知道原来没理解到的部分。只不过,人类头脑是按照联想方式工作的,人们必须通过训练,才能充分运用逻辑和数学概念下的结果,所以科学需要用它,作为严谨表达和充分发掘拥有信息的工具。
客观世界并不是由逻辑驱动或构造的,它只因生物的智能而被感知。对智能而言,逻辑不过是一种对不同语句表达蕴含或否定等关系的辨识模式,生物对事物间的感知经验只有关联性(correlation),而因果性(causality)则是建立在逻辑基础上的推理模式,它被认定、传播和学习后,成为现在人类理性认知结构的基础,对世界的认识就变成逻辑推理的运算。科学建立在使用因果关系结构模式,对世界描绘的图谱上,而真实的世界不一定都能很好地纳入这个模式的描述。我们理解的世界只不过是用象征符号,依逻辑和谐构造出来的幻象,它忽略了无数不能纳入这个图像的事实,以及我们理解能力之外的因素。
实际上,我们对音乐的感受,艺术的领会,情感的交流,人性的共鸣,直觉和灵感,同样是一种智能的表现,同样在学习中进步,同样在生存竞争中扮演着重要的角色,而这些不能被象征符号充分表达,难以纳入理性认识的模式,被排斥在科学之外,过去都被人们忽视了。
联结主义智能机器的到来,我们面临着一个渐渐难以理解的新世界。过去符号主义的AI只是帮助人类逻辑推理的忠实劳工,无论是机器证明还是专家系统,计算机只是严格按照设计者给定的规则,对人类的知识进行逻辑运算,不会产生逻辑之外的新结果,一切的举动和结果都在人类可以理解和希望的范畴。所以过去科幻谈到机器人的自我觉醒,都要借助于无法理解其机制的短路来实现。而联接主义的AI,其智能是由海量的联结参数决定的,这些联结参数不是设计者赋予的,而是通过对样本(数据)的学习自动调整形成的。
现在商业应用的人工神经网络的参数已经高达百亿数量级,拆开硬件,企图分析这些联结的数据来了解机器的功能,在原理上很简单,效用上很有限。就像我们通过核磁共振,查出某一活动的兴奋在人脑哪个区域,可以了解其功能区的拓扑,但想进一步通过分析几万个神经联接,推测他下一步要做什么是不可能的,海量参数的联结主义机器,也将有这样实践上莫测的“自由意志”。而这样的智能机器已经在我们的商业中,参与人类的日常活动,只是与我们综合智能相比现在还像雨人那样幼稚,但其智能与日俱增。我们将舒适地享受,越来越无法理解其所以然的技术服务。
互联网海量的数据,强大的并行计算能力,大量商机的即时应用需求,呼唤着大数据时代的到来,推动着工程师寻找新技术,技术渴望着智能研究的支持。传统科学那种从统计数据,总结规律,逻辑分析,先了解“为什么”,再得出“是什么”的理性方法,已经不敷这多变,复杂,即时的应用了。市场需要类似于动物的本能,基于经验及时反应的智能,现在大数据深度学习的智能,深植在联结主义模式识别和分布式计算的方向上。人工智能在大数据时代从理性科学方法,转向直接从数据中在线学习模式反应的“感性”方法。我们的工程师也已经成为这个联结网络庞大机器中的一环,以仅仅部分理解和猜测的方式,为机器涌现出来的智能工作。这让我们反思。人类能够坚持我们骄傲的理性掌控这世界吗?为什么不改变自己与其共进?
现在机器智能的进化,也许也正引导着人类思想模式的改变。
【说明】此文是我已发表在《中国计算机学会通讯》(P50,114期,2015年8月)有关深度学习的专栏文章“智能的进化与博弈”的部分内容。这里略有补充修改。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 01:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社