xianchaozhang的个人博客分享 http://blog.sciencenet.cn/u/xianchaozhang

博文

深度学习起源翻译2

已有 2500 次阅读 2017-5-11 16:47 |系统分类:论文交流

2 从亚里士多德到现代人工神经网络 对深度学习和人工神经网络的研究,源自于我们想要建造一个能模拟人类大脑的计算机系统的追求。为了建造一个这样的系统,需要理解人类的认知系统的功能。因此,本文追溯到尝试对大脑进行理解的起源,并开始对公元前300年的亚里士多德的联想主义进行讨论。 2.1 联想主义 “我们在回忆时,就在经历先前的某种刺激,直到最后我们经历了这一刺激,在它之后惯常所产生的即是我们所需要的刺激。这就是为什么我们要按顺序跟踪线索的原因,而在思想中则由现在发出,或者从某个其他的概念出发,或者从我们所需要的东西相同或相反或联系紧密的事物出发。回忆是怎样发生的,其原因也就在此;由于从这些经验而来的刺激有时与我们所需要的刺激相同,有时是与我们所需要的刺激同时发生,有时则构成它们的一个部分,所以,在此之后我们所经历的剩余部分就要相对小一些。” 亚里士多德的这段非凡的话被视为联想主义的起点[Burnham, 1888]。联想主义是一个理论学说,认为在一个有组织的概念元素的集合中,思想是将元素组织起来的关联。受柏拉图启发,亚里士多德验证了记忆和回忆的过程,并提出了四条联想定律[Boeree,2000]: •近邻律:在时间或空间上接近的事物或事件易在头脑中引发联想。 •不可分律:两个事件同时发生的次数与这两个事件之间的联想强度成比例。 •相似律:对一个事件的思考往往会引发对类似事件的思考。 •对比律:对一个事件的思考往往会引发对对立事件的思考。 当时,亚里士多德认为我们的大脑会将这些定律视为常识来执行。例如,作为常识,一个苹果的触感,气味,味道就会自然地让我们产生苹果的概念。这些2000年前提出的定律依然作为现代机器学习方法的基本假设,这是一件很令人惊讶的事。再例如,一些彼此接近(在界定的距离内)的样本可以被聚合为一组;总是和响应变量同时出现的解释变量将在模型引起更多的关注;相似或相异的数据通常用潜在空间中更加相似或更加相异的嵌入来表示。 与此同时,Zeno of Citium,、Epicurus an和 St Augustine of Hippo也提出了相似的定律。联想主义理论后来被各种各样的哲学家和心理学家发展壮大。Thomas Hobbes(1588-1679)提出复杂经验是简单经验的结合,是感知的结合。他还认为这种的结合通过用连贯性和频率表示它的强度系数而体现。与此同时,John Locke(1632-1704)引入“想法的连接”的概念,他还区分了感觉引发的想法和反思引发的想法的概念,并且他指出复杂的想法可以源自两个简单想法的组合。后来,David Hume(1711-1776)将亚里士多德的四条定律缩减为三条:近似律(相似律),接近律和因果律。他认为无论世界中存在什么样的相关性,都是这三个定律的作用结果。Dugald Stewart(1853-1828)为这三个定律补充了一些其他的原则,包括一个显而易见的原则:单词发音的偶然性重合。Thomas Reid(1710-1796)认为不能以大脑原始的特质来解释自发式的反复思考,而更可能是习惯所致。Jams Mill(1773-1836)强调不可分律是学习的关键,这和之后的研究结果十分相似。 David Hartley(1705-1757),作为一名医生,被认为是使联想主义变得流行的人[Hartley,2013]。除了现有的定律,他还提出他的想法:记忆可以像最初的感知经验一样,在大脑的同一区域内以小规模波动的方式传递。这些波动可以连接起来表现出复杂的思想,因此它们也在意识流中充当原始基础的作用。这个想法潜在的启发了Hebbian学习规则,这将在下文中进行讨论,以对神经网络的基础进行铺垫。 2.2 Bain和神经群组 除了David Hartley之外,Alexander Bain(1818-1903)也对由Wilkes和Wade在1997年提出的Hebbain学习规则的基本构想做出贡献[Wilkes and Wade, 1997]。在其所著的书中,Bain(1873)将联想记忆的过程与神经群组(当时这个词用来代表神经网络)活动的分布联系起来。他提出了一个建设性的存储模式,可以组装所需要的东西,这与其他可选的包含预存储记忆的传统存储模式形成对比。 图1:神经群组示意图 [Bain, 1873] 为了进一步说明他的构想,Bain首先描述了当要存储多个关联时,允许神经群组起作用的计算弹性。在一些假设的前提下,Bain设法描述了一个与今天的神经网络高度相似的结构:个体细胞汇总了来自组内其他被选择进行连接的细胞的激励,如图1所示。a和c的联合激励触发X,b和c的激励触发Y,a和c的激励触发Z(此处按原文翻译,与图中表示不符)。在他最初的表述中,a、b、c代表激励,X和Y代表细胞的输出。 在确定了这种神经群组的联想结构如何起到记忆的作用后,Bain接着描述了这些结构的构造。他遵循联想主义的方向,提出神经分组的相关影响一定是在一段时间的接触之后产生的,可以是一次或者多次。 后来,Bain提出了神经群组的计算特点:通过改变介入的细胞质获得的经验,来决定连接是被加强还是被减弱。因此,这些回路的感应将被选择为相对较强或较弱。 在后面的章节我们将会看到,Hebb的假设和Bain的阐述十分的相似,尽管我们现在通常认为这些假设是Hebb而不是Bain提出的[Wilkes and Wade, 1997]。Bain的贡献被忽略很可能是由于Bain对自己的理论缺乏自信:最终,Bain还是没有坚信自己的想法,对神经分组的实用价值产生了怀疑。 2.3 Hebbia学习规则 Hebbian学习规则是以Donald O.Hebb (1904-1985)命名的,因为该规则是在Hebb在1954年写的中提出的。鉴于这项研究成果,Hebb也被视为神经网络之父[Didier and Bigand, 2011]。 在1949年,Hebb提出了他的著名理论:“同时工作的细胞,应该是被连接在一起的”,这句话强调了同时工作的细胞间的激活行为。他在书中更加明确的指出: “当细胞A的轴突足以接近以激发细胞B,并反复持续地对细胞B放电,一些生长过程或代谢变化将发生在某一个或这两个细胞内,以致A作为对B放电的细胞中的一个效率增加。” 这段古老的话可以用现代机器学习语言重写如下: (1) 这里的 是神经元 的突触的权重变化, 是神经元i的输入信号。 表示突触后面产生的响应, 表示学习率。换句话说,Hebbian学习规则说明了两个单元间的连接会随着两个单元同时出现的频率的增加而增强。 虽然Hebbian学习规则被认为是神经网络的基础,但是在今天看来,它的缺点也是显而易见的:当同时出现的次数增多时连接权重会持续增加,并使得处于主导地位的信号的权重呈指数形式增加。这一缺点被视为Hebbian学习规则的不稳定性[Principe et al., 1999]。幸运的是,这个问题并没有影响Hebb作为神经网络之父的地位。 2.4 Oja的规则和主成分分析 Erkki Oja对Hebbian学习规则做了补充以消除其不稳定的特点。他还提出:遵循这个更新规则,一个神经元会和主成分分析(PCA)表现出相近的行为[Oja, 1982]。 简言之,为了纠正Hebbian学习规则Oja引入了一个正则项,并且后来他也指出了他的学习规则仅仅是主成分分析的一个的联机更新。接下来,我们将详细介绍这个观点。 从等式(1)开始,沿用同样的符号,Oja指出: 这里的 代表迭代次数。为了避免权重激增的一种直接方式就是在每次迭代后采用归一化的方法处理数据,即: 这里的 代表神经元的数量。上面的等式可以进一步扩展成如下形式: 这里的 。此外,还引入了另外两个假设:1) 是很小的。因此 近似等于0。2)权重会被归一化,因此 。 将这两个假设带入先前的等式,Oja的规则可以表示成如下形式: (2) Oja进一步说明按照这样规则更新的神经元就是对数据进行有效的主成分分析的处理。为了说明这一点,Oja首先在这两个假设条件下将等式(2)修改成如下形式[Oja, 1982]: 这里的 是输入矩阵X的协方差。而后,在他的另一个研究中,Oja继续说明了与这个性质有关的许多结论[Oja and Karhunern, 1985],并根据以下事实与PCA产生关联:PCA的分量就是特征向量,并且第一分量就是协方差矩阵的最大的特征值所对应的特征向量。直观的说,我们可以用一个简单的解释来说明这个性质:当我们最大化规则中的更新函数时, 的特征向量就是所求的解。由于 就是 协方差矩阵的特征向量,我们可以将 看作PCA。 Oja的学习规则包含了早期阶段神经网络的学习规则的各个层面。现在我们继续讨论神经模型。 2.5 MCP神经模型 虽然Donald Hebb被视为神经网络之父,但是第一个神经元模型的诞生可以追溯到Hebbian学习规则发表前6年。当时神经学家Warren McCulloch和数学家Walter Pitts推测了神经元的内部工作机制,基于这些发现,他们用一个电路对原始的神经网络进行了建模[McCulloch and Pitts, 1943]。他们的模型就是MCP神经模型,它是一个对输入数据线性加权的线性阶跃函数,可以被描述为: 这里的 表示输出, 表示输入信号, 表示相应的权重, 表示抑制性输入。 表示阈值。设计这个函数是为了能够在任何时候都能使任意抑制性输入的行为能够完全的阻止神经元的激活。 尽管MCP神经模型和现代感知机有很多相似之处,但他们在很多方面仍然有着明显的不同: •MCP神经模型最初是作为一个电路而设计的。接下来我们将看到关于神经网络的研究借鉴了许多电路领域的思想。 •相比于现代感知机的可调整的权重,MCP神经网络的权重 是固定的。所有的权重一定要通过手工计算来设定。 •抑制性输入的想法在今天看也是相当超越常规的。对于现代的深度学习的研究,这一点可能是值得深入探索的。 2.6 感知机 随着MCP神经模型的成功,Frank Rosenblatt 于1958年引入感知机来进一步实体化Hebbian 学习规则[Rosenblatt, 1958]。不同于Hebb这样的理论学家对在自然环境中的生物系统的关注,Rosenblatt 构造了名为感知机的电子设备,该设备展示出具有根据联想主义学习的能力。 Rosenblatt在1958年从视觉系统的角度对感知机进行了介绍,如图2(a)所示。他提出了感知机的组织规则如下: * 对于用脉冲幅度和频率的方式来响应的感知单元视网膜而言,激励的影响正比于激励的强度。 * 刺激可以被传输到映射区域 。这个映射区域是灵活可变的。 * 接下来,刺激通过随机的连接传输到联想区域。如果刺激强度的加和等于或大于这个单元的阈值 ,那么这个单元就被激活。 * 响应单元与这些中间单元都以同样的方式运作。 (a)感知机组织结构示意图 (b)现代机器学习文献中典型的感知机结构图 [Rosenblatt, 1958] 图2:感知机:(a)Rosenblatt于1958年提出的感知机组织结构示意图。(b)现今的典型感知机结构图,这里 (映射区域)被省略了。(此处原文图片也不清晰) 图2(a)将Rosenblatt对感知机的解释加以描绘。从左到右,这4个单元分别是感知单元,映射单元,联想单元和响应单元。映射单元收到来自感知单元的信息,然后传递给联想单元。在其他相似模型中,这个单元经常被忽略。省略掉映射单元的结构与现代神经网络中的感知机的结构相似(如图2(b)所示):感知单元收集信息,联想单元将这些数据以不同的权重线性叠加,并对阈值的和进行非线性的变换,然后将结果传递给响应单元。 早期的神经模型和现代感知机之间的一个区别就在于非线性激活函数的引入(在图2(b)中我们使用的是sigmoid函数)。这个想法源于两个观点:一是Bose等人在1996年提出的:为了模拟生物神经网络,应该使线性阈值函数变得平滑 [Bose et al., 1996];二是Mitchell等人在1997年提出的考虑到计算的可行性,用连续函数来代替阶跃函数[Mitchell et al., 1997]。 在Rosenblatt提出感知机模型后,Widrow等人在1960年也引入了一个后续模型,称为ADALINE。然而,Rosenblatt的感知机和ADALINE的差别主要在于算法方面。由于本文关注的是神经网络的模型,所以我们跳过对ADALINE的讨论。 2.7 感知机的线性表示能力 从根本上讲,感知机是一个关于输入信号的线性函数,因此它能限制性的表示线性决策边界,像是逻辑操作的NOT,AND和OR,但是当决策边界的需求更加复杂时,如XOR则无法表示。在1969年,Minski和Papert强调了这一缺点,他们强调感知机不能表示像XOR和NXOR这样的函数并由此对感知机的局限性进行了抨击。结果直到19世纪80年代都很少有关于这个领域的研究。 图3:感知机的线性表示能力 为了展示一个更为具体的例子,我们引入一个只有两个输入 和 的线性感知机。因此,决策边界 在二维空间表现为一条线的形式。阈值大小的选择决定了这条线水平的偏移量,函数的符号会决定将线的一边作为函数所表示的半空间。这个半空间如图3(a)所示。 在图3(b)-(d)中,我们用两个节点a和b代表输入,同时取一个点表示两者都被触发时的状态值,取另一个点表示两者都没有被触发时的状态值。图3(b)和图3(c)清晰的展示出了一个带有两个输入的线性感知机可以用来描述AND操作和OR操作。然而,在图3(d)中,当我们想要执行XOR操作时,一个简单的线性决策边界表示则不再可行。 在下一章节,我们将说明:当我们把感知机结合在一起形成一个神经网络时,这种表示能力会被显著的提高。然而,当我们继续在一个神经网络上堆叠另一个神经网络构成深度学习模型时,表示能力不一定会增加。

https://blog.sciencenet.cn/blog-612724-1054376.html

上一篇:深度学习起源翻译0
下一篇:深度学习起源翻译4
收藏 IP: 175.171.179.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 21:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部