|
第八章 深度学习模型
8.1 深度学习AI
2012年6月,《纽约时报》披露了Google X实验室的“谷歌大脑”项目,研究人员随机提取了1000万个静态图像,将其输入谷歌大脑——由1.6万台电脑的处理器构成的多达10亿个连接的网络系统。这台人工神经网络,像一个蹒跚学步的孩子一样吸收信息,自主使用数据和计算资源,尽管在输入中没有包含任何像猫的名字、猫的标题、猫的类别等解释性信息,但这个机器通过3天无监督式学习模式后,自学成材完全凭自身判断准确识别了猫。
项目负责人之一Andrew称:“我们没有像通常做的那样自己框定边界,而是直接把海量数据投放到算法中,让数据自己说话,系统会自动从数据中学习。”另外一名负责人Jeff则说:“我们在训练的时候从来不会告诉机器说:‘这是一只猫。’系统其实是自己发明或者领悟了‘猫’的概念。”
谷歌大脑是人工智能的一个里程碑,其背后支撑的关键技术叫做‘深度学习’(Deep learning)。深度学习的灵感大多来自于大脑中紧密连接的神经元,通过改变模拟神经连接的强度来模拟人脑学习。
深度学习技术的关键点在于对特征属性进行多层次分类,然后复合各层次特征基。
以图像识别为例,不同层级的图像粒度,会体现不同的特征结构(feature)。图像粒度过小,比如一个像素点,看不出什么结构;而选取的基图像过大,又因为其结构过于复杂不适于作为特征基。【我们前面探讨过的有关亚马逊生态额例子,也面临同样的特征基选择的困难。如果特征基的粒度过小,比如选择氮磷钾元素作为生态系统的参照系坐标特征基(生物都是氮磷钾原子构成),分析会因为难以度量而变成泛泛之谈;如果特征基的粒度过大,比如选择熊群、树群整体作为特征基坐标轴,则熊和树将体现独立性,无法分解到共同特征函数,也就无法度量熊和树的子要素的相关性。】
所以,选择合适层级的特征粒度是第一步。那么什么是“合适层级的特征粒度”呢?如何选取“合适层级”呢? 这其实是非常困难的,但是‘深度学习’另辟蹊径,它不单选取某一层级特征,而是同时复合多个层级的特征属性。
首先,是找到相对底层特征结构;
然后,把下层特征基组合构造成上一层的特征基,依此扩充到多层级的特征构件,逐层初始化;
最后,把各个层次的特征基融为一体(特征属性复合乘积)。
1995年,Bruno Olshausen和 David Field 两位学者同时用生理学和计算机的手段,双管齐下,研究视觉问题。他们收集了很多黑白风景照片,从这些照片中,提取出400个小碎片,每个照片碎片的尺寸均为 16x16 像素,不妨把这400个碎片标记为 S[i], i = 0,.. 399。接下来,再从这些黑白风景照片中,随机提取另一个碎片,尺寸也是 16x16 像素,不妨把这个碎片标记为 T。他们提出的问题是,如何从这400个碎片中,选取一组碎片,S[k],作为基础。再通过叠加的办法,合成出一个新的碎片。而这个新的合成碎片,应当与随机选择的目标碎片 T,尽可能相似,同时,作为特征基的S[k] 的数量尽可能少。用数学的语言来描述,就是:
Sum_k (a[k] * S[k]) --> T, 其中 a[k] 是在叠加特征基碎片 S[k] 时的权重系数。
为解决这个问题,Bruno Olshausen和 David Field 发明了一个算法,稀疏编码(Sparse Coding)。稀疏编码是一个重复迭代的过程,每次迭代分两步:
1)选择一组基 S[k],然后调整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。
2)固定住 a[k],在 400 个碎片中,选择其它更合适的碎片基S’[k],替代原先的基 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T。
经过几次迭代后,最佳的特征基 S[k] 组合,被遴选出来了。令人惊奇的是,被选中的特征基 S[k],几乎都是照片上不同物体的边缘线,这些线段形状相似,区别在于方向。Bruno Olshausen和 David Field 的算法结果,与 David Hubel 和Torsten Wiesel 的生理发现(见下文),不谋而合!
也就是说,复杂图形,往往由一些基本结构组成。如上面图所示:一个图可以通过用64种正交的edges(边缘线)来线性表示。比如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献,因此均为0 。
小块的图形可以由基本edge构成,更结构化,更复杂的,具有更高概念性的图形如何表示呢?
这就需要更高层次的特征表示,比如V2、V4。这是层次递进的,高层表达由底层表达的组合而成。V1取提出的基是边缘;然后V2层基是V1层基的复合,是高一层的特征基。即上一层的特征基是下一层特征基复合的结果,再上上层又是上一层的复合特征基……这就是我门熟知的归纳总结的方法。由具体到抽象、再更进一步的抽象。而我们之所以非常熟悉这种逻辑抽象的层次,是因为人类大脑就是如是进行思维的。
1981 年的诺贝尔医学奖,颁发给了 David Hubel 和TorstenWiesel(就是上一段提到的两位生理学者),因为他们发现可视皮层是分级的。1958 年,这两个人研究瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。 然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。他们期望通过这个办法,让小猫瞳孔感受不同类型、不同强弱的刺激。之所以做这个试验,目的是去证明一个猜测。位于后脑皮层的不同视觉神经元,与瞳孔所受刺激之间,存在某种对应关系。一旦瞳孔受到某一种刺激,后脑皮层的某一部分神经元就会活跃。经历了很多天反复的枯燥的试验,同时牺牲了若干只可怜的小猫,David Hubel 和Torsten Wiesel 发现了一种被称为“方向选择性细胞”的神经元细胞。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。 这里的关键词有两个,一个是抽象,一个是迭代。从原始信号,做低级抽象,逐渐向高级抽象迭代。人类的逻辑思维,经常使用高度抽象的概念。例如,从原始信号摄入开始(瞳孔摄入像素),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。
总的来说,人的视觉系统的信息处理是分级的。从低级的V1区提取边缘特征,再到V2区的子形状特征或者目标的某局部特征等,再到更高层,整个目标、目标的行为等。也就是说高层的特征是低层特征的复合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图。而抽象层面越高,存在的可能猜测就越少,就越利于分类。例如,单词集合和句子的对应是多对一的,句子和语义的对应又是多对一的,语义和意图的对应还是多对一的,这个逻辑层级体系类似我们上一节介绍的。
认知过程是尝试和反馈的循环训练,“谷歌大脑”深度学习正是通过对原始图像去一层层逻辑分解,从而得到它的一层层的分析表达,最终通过边缘检测器、小波滤波器等在最低层次空间中建立反馈表达。然后通过组合低层特征一层层形成更抽象的高层表示属性。最终,领悟了“猫”的概念。
http://open.163.com/movie/2015/3/Q/R/MAKN9A24M_MAKN9QAQR.html
2015年2月微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。ImageNet数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。微软深度学习系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。同样的实验中,人眼辨识的错误率大概为5.1%。这意味着人工智能图片识别超越了人类。
2017年的Nature文章中,Esteva等人描述了一个人工智能系统,该系统根据1,232种不同疾病的129,450个临床图像数据集进行训练的,将其诊断性能与21名经过董事会认证的皮肤科医生对比,发现深度学习AI系统能够以与皮肤科医生相当的能力水平对皮肤癌进行分类。
2018年,谷歌开发了一种深度学习系统,在前列腺切除术标本中对前列腺癌进行分级时达到70%的准确度。美国董事会认证的一般病理学家在研究中获得的平均准确率为61%。前列腺癌有关诊断研究中深度学习AI准确率超过美国认证病理医生。
当然,这仅仅是开始,很快‘深度学习’神经网络会从识别位移、缩放及其他形式扭曲不变性的二维图形,升级到识别立体的猫,继而识别跑动的猫(最新的“深度学习”模型已经能够初步看懂视频内容,领会其中的恩怨情仇)。
平面猫 --> 立体猫 --> 动态猫
类似的,很快会识别行走的人。
平面人脸 --> 立体个人 --> 行走中的人
并且,‘深度学习’机器人很快会听懂人类讲话。
上面可以看出,只要增加多层级的特征构件,深度学习系统就可以训练识别猫图像。那么,其它领域是不是也可以如法炮制呢?
当然可以,研究人员发现不仅图像存在多层级特征属性,声音也存在。他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。而且,这些基本结构还可以一层又一层构建多层级特征基,比如音节、单词、词组、语句等等。
而且,我们写文章也同样符合多层级特征的结构。我们描述一件事情、写一篇文章、说一段话,用什么来表示?用一个一个字、一个一个词语、一句一句话、一段一段主题、一篇一篇的中心思想。我们在看一篇文章的时候,眼睛看到的是词语,由这些词语在大脑里自动切词形成逻辑轨迹,再按照概念组织的逻辑层次,然后再进行高层次的抽象,最后得到主题思想。
2009年,研究人员报告称,通过典型数据集的练习,他们的深度学习神经网络已经打破了将口语转化为文本的精度纪录。
2012年11月,微软在中国天津的一次活动演示了一个全自动的同声传译系统。演讲者用英文演讲,后台计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅。其背后支撑的关键技术也是深度学习。
2012年当谷歌在其安卓系统的智能手机操作系统中采用基于深度学习的语音识别技术时,它的文字错误率下降了25%。“人们本来期待在10年后才能达到这种下降程度。”
2017年,微软和IBM在有限的交换机域中实现了“人类奇偶校验”(human-parity)语音识别的近距离性能。
2018年,在将新闻报道从中文翻译成英文时,微软机器翻译系统实现了人性化的质量和准确性。
在2018年度Neural Information Processing Systems conference会议上,阿里巴巴展示了其物流公司菜鸟的人工智能客服助手。演示电话的内容是智能助手询问客户他希望他的包裹在哪里交付,在来回的对话中,助手成功地识别出了几个会话元素,这些元素展示了其自然语言能力的广度,在30秒内,代理顺利地处理了三种常见的、棘手的会话成分:中断、非线性会话和隐性意图。目前,该助手似乎已可以协调包裹递送的客服工作。这个助手每天已经为数百万客户提供服务。
SQuAD 是斯坦福大学于2016年推出的数据集,给定一篇有深度的文章, 准备这篇阅读理解相应问题和答案。一共536 篇文章,以及配套的 107,785问题。SQuAD是行业公认的机器阅读理解顶级水平测试,相当于图片识别领域闻名遐迩的ImageNet竞赛。2018年10月在机器阅读理解顶级水平测试SQuAD1.1中,Google AI团队的BERT模型,在两个核心混合模型衡量指标上,全面超越人类水平。并且在11种不同的单一模型NLP测试中表现惊艳全场。2018年NLP (自然语言处理)跨过分水岭,一个NLP的新时代开启了。
深度学习领域取得的这些激动人心的进步试图让电脑像人类一样思考,其大量数据和强大的处理能力帮助计算机破解那些人类几乎可以凭直觉就可解决的难题——从识别人脸到理解语言。
既然我们熟悉的诸多领域都有多层级特征属性,显而易见深度学习通过模拟人脑进行分析学习,很快会模仿人脑的机制来解释图像数据、声音数据和文本数据。
这意味着不久的将来,遍布大街小巷的摄像机不仅能很快发现通缉犯,而且机器通过监控人们谈话还能够迅速发现有威胁的人。
这还不算,‘深度学习’机器人不仅能自主认知、还可以自主行动,比如它很擅长自学游戏。说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属。DeepMind工作人员合两者之精髓。
首先,这个系统获得了某个游戏屏幕的某幅图像。在简单的分析之后,它选择了如何做出下一步。动作执行,然后被反馈分数是否增加了。大量尝试后,这个系统学会如何提高分数。 在深度学习的过程中,机器学习算法从以前例子中进行学习,决定在目前游戏状态下如何更好进行下一步动作。给出了许多的目标例子和它们的种类,学习算法从中找出了那些能够鉴定某个种类的目标特征。学习算法会产生一个模型,能够在训练集中最小化错误分类率。这个模型之后会被用来预测那个未知目标的种类。 在学习过程结束之后,新的物体就能够送入这个网络,并且能够在输出层看到每个种类的分数。 学习过程系统通过深度学习模式来计算最高期望分数。确切地说,在定义了网络的结构之后,剩下唯一会变化的就只有一件事:连接之间的强弱程度。学习过程就是调整这些连接之间的权重(特征投影值),从而使得通过这个网络的训练样例获得好的反馈。问题核心是计算最优解,目标是获取最好的反馈。可以通过将梯度下降与激励学习方法结合起来解决。流程如下: 1.构建一个网络并且随机初始化所有连接的权重; 2.将大量的游戏情况输出到这个网络中; 3.网络处理这些动作并且进行学习; 4.如果这个动作是好的,奖励这个系统,否则惩罚这个系统; 5.系统通过如上过程调整权重; 6.在成千上万次的学习之后,超过人类的表现。
https://v.qq.com/x/page/s01783irod2.html
2013年11月,一篇名为《Playing Atari with Deep Reinforcement Learning》的文章被初创人工智能公司DeepMind的员工上传到了arXiv网站。两个月之后,谷歌花了500万欧元买下了DeepMind公司,仅因为这篇文章。 在arXiv发表的原始论文中,描述了一个单个的网络,它能够自我学习从而自动的玩一些老的电视游戏。它仅仅通过屏幕上面的图像和游戏中的分数是否上升下降,从而做出选择性的动作。在训练的一开始,这个程序对游戏一点都不了解。它并不知道这个游戏的目标,是保持生存、杀死谁或者是走出一个迷宫。它对这个游戏的影响也不清楚,并不知道它的动作会对这个游戏产生什么影响,甚至不知道这个游戏中会有哪些目标物品。通过在这个游戏中尝试并且一遍一遍失败,这个系统会逐渐学会如何表现来获得比较好的分数。同时需要注意的是,这个系统对所有不同的游戏使用了同样的系统结构,程序员没有对不同程序给予这个程序任何特殊的提示,比如上、下或者开火等等。最终结果显示,这个系统能够掌握一些游戏,并且比一些人类玩家还要玩得好。机器人在这个简单游戏中,体现的自主学习的能力,一目了然。两年后,它在最复杂游戏(围棋)中打败人类最顶尖高手;其进化速度惊为天人,让人震撼。
这个深度学习系统的学习能力远远超过之前的系统。并且,在没有程序员做任何提示的情况下,它的解决问题的能力也更加宽广。
2016年3月,由这家 DeepMind团队开发的AlphaGo系统以4比1击败了世界上最伟大的围棋选手李世石。于2017年3月升级版的AlphaGo Master,击败了世界围棋排名第一的柯洁。2017年10月,最新版本AlphaGo Zero 以100:0击败了最初的AlphaGo系统。
2017年1月,美国卡耐基梅隆大学开发的人工智能Libratus与4名人类顶尖德州扑克选手之间的“人机大战”在美国匹兹堡进行,最终人工智能取得胜利。2017年2月,来自加拿大阿尔伯塔大学的DeepStack的人工智能系统是世界上第一个在 “一对一无限注德州扑克” 上击败了职业扑克玩家的计算机程序。
2017年,由微软收购的深度学习团队Maluuba创建了一个人工智能系统,学习如何在Atari 2600上达到游戏的最高点值999,900
2018 年,DeepMind代理在Quake III Arena Capture the Flag(一种流行的3D多人视频游戏)中达到了人类级别的性能。其中表现出类似人类的行为,例如导航,跟踪和防守。受过训练的角色超过了人类运动员的胜利率,击败了几个现有的最先进的系统。
2018 年,OpenAI的五个神经网络团队击败了Dota 2的业余人类团队。OpenAI Five通过自我游戏学习。
2018 年12月,DeepMind开发的卷积深度学习机器人AlphaStar,在《星际争霸2》人机大战以10-1的战绩,击溃人类职业高手。
不知道自学玩游戏算不算自动控制的巨大飞跃。如果是,那么很快‘深度学习’机器人将不仅能通过摄像机发现通缉犯、通过监控谈话还发现有威胁的人,还能够自主行动对付有威胁的人。
吓人咯,龟儿子,这听起来真像科幻。
目前,基于同一深度学习AI模型的系统(通用模型),已经超越人类水平的图像识别、超越人类自然语言阅读理解能力,在围棋和所有棋类超越人类,在绝大多数竞技游戏超越人类,取得更好的机器翻译、更好的文本与语音转换、更好的广告定向投放、更好的网络搜索结果,接近人类水平的语音识别,接近人类水平的自动驾驶,能够固定场景以人类语言与人类交流,胜任数字智能助理.............
当然,尽管深度学习技术取得了不少成功,但它仍处于起步阶段。“它是未来的一部分。”、“我们才刚刚开始。”
是科学预言,或是危言耸听。在它还没有长大之前,也许非常需要再深入认真分析其中的机理。 如果我们知其然不知其所以然,盲目跟风山寨,它懂我们,我们不明白它,那么我们发明的机器也许有一天会突然攻击我们,而我们还满脸茫然不知所然。 一切恩怨情仇,皆是因缘。人工智能与人为善,或是与人为敌,总有它的道理,源于它的逻辑根基。
2015 年,三位深度学习领域奠基者:Yoshua Bengio、Geoffrey Hinton、Yann LeCun在 Nature 共同发表一篇名为 Deep Learning(深度学习)的综述文章。此后,人工智能在很多领域从幻想变成现实,神经网络概念实现了技术重构,加速了面部识别、语音助手、仓储机器人、自动驾驶等领域发展。如今,只要口袋里有智能手机的人都可以切实体会到自然语言处理和计算机视觉方面的技术进步,这在十年前根本无法想象。深度学习的新进展为日常生活和专业科学带来强大的新工具—从拍摄、翻译、配送、医学、天文学到新材料。
“深度学习”人工智能模型在最近两年非常火爆,大有一统江湖的气势。这不是偶然的,虽然很少有人意识到,它其实有着非常扎实的突破性理论支撑。大多数人看到的是它参天枝叶,却鲜有人真正去深挖它厚重根基。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社