博文

与师生谈人工智能7：深度学习的短板精选

已有 7334 次阅读 2021-8-15 12:57 |系统分类:教学心得

学：学生，教：教师，李：李晓榕

李：在谈科研方法时，我一再强调，在涨潮时，要特别认真地思考其利弊，尤其是短板和局限。深度学习当前正热得发烫，所以要好好考虑其不足之处。它确实有不少长处，随处可见有关论述，这儿就免了。

在完成不少特定任务上，智障者经过相应的强化培训也能胜过普通人。大数据深度学习就是针对任务的强化培训，其产物就像一个强化培训后的智障者。正因其智障，才需要海量强化培训。“培训”强调有针对性的特定技能的获取或增强。而人的“学习”所得不限于特技，还可以含有通用性的心智开拓。它至少包括：①通过事例的（启发式）经验“具象”学习，②通过语言、符号和概念等途径的抽象学习。其他物种没这第二条腿，无法飞奔，缺乏智能。人的智能离不开抽象能力，它使人能超脱无穷无尽的具体细节海洋而汲取其精华，浓缩概括其要义，还能直接思考和处理抽象事物。语言、文字、概念等抽象的信息表达方式都建基于清醒的意识上，其产生和接受都离不开意识，所以大概先要有足够清醒的意识，才会抽象学习。

“深度学习”其实是“大数据培训”，即通过海量丰富的经验事例（即大数据）来强化培训深层人工神经网络。这种网络往往远比不少缺乏意识、智能不足的动物的神经网络还简单。它能通过量化事例来培训，却不会真归纳，不会抽象学习，也难以向其他程序学习，更无法直接应对抽象之物。这恐怕是因为它缺乏意识，而意识的存在大概是抽象学习的前提。正因不会抽象学习，这才需要丰富海量的经验事例，而不能靠事例的抽象概括来学习。它只有第一条腿而难以飞奔、成就真“智”。它没有抽象学习那条腿，就连事例学习这条腿也不强壮，因为它缺乏归纳概括能力而无法飞跃升华。人在童年就开始会归纳概括，会抽象学习，这应该是真智必需的。深度学习网络高层的分布式表示，至多只能被认为是归纳概括和抽象的滥觞或胎儿，离真正的归纳概括抽象还很远。基于贝叶斯概率框架的Solomonoff归纳推断理论业已表明，完备的归纳是不可计算的，是超越算法的；可计算性与完备性无法共存。可见，一切算法、包括深度学习算法，都不可能会这样的归纳，因而难以相信会是产生智能的“魔杖”。所以，不该头脑发热。

教：您说的“能而不智”，我也有些朦胧的类似感受，但是又理不清道不明，所以您所说的，很有启发性。不过，您上面的一个主要观点是，没有对智能原理的认识，人工智能就不会有突破。但是在历史上，有些突破是首先在技术上完成的，只是后来才在原理上认识清楚。比如说，我们至今未能完全搞清鸟类的飞行原理，但是已经比它飞得更高更远更快了。而且，在计算机领域，技术领先于理论，好像都可以说是一个传统了。

李：人造飞行器的确比鸟飞得更高更远更快了，但远不如鸟更高效灵巧、无声环保。我并没说，缺乏对智能机理的认识，人工智能研究就无法突破，而是说：在这种条件下，认定“既能又智”的人工智能即将来临，而深度学习就是这种意义深远的大突破，根据不足，似嫌天真。

尽管对局部特征有所借鉴，例如卷积网络受到初级视觉皮层工作机制的启发，总体上深度学习网络在智能机理方面的支持远远不够。比如，其中关键的反向传播的权值修正算法并无神经生理学依据，它也只用于学习，学成后的网络并无真正的反馈机制。而对人类智能至关重要、大脑进化的最新产品——新皮层——充满了反馈，反馈连接往往并不少于（常常多于）前馈连接，甚至可以说反馈网络是主导，新皮层与丘脑的反馈连接也比前馈大好几倍。人脑中有注意系统，它有序列方式（串行处理）的本性，能操控低层的并行处理，还有不同部分之间的同步机制。人脑的神经网络远比深度学习的多隐层人工神经网络复杂，它一般并没有明确严格的功能层级结构，比如各脑区之间有双向连接和回路，形成圈环。作为神经系统结构和功能的统一基本单元，人脑神经细胞（即神经元）也比人工神经元复杂得多：它的轴突、树突和突触都存在必要的时延和变化，单单在突触的调节这一环节上就有各种神经递质、受体和调质间的复杂相互作用以及其间海量的组合多样性和灵活性。而（狭义）深度学习网络甚至连记忆都没有。就连两次拯救了人工神经网络研究的深度学习之父辛顿（Geoffrey Hinton）也相信，“正是这些不像大脑的东西，导致了人工神经网络的效果不够好”。人脑极其神奇，长期大力研究后，我们仍然知之有限，特别是对观念意识的形成机制等，以致有些专家甚至认为靠人脑无法破解人脑之迷，正像任何一个逻辑系统都无法全面描述自身，包括自证自洽。

教：是啊，也许靠人脑真的无法破解人脑之迷，就像一个人不能把自己拎起来一样。

李：但一个人通过器械却可以拎起自己。人要想理解人脑，也可以利用其他手段。

学：所以拎起自己这个类比不恰当。

教：那倒未必。要坚持这个类比，就可以说：理解靠智力，而要理解人脑，人没有其他智力可用，所以，靠人脑破解人脑之迷，就像靠自己拎起自己一样。

李：对此不妨说：可以利用古往今来全人类的总智慧，而不是一人之脑，来破解人脑之迷。人脑之谜不同于全人类的集体智慧（和精神生活）之谜。我觉得，人类大概始终无法完全破解后者。人类智慧有赖于经验、知识等积累，有赖于人类物种的历史，因而不具有马尔可夫性（即无记忆性）。很难相信它能被一个算法（即可计算函数）所把握。

说回深度学习与人脑的关系，就连深度学习的牛人也坦承：“如今神经科学在深度学习研究中的作用被削弱，主要原因是我们根本没有足够的关于大脑的信息来作为指导去使用它。……我们甚至连大脑最简单、最深入研究的部分都还远远没有理解。……真实的神经元计算着与现代整流线性单元非常不同的函数。”（Goodfellow, Bengio, and Courville《深度学习》）杨立坤坦诚：深度学习网络“的工作原理和真正的生物大脑有天壤之别”。

学：但是有些人把深度学习吹得天花乱坠，甚至说它是一种机器智能，突破了人类智能，是另一种形式。

教：也有人在理论上把它贬得一钱不值。

李：其实，越是吹得天花乱坠，越会使人失望，从而伤害它；分析评判越中肯，越会延长其生命。深度学习网络有专能，无通能，缺乏理解力。专能无需深刻理解，而通能有赖于透彻领悟。理解与智能大有共通部分。只有透彻领悟，穷神知化，才能以一知万，通权达变，胜任五花八门的任务。

迄今深度学习网络成功的关键在于：针对明确的任务，构建相应的网络结构，利用相关的大数据做相应的培训。要夸它，就说这是“有的放矢、心无旁骛”；要贬它，就说这是典型的“只会单打一，不开窍”。它既没有通用的网络结构，更不可能存在通用的培训数据，就连培训方法的通用性也不足。如果事先不知道要完成什么样的任务，就无法做相应的构建和培训、利用相关的数据，也就无法得到培训好的网络用以完成任务。有一种观点强调（但我不尽同意）：学得快、完成新颖认知任务的能力最能体现智能。按此，则专能再强的深度学习网络也几乎没有智能，因为离开了大数据培训，它对新颖任务束手无策。

即使事先知道要完成两个不相似的任务A和B，深度学习网络也难以完成。A和B一般有不同的输入输出模式和种类，以及不同的评估方式和指标。记深度学习网络为N，分别针对A和B的为N_A和N_B，既可完成A也可完成B的为N_AB。如何培训N以获得N_AB？显然不能先针对A来培训N使之成为N_A，再针对B来培训N_A使之成为N_B|A（即N→N_A→N_B|A），或先B后A（即N→N_B→N_A|B），因为N_B|A和N_A|B都与N_AB大大不同，都无法既做好A又做好B。也不能同时针对A和B来培训。一种做法是让N_AB = N_A∪B，即输入和输出都用A和B的并A∪B。这有大问题，它其实在完成第三个任务C = A∪B，因而至少有如下缺陷：①在一个具体场景下它要靠指导才知道是该完成A还是该完成B，无法像智能者那样能自主判定。②网络规模太大，它随着所需完成任务的增多而猛增，而通能可胜任种类繁多、数量巨大的任务。③因为存在多余部分的干扰，N_A∪B完成任务A的效果不如N_A，完成任务B的效果也不如N_B。另一种更差的做法是让N_AB = N_A∪N_B，即视A和B为两个独立的任务，但它也至少有上述三大问题。