博文

谈人工智能9：深度学习的实质精选

已有 6851 次阅读 2021-8-28 13:29 |系统分类:教学心得

学：学生，教：教师，李：李晓榕

李：深入思考深度学习的短长，难免涉及对人工智能本质的认识或信念。在唯物论看来，一方面，人类智能是进化的产物，无论多复杂，最终必定是基于物质的；另一方面，机器胜任的问题都是能行可解的，而智能胜任的问题应该不限于这类问题。非能行可解问题大量存在。一个例子是著名的希尔伯特23个问题中的问题10：寻找一个算法，用它能确定任一给定的整系数多项式方程h(x₁,...,x_n) = 0是否有整数解。

学：“能行可解”是什么意思？

李：即存在某个算法（即按部就班的程序），能在有限步内解决。按丘奇—图灵论题，一个算法对应于一个可计算函数（即函数值全都可用某个算法算出的函数，其数学构造是部分递归函数）。这不难理解：①一个算法按定义把一个输入映射到唯一的一个输出，所以是一个函数。②这样的函数能是也只能是可计算的，因为其输出都是由输入通过算法算出的。反之，可计算函数都可由算法算出函数值。①②这两点表明，一个算法等价于一个可计算函数。③计算机（算法）的输入输出都是有限字长的数，因而都只能是有理数；有理数和自然数之间存在一一对应的等价关系（自然数集合和有理数集合同样大，有同样无穷多的元素，虽然自然数都是有理数而有些有理数不是自然数，但部分可与全体有同样多的元素是无穷集合的独特特性，违反人们基于有穷集合的直觉）；可见，算法的输入输出都可用自然数等价表示；所以，可计算函数等价于可计算数论函数（数论函数就是从自然数到自然数的这类函数）。综合上述三点可得，一个算法等价于一个可计算数论函数。

可计算数论函数的集合很小，是可列的（即与自然数的个数一样多）。而全体函数的集合是不可列的。函数可以比可计算函数复杂得多，也比可计算数论函数多得多，至少像实数比自然数多得多那样。可见，在函数的汪洋大海中，可计算函数充其量只相当于一滴十分简单的海水。你能接受“智能其实仅限于这一滴海水”这一论断吗？注意，纯机器智能就是纯算法智能，也就是可计算数论函数的智能。

函数的恒常性。对于任意一个函数y = f(x)，y的取值仅取决于x的取值，与x的变化历史无关。所以说函数具有恒常性（即不变性）。例如，若f(3) = 4，则不论x的取值序列是⟨1,2,3,4,5,6,7⟩，还是⟨10,4,6,3,4,8,7⟩，只要x = 3，f(x)就等于4。一个智能系统应该不至于如此死板，自缚手脚，受这种毫不变通的恒常性所限。它起码会根据输入的变化来调整输出，特别是在输出会反馈作用于输入的情况下，它会有意识地靠改变输出来调控来影响输入的取值。而任何函数都无法影响其输入（自变量）的取值，只能对输入做出反应，没有能动性，无法与外界交互，其输出被输入唯一确定。这样死板的东西会是智能的吗？

学：像深度学习这样包含学习的人工智能，大概不只是一个函数吧？因为它有自适应功能，从环境、从数据中学习，从而适应环境，也就是说与环境有交互。

李：要透过表象看本质。深度学习的人工神经网络（ANN）是指学成后用于完成任务的ANN，其输出取决于也只取决于其输入，而学成后它本身（结构、参数等）不受任何东西的影响，包括输入和输出。不论如何学习，学成后的ANN只能是一个算法，它把输入（自变量）映射到唯一的输出（因变量），所以只能是一个函数。这没有争议。任何算法本质上都只能是一个可计算函数，无法实现非这种函数的任何东西，更无法真正与环境交互。做个类比。一个随机数发生器算法，也是这样一个函数。对于任何一个确定性输入（启动值），输出也只能是确定而唯一的，是伪随机数，不是真随机数，尽管它与真随机数的性质相仿。除非算法本身存在随机性，而算法（即一种函数）按定义不允许存在非唯一性，遑论随机性。要得到真随机数，输入必须有真随机成分（或者发生器其实并非一个算法）。同理，如果强人工智能不能成立，算法就最多只能产生与真智能性质有些相仿的伪智能，要有真智能，输入必须有真智能的成分。

学：您能不能进一步说说为什么ANN是这么一个函数？

李：任何一个ANN都是一个数学公式的实现器，其结构（各神经元之间的连接与否等）和激活函数等决定公式的形式，连接的权重决定公式中系数的大小。所以，ANN只能是一个算法，即一个可计算函数。反之，麦卡洛克（Warren McCulloch）和匹茨（Walter Pitts）的研究表明，任何一个可计算函数都可以用某个ANN来实现。

教：那么，如果像AlphaGo Zero那样边学习、边完成任务，甚至“活到老，学到老”学无止境呢？也就是说，环境会改变ANN，这样的ANN还只是一个函数吗？

李：问得好！一个边学边做的ANN等价于一个可变的可计算函数，或者说可计算函数的序列，在每次做时，它是一个可计算函数f(x)。这种ANN的输出不仅依赖于输入，还取决于学习。这个函数序列作为一个整体⟨f(x)⟩，其输入是x的取值序列⟨x⟩ = ⟨x₁,x₂,…,x_n,……⟩。⟨f(x)⟩可以看成一个函数或者泛函。可见，⟨f(x)⟩受学习策略影响。

如何学习？ANN的“学习”是指：针对ANN的任务，评估ANN的输出，即看它与所瞄准的“目标输出”差别多大；再根据评估结果，调整ANN的参数，优化输出。这等价于在这个ANN结构所对应的可计算函数集合中，优选函数。可见，这种“学习”其实是针对任务、利用事例的强化培训，它依赖于知道“目标输出”。至少对于认知任务，“目标输出”就是真知（或可能的最优之知），这样的“事例输入—目标输出”数据即所谓“标定”的数据。这种学习需要丰富海量这样的数据（即大数据）。除了下棋、玩游戏等目标输出简单明确的少数任务外，数据的标定迄今靠人类智能。此外，如何根据评估结果来调参，也缺乏有的放矢的有效技法。综上所述，这种学习跟通常所谓“向环境学习”进而“与环境交互”不可同日而语。

由上可见，机器的学习要有指导。实际上人类智能迄今都参与指导，于是这种边学边做所得的可计算函数序列就含有人类智能。不在学时，它就退化为一个可计算函数。对于不含人类智能的人工智能，学习只能靠另一个算法L。笨拙的教师能把笨拙的学生教得聪明智能起来吗？要能学得好（让结果是智能的），L是否得是智能的？而L只能是一个可计算函数，它能否是智能的？这见仁见智，又转回来了。

注意，L不属于ANN本身。换言之，一个边学边做的ANN其实不只是一个ANN。ANN和L都只能是可计算函数。如果可计算函数能是智能的，ANN本身就能是智能的，无需L。如果可计算函数不能是智能的，ANN和L的这种结合能吗？可见，不含人类智能、边学边做的ANN未必（也似乎并不）比ANN本身更有可能是智能的。

学：您说的这些，我还是很迷茫。

李：抱歉，这个议题有些复杂，我恐怕讲得不够清楚。重要信息是：一个不变的ANN等价于一个算法，也等价于一个恒常不变的可计算函数；这类函数的复杂度必定低于某些其他函数的复杂度，其集合远小于全体函数的集合；一个边学边做的ANN等价于一个可计算函数的序列，在每次做时，它是一个可计算函数；整个序列是否智能，取决于序列如何变，它根植于学习是否智能；人类智能应该不是这样一个函数序列，但它是否等价于或者能否被（足够无损地）化归为这么一个序列？

正在出的博文系列：

与师生谈人工智能：

1.智乎哉？ 2. 奢求精确之误 3.精确定义之病 4.图灵测试 5.强人工智能

6. 能而欠智 7.深度学习的短板 8.深度学习对老牌AI 9.深度学习的实质

与师生谈现代化之弊

1：崛起的代价 2：发展必好无疑？ 3：发展的恶果 4：科技进步果真进步？ 5：科技的罪责

6：开发进步善哉恶哉？7：现代化恶果之因 8：现代化恶果之因2 9：资本主义与个人主义 10：资本主义的修正与回潮

11：全球化的好歹 12：全球化的好歹 13：西化、现代化、全球化 14：现代化的本质 15：文化全球化？

16：妈的奶贼腥 17：多元优越 18：四大主义 19：“化私为公”的隐形手 20：进步的魔咒

21：进步的陷阱 22：进步的后果 23.成功的反噬 24：进步的残酷 25: 进步到恶神末日

26：自造成恶神

与师生漫谈科研文化