《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

两分钟谈:模型训练的内插、外插

已有 609 次阅读 2024-5-20 18:07 |个人分类:AI 浪潮|系统分类:科研笔记

模型训练的讨论中,常常提到 interpolation(内插)与 extrapolation(内插)两个术语,可以说说。

大家都知道,在数据驱动的主流学习过程中,内插需要的是在训练数据的边界内“泛化”能力,善于信息压缩的深度学习训练是内插的利器。但外插(extrapolation)就没见有长于此道的算法或模型。实际上,外插与数据驱动是直接矛盾的,by nature 就是无解的,因此很可能这就是个伪问题,根本就不该对外插抱有幻想。当然,从鲁棒性角度,外插现象出现的时候,至少要做到模型不死机,至于外插的精度,主要是看运气,而非模型的内功可以发力。

不过,外插的问题还是值得梳理一下。

外推(Extrapolation)定义:外推是指在已知数据点之外进行预测或推断。例如,已知某个函数在几个点上的值,外推就是在这些已知点之外估计函数的值。

前面说了,数据驱动的路数,本质上对外插无解。不能强人所难,巧妇难为无米之炊。米就是数据。

但加强外推,理论上还有 “先验知识” 和 “模型结构复杂化” 两个路子可能有点帮助,而数据本身的短板,除了数据,没有它途:就是说把“无人区”的外插问题,收集相关数据,转化为内插。

模型结构复杂化在历史上是帮助了训练的“外插”能力的,如果原来的简单模型有自身的结构性局限。我们都知道,AI历史上,非线性问题在简单的单层神经网络的模型里是无解的,无论给出多少训练数据(这其实是早期神经网络的命门:单层神经无法解决 XOR 的现象)。但到了多层+非线性转换,就有解了。这其实是深度学习神经革命的最基本的立足点。

至于“先验”对于外插的作用,我们从 Alpha-Zero 利用 self- play 再生数据可以看到效果。self-play 的好处是有游戏规则等先验知识,因此它所产生的数据,可以是在先验知识条件下的未见过的外推数据。

【相关】



https://blog.sciencenet.cn/blog-362400-1434884.html

上一篇:两分钟谈谈:Moravec悖论
下一篇:悲观主义的视角,人类的宿命
收藏 IP: 106.38.40.*| 热度|

3 郑永军 尤明庆 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-26 11:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部