||
模型训练的讨论中,常常提到 interpolation(内插)与 extrapolation(内插)两个术语,可以说说。
大家都知道,在数据驱动的主流学习过程中,内插需要的是在训练数据的边界内“泛化”能力,善于信息压缩的深度学习训练是内插的利器。但外插(extrapolation)就没见有长于此道的算法或模型。实际上,外插与数据驱动是直接矛盾的,by nature 就是无解的,因此很可能这就是个伪问题,根本就不该对外插抱有幻想。当然,从鲁棒性角度,外插现象出现的时候,至少要做到模型不死机,至于外插的精度,主要是看运气,而非模型的内功可以发力。
不过,外插的问题还是值得梳理一下。
外推(Extrapolation)定义:外推是指在已知数据点之外进行预测或推断。例如,已知某个函数在几个点上的值,外推就是在这些已知点之外估计函数的值。
前面说了,数据驱动的路数,本质上对外插无解。不能强人所难,巧妇难为无米之炊。米就是数据。
但加强外推,理论上还有 “先验知识” 和 “模型结构复杂化” 两个路子可能有点帮助,而数据本身的短板,除了数据,没有它途:就是说把“无人区”的外插问题,收集相关数据,转化为内插。
模型结构复杂化在历史上是帮助了训练的“外插”能力的,如果原来的简单模型有自身的结构性局限。我们都知道,AI历史上,非线性问题在简单的单层神经网络的模型里是无解的,无论给出多少训练数据(这其实是早期神经网络的命门:单层神经无法解决 XOR 的现象)。但到了多层+非线性转换,就有解了。这其实是深度学习神经革命的最基本的立足点。
至于“先验”对于外插的作用,我们从 Alpha-Zero 利用 self- play 再生数据可以看到效果。self-play 的好处是有游戏规则等先验知识,因此它所产生的数据,可以是在先验知识条件下的未见过的外推数据。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-4 13:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社