drwuHUST的个人博客分享 http://blog.sciencenet.cn/u/drwuHUST

博文

神经网络的记忆、泛化与谱偏倚

已有 1032 次阅读 2020-5-2 20:48 |个人分类:机器学习|系统分类:科研笔记

      为什么过参数化的神经网络模型依然具有很好的泛化能力?这是一个一直困扰着深度学习社区的问题。

传统的学习理论通常使用VC维和Rademacher复杂度来度量模型的复杂度,然而这套理论显然无法解释神经网络的泛化能力:Zhang et al. (2017) 发现神经网络的复杂度大到足够拟合随机噪声,却依然在正常的数据集上有着较好的泛化能力。另外,似乎越深的神经网络泛化性能反而更好,这也与传统学习理论相违背。

目前的研究指出,这似乎源之于使用SGD训练神经网络时带来的一种隐式的搜索“偏好”。诚然神经网络的假设空间(Hypothesis Class)极其庞大,但是SGD会倾向于搜索一些特定的子空间,而这部分子空间往往具有较好的泛化能力。目前的研究提出了三个倾向:

1. SGD优先学习pattern,然后开始记忆噪声。

2. SGD优先学习复杂度低的函数,然后拟合更高复杂度的函数。

3. SGD优先学习函数的低频成分,进而是高频成分。

根据这些发现的对应关系我们可以发现:3显然是2中的一个更加具体的隐式偏好,而1和3似乎说明了:可以泛化的pattern对应着目标函数的一些低频成分,而导致过拟合的噪声对应着目标函数的一些高频成分(这也是奥卡姆剃刀原理的一种体现)。

这些倾向性都基于一条基本的假设:这些偏倚都是单调变化的,比如简单到复杂、低频到高频。基于Deep Double Descent的研究,我们发现这些偏倚的单调性并非总是存在,进一步的我们发现即使神经网络低频的成分也足以拟合噪声。下图展示了在CIFAR10(打乱了其中10%的标签信息作为噪声)上训练的ResNet18的误差曲线以及频谱图。我们可以发现,测试误差曲线(黄色)先下降,这也是模型学习pattern的时期,噪声依然具有很高的误差;然后随着训练的进行,模型开始拟合噪声,此时进入记忆阶段从而发生过拟合的现象;但是随后,测试误差再次开始了下降(double descent),而噪声依然是被成功记忆的。我们观察对应的频谱图可以发现:在前期,高频成分比例显著上升,这也符合之前提到的SGD的隐式倾向。然而令人惊讶的是,随着进一步的训练,这种单调性被破坏了,神经网络的高频成分比例逐渐减少,但与此同时噪声依然保持着被记忆的状态。

NIPS1.png

这些发现不仅说明我们应该重新思考神经网络的泛化、记忆和SGD隐式偏好之间的关系,也同时暗示了频谱图似乎是一个不错的指示训练过程的指标。

我们首先来看平时我们训练的过程:我们会从训练集中单独划分出来一部分作为校验集,然后通过校验集的测试曲线来决定训练的程度。这样的做法的目的在于,切断这部分数据集与优化过程的直接联系,从而使得校验集能够一定程度上展示模型在测试集上的表现,从而具有较好的一致性。

那么现在的问题是:我们有没有可能不划分校验集,而是直接在训练集上计算一个指标,就能说明模型在测试集上的表现特点呢?

频谱图使我们看到了希望。由于频谱特性跟优化函数没有直接的关系(在计算频谱时我们为了进一步弱化这种关系,甚至没有使用标签信息),所以有可能在测试集、训练集甚至噪声集中具有相似的表现。而我们的实验验证了这种一致性的存在。

然而要想使用这个指标作为训练程度的度量,仅仅是一致性还不够的。这个指标还需要与测试曲线的一些非平凡的表现有着某些关联,即具有一定的预测功能。下图展示了在不同数据集、不同模型下,在训练集上计算的频谱峰值对应的epoch (T_{R,peak})与测试集上误差峰值对应epoch(T_{E,peak})之间的关系图。显然,虽然是不同的数据集和模型,我们依然可以观察到线性相关的关系,这也说明了频谱是具有预测性的。

NIPS2.png

我们的工作在理论以及应用中都是十分有意义的。首先,通过这个工作我们可以看到,关于神经网络的泛化与记忆,只是从SGD的隐式偏好出发是远远不够的,我们需要更加综合的考虑架构以及流形的特征;除此之外,之前关于模式、噪声以及神经网络不同频率成分之间关系的观点也并不总是成立。另外,我们发现即使只是训练集,我们也可以预测在测试集上的特点,这给训练神经网络提供了一种新的监测思路与框架。

 

本工作由华中科技大学人工智能与自动化学院硕士生张潇和伍冬睿教授共同完成,目前已上传arXiv。

 

X. Zhang and D. Wu, “Rethink the Connections among Memorization, Generalization and Spectral Bias of DNNs,” arXiv preprint:2004.13954, 2020.

arXiv: https://arxiv.org/abs/2004.13954

 




http://blog.sciencenet.cn/blog-3418535-1231327.html

上一篇:非侵入式脑机接口中的迁移学习综述(2016-2020)
下一篇:区间二型模糊集和模糊系统: 综述与展望

1 彭真明

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-11-28 10:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部