【Bengio vs 谷歌】深度学习兄弟对决，神经网络泛化本质之争_东方新闻网

【Bengio vs 谷歌】深度学习兄弟对决，神经网络泛化本质之争

2017-02-19 23:33 | 来源: 网络整理 |

我要分享

1 新智元原创

来源：arXiv

作者：闻菲、张易

　　【新智元导读】一场或许有关深度学习本质的争论正在火热进行中。去年底，MIT、DeepMind 和谷歌大脑合著的论文《理解深度学习需要重新思考泛化》引发热论。论文指出，经典统计学习理论和正则化策略不能解释小的泛化误差为何发生，神经网络实现高性能泛化的真正原因是“能够记忆数据”。但最近，Bengio 实验室的一篇 ICLR-17 论文提出了反对观点，认为神经网络并不通过记忆学习。更好的泛化理论能让我们设计出比 dropout、bachnorm，l2 等更好的正则化方法，从而带来更好的深度学习。神经网络的泛化能力究竟从何而来？请在文末留下你的看法。【进入新智元公众号，在对话框输入“170219”下载论文】

　　Bengio 实验室日前发表了一篇论文，这篇论文将作为 ICLR 2017 一场研讨会的主题：

　　“深度网络不通过记忆学习”。

　　为什么今天要说这篇论文？

　　因为它的观点与另一篇 ICLR 论文、与此前谷歌大脑的《理解深度学习需要重新思考泛化》相互矛盾。那篇论文由 MIT 的 Chiyuan Zhang 为第一作者，合著人当中不乏大牛的名字，比如谷歌大脑的 Samy Bengio（是的，他就是我们常说的那个 Bengio 的弟弟，头图中左边的那位——看图你还不觉得他们两人是兄弟？），以及之前在谷歌大脑工作，现在是 DeepMind 研究员的 Oriol Vinyals。

　　值得一提的是，《理解深度学习需要重新思考泛化》那篇文章发布后，在学界激起了热烈的讨论和广泛的关注——根据 Twitter 上的讨论，这篇论文的 ICLR 得分相当之高。

　　有人更是将其称为“势必颠覆我们对深度学习理解”的文章。

　　在“重新思考泛化”那篇文章里，研究人员通过实验发现：

　　实际上，作者引入了两个新的定义——关于“显式”和“隐含”正则化来讨论深度学习。现在，针对这两种正则化，Bengio 实验室的论文提出了完全相反观点。

　　两篇重磅论文，究竟谁对谁错——或者，深度神经网络强大泛化能力的真正原因是什么？

　　让我们先从MIT、谷歌大脑与 DeepMind 合作的《要理解深度神经网络需要重新思考泛化》看起。

　　谷歌重磅论文：理解深度学习，需要重新思考泛化问题

提要

　　尽管体积巨大，成功的深度人工神经网络在训练和测试性能之间可以展现出非常小的差异。过去一般将其归功于泛化误差小，无论是对模型谱系的特点还是对于训练中使用的正则技术来说。

　　通过广泛的系统的实验，我们展示了传统方法无法解释为什么大规模神经网络在实践中泛化表现好。具体来说，我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响，即使我们通过完全非结构化随机噪声来替换真实图像，也会发生这种现象。我们用一个理论结构证实了这些实验结果，表明只要参数的数量超过实践中通常的数据点的数量，简单的depth 2神经网络就已经具有完美的有限样本表达率（finite sample expressivity）。

　　我们通过与传统模型进行比较来解释我们的实验结果。

　　1. 概述

　　深度人工神经网络通常具有比它们被训练的样本数量多得多的可训练模型参数。尽管如此，这些模型中的一部分仍显示出非常小的生成误差，即“训练误差”和“测试误差”之间的差异。同时，得到泛化不好的自然模型架构也肯定很容易。那么，是什么造成了泛化好与不好之间的差别？对这个问题的解答不仅有助于使神经网络更易于理解，而且还可以引导更富原则和更可靠的模型架构设计。

　　为了回答这样的问题，统计学习理论已经提出了能够控制泛化误差的许多不同的复杂性度量方法（complexity measures）。包括VC dimension (Vapnik, 1998), Rademacher complexity (Bartlett & Mendelson, 2003), and uniform stability (Mukherjee et al., 2002; Bousquet & Elisseeff, 2002; Poggio et al., 2004)。此外，当参数的数量巨大时，理论表明需要某种形式的正则化以确保小的泛化误差。如果伴有early stopping的情况，正则化也可以是隐含的。

　　我们的贡献

　　在这项工作中，通过论证它不能区分具有完全不同泛化性能的神经网络，我们质疑了对于泛化的传统认识。

　　随机化测试。我们方法的核心是众所周知的非参数统计的随机化测试的变体（Edgington＆Onghena，2007）。在第一组实验中，我们在数据的副本上训练若干标准架构，其中真实标签被随机标签替代。我们的核心发现可以概括为：

　　深层神经网络容易拟合随机标签。

　　更准确地说，当对真实数据的完全随机标记进行训练时，神经网络实现0训练误差。当然，测试误差并不比随机概率好，因为训练标签和测试标签之间没有相关性。换句话说，通过单独使标签随机化，我们可以迫使模型的泛化显著地提升，而不改变模型、大小、超参数或优化器。我们对在CIFAR10和ImageNet分类基准上训练的几个不同的标准架构确证了这一事实。简而言之，从统计学习角度来看，这一观察有着深刻的影响：

　　在这第一组实验上，我们还用完全随机的像素（例如高斯噪声）来替换真实图像，并观察到卷积神经网络继续拟合具有零训练误差的数据。这表明，无论它们的结构怎样，卷积神经网络可以拟合随机噪声。我们还进一步改变随机化的量，平滑地添加在无噪声和完全噪声的情况之间。这导致一系列intermediate learning problems，在标签中仍然存在某些程度的信号。随着噪声水平的提高，我们观察到泛化误差的稳步恶化。这表明神经网络能够捕获数据中的剩余信号，同时使用强力拟合噪声部分。

　　我们将在下面进一步详细讨论这些观察结果如何排除所有VC维度、Rademacher复杂性和均匀稳定性这些现有神经网络泛化性能的可能解释。

（责任编辑：admin）

东方新闻网，中国领先的新闻门户网！

【Bengio vs 谷歌】深度学习兄弟对决，神经网络泛化本质之争