东方新闻网,中国领先的新闻门户网!

商务合作:QQ 1225-118 新浪微博 @我在关注你

东方新闻网_中国领先的新闻门户网

热门关键词: 971突  关山乳业  xxx  971突击步枪  易到
当前位置:主页 > 科技 >

【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争(3)

2017-02-19 23:33 | 来源: 网络整理 |
我要分享

  文章找到了证据证明 “存在具有 ReLU 激活和 2n + d 个权重的两层神经网络,其可以表示d维中的大小为n的样本的任何函数”的定理。 这真正展示了对任何数据集来说神经网络的强力(brute-force)能力。

  3.结论

  机器学习的传统观基于简约(parsimony)。 在几乎任何公式中,学习都归结为从数据中提取低复杂度的模式。 暴力记忆通常不被认为是一种有效的学习形式。 同时,可能纯粹的记忆在某种程度上是一个有效的解决自然任务中问题的策略。

  我们的结果挑战了传统的对机器学习的认识,展示了许多成功的神经网络容易拥有纯粹记忆的有效能力。这使我们相信,这些模型在处理它们用来训练解决的问题时可能很好地利用了大量的记忆。很可能传统意义上的学习仍然部分地发生,但它似乎与大量的记忆密切相关。因此,传统方法不太适合推理为什么这些模型能够很好的泛化。

  我们认为理解神经网络需要重新思考泛化。 我们希望我们的论文是一个开始,通过质疑传统观点,指向未解决的难题。

  Bengio 实验室观点:深度网络不通过记忆学习

  

摘要

  我们使用经验验证法论证,深度神经网络(DNN)尽管有着过度表达的模型架构(overly-expressive model architectures),但不会通过“记忆”训练数据实现其良好的性能。实际上,深度神经网络学习的是一种简单的、切合有限数据样本的可用假设。为了支持这一观点,我们确立神经网络在学习噪声与自然数据集时存在定性的差异,显示出:(1)需要更多的容量拟合噪声;(2)随机标记的收敛时间更长,但随机输入的收敛时间更短;(3)在实际数据样本上训练的 DNN 学习的函数,比用噪声数据训练的更简单,这种简单的评估标准是收敛时损失函数的锐度。最后,我们证明对于适当调整的显式正则化(如 dropout),可以降低 DNN 在噪声数据集上的训练性能,而不影响对实际数据的泛化。

  1. 引言

  泛化(generalization)测量的是在给定数据集上训练过的模型在此前没有见过的数据上运行的能力,这些未见过的数据与训练数据有着相同的底层分布。传统的泛化观点认为,容量足够大(比如参数的数量大于训练样本的数量)的模型,在表达上足以“记住”每个样本,因而对于训练集是过拟合的,导致在验证时或者说在测试集上泛化较差。但与此观点相反,深度神经网络(DNN)通常含有比训练样本更多的参数,但却展现出良好的泛化性能。Zhang 等人最近的工作(2017,译注:即上面介绍的谷歌论文)发现,传统方法不能解释 DNN 的这种性质。他们展示了 DNN 能够适应随机噪声,并得出结论认为,部分原因是深度网络能够通过“大规模记忆”进行学习。我们认为并非如此,并通过展示学习随机噪声和学习数据之间的不同支持我们的观点。

  “记住”一个训练集是什么意思?一种解释是,对于每个训练样本,DNN 都能实现完美的分类精度(即训练误差接近 0)。这看上去是那么回事,但并不完全——直观地讲,“记住”数据的算法应该在某种程度上仅限于训练集,就像查找表一样。而这又引出了另一种解释;零训练误差和随机泛化误差。通过这个定义,DNN 并不会记忆。

  然而,这个定义不涉及学习的过程——还是直观地讲,我们可能不会“信任”使用泛化误差测量得出的结果,因为我们会认为如果算法像一个查找表那样学习(这个查找表恰好具有良好的泛化性能),我们仍然会认为信息是“记住”的,而不是学会的。这又使我们得出了对记忆的第三个、模糊的定义:不是在学习模式。我们猜,这实际上是大多数人使用术语“暴力记忆”、“纯粹记忆”或“大规模记忆”时,想要表达的意思。

  但是,我们表明即便使用这种定义,DNN 仍然不会“记忆”真实数据。模型的理论容量要成为有效容量,受两大因素的限制:数据集大小和训练时间(更新)。我们表明,在有效容量固定的情况下,深度网络对于随机数据和真实数据,所学到的假设是不同的——真实数据的会更简单。

  2. 试验和讨论

  在试验和讨论环节,研究人员用噪声(随机标签或i.i.d)替换数据集的一些部分。然后做高斯噪声输入(均值和方差匹配实际数据)。

  第一个发现(见图1),随着更多的样本被噪声替代,DNN 需要更多的容量才能达到最高性能。这表明网络能够以更简单的模式,也即更少的参数解释真实数据。

  降低数据集的容量或增加数据集的大小会减慢对实际数据和噪声的训练。然而,实验2(图2)表明,对于实际数据这一效果不太明显。

  在分析正则化对学习的影响时,研究人员发现,与(Zhang 等人,2017)的发现不同,如果使用随机标签训练,正则化(如 dropout 和高斯噪声)能够限制训练精度。研究人员采用 Zhang 等人论文中建议的方法进行了测试(详见论文)。

  3. 结论

  我们对记忆经验探究表明,学习噪声与学习真实数据是不同的。在拥有相同有效容量的情况下,DNN 学习真实数据时会使用比学习噪声时更简单的假设。这揭示了 DNN 先验对于学习和泛化的重要性,并提供了有效地评估显式正则化的有趣方式(即通过阻碍记忆的能力)。

***

  深度神经网络强大泛化能力的真正原因是什么?

  欢迎留下你的分析。

  【进入新智元公众号,在对话框输入“170219”下载论文】

  参考资料

【寻找AI独角兽】新智元联手10大资本

启动2017创业大赛

(责任编辑:admin)
热门新闻
  网站简介   商务合作   网站声明   联系我们
投诉举报邮箱:1225118@qq.com| 技术支持:搜虎网络
Copyright 2013-2018 东方新闻网 版权所有 未经授权 禁止转载、复制或建立镜像
本站申明:本站部分内容来自网络,如有侵权,请您联系我们,我们会在第一时间将其删除!
大中华网 陕西旅游 陕西新闻 关中新闻 乳制品 快速消费品 乳品招商 中华视窗 搜虎资讯 大中华新闻 快消品招商 快消品经销 游戏资讯 镇安县 女性时尚