Skip to content

泛化和正则化(Chap.8-9)

复制本地路径 | 在线编辑

泛化: generalization, 正则化: Regularization

这里其实没什么说的,都是比较碎的知识。而且到后面很多都是悬而未决的问题。

K fold cross validation

这个还用说吗,就是分成 K 份,然后用 K-1 训练,用剩余的预测。leave-one-out cross validation 是指 K 等于样本数目时,此时每次预测一份。

Online learning

每次来一个 (x(i), y(i)),进行更新

Implicit regularization effect

解释

9.2 节讲的这个,这是深度学习产生的新概念:传统的算法是认为有一个全局的最小值,对于这个优化问题,最终都到达那个最小值。但是深度学习中,却发现很多时候它之后还会有一些下降上升的变化情况,而且不同的学习率也会导致不同的问题。

直接看图解释比较好:

Fig.9.1 先看虚线,能够看到他训练的时候有两个合理的谷底,但是看实现,预测时候左边谷底要比右边的好。

Fig.9.2 先看右边的图,同样的看虚线,两个颜色训练时候最终的 loss 是一样的,结果预测就有区别了。它们的区别只是 initialization 不同。

Fig.9.2 再看左边的图,同样的看虚线,两个颜色训练时候最终的 loss 是一样的,结果预测就有区别了。它们的区别只是 learning-rate 不同。

说明

  • 这个说明深度学习,我们训练即使得到好的结果,也不能大意,尽量继续再去修改。
  • 训练时候的这几个谷底,以及训练时候选择什么 initialization 和 learning-rate,这个都还在要研究中。
  • 有一个经验是:大的 learning-rate,小的 initialization,小的 batch-size,小的 momentum 似乎更好

Double descent

model-wise double descent

8.2 节介绍,一个在深度学习开始的概念。如下图所示,实际就是当参数数目增大时,会出现 error 降低的现象!而且很多时候,这个第二次降低反而之后会得到更好的结果,而且还没有上升降低上升降低的情况了。(Update:这就是 scaling law,改变世界的一个思想,大模型的思路)

sample-wise double descent

8.2 节介绍,一个在深度学习开始的概念。直观上:训练样本越多越好?可实际情况却不是这样,看图,而且往往是样本数和训练参数相等时候会误差最大。

解决

加入一个比较好的正则项,似乎可以有效减少甚至消除上面的 model-wise 和 sample-wise double descent 的情况。
但真的吗?为什么?以及如何选?这个全在研究中。但是有一个解释是梯度下降引入了上面一章的 implicit regularization effect,导致最终的结果有问题,这个解释没太懂,算了,不强求理解了。

VC 维度

这个太难了,我去

Comments