泛化和正则化(Chap.8-9)

复制本地路径 | 在线编辑

泛化: generalization, 正则化: Regularization

这里其实没什么说的，都是比较碎的知识。而且到后面很多都是悬而未决的问题。

K fold cross validation

这个还用说吗，就是分成 K 份，然后用 K-1 训练，用剩余的预测。leave-one-out cross validation 是指 K 等于样本数目时，此时每次预测一份。

Online learning

每次来一个 (x(i), y(i))，进行更新

Implicit regularization effect

解释

9.2 节讲的这个，这是深度学习产生的新概念：传统的算法是认为有一个全局的最小值，对于这个优化问题，最终都到达那个最小值。但是深度学习中，却发现很多时候它之后还会有一些下降上升的变化情况，而且不同的学习率也会导致不同的问题。

直接看图解释比较好:

Fig.9.1 先看虚线，能够看到他训练的时候有两个合理的谷底，但是看实现，预测时候左边谷底要比右边的好。

Fig.9.2 先看右边的图，同样的看虚线，两个颜色训练时候最终的 loss 是一样的，结果预测就有区别了。它们的区别只是 initialization 不同。

Fig.9.2 再看左边的图，同样的看虚线，两个颜色训练时候最终的 loss 是一样的，结果预测就有区别了。它们的区别只是 learning-rate 不同。

说明

这个说明深度学习，我们训练即使得到好的结果，也不能大意，尽量继续再去修改。
训练时候的这几个谷底，以及训练时候选择什么 initialization 和 learning-rate，这个都还在要研究中。
有一个经验是：大的 learning-rate，小的 initialization，小的 batch-size，小的 momentum 似乎更好

Double descent

model-wise double descent

8.2 节介绍，一个在深度学习开始的概念。如下图所示，实际就是当参数数目增大时，会出现 error 降低的现象！而且很多时候，这个第二次降低反而之后会得到更好的结果，而且还没有上升降低上升降低的情况了。（Update：这就是 scaling law，改变世界的一个思想，大模型的思路）

sample-wise double descent

8.2 节介绍，一个在深度学习开始的概念。直观上：训练样本越多越好？可实际情况却不是这样，看图，而且往往是样本数和训练参数相等时候会误差最大。

解决

加入一个比较好的正则项，似乎可以有效减少甚至消除上面的 model-wise 和 sample-wise double descent 的情况。
但真的吗？为什么？以及如何选？这个全在研究中。但是有一个解释是梯度下降引入了上面一章的 implicit regularization effect，导致最终的结果有问题，这个解释没太懂，算了，不强求理解了。

VC 维度

这个太难了，我去