SVM 和 Kernel(Chapt.5-6)

复制本地路径 | 在线编辑

SVM 用于分类问题

SVM 比之前方法的好处是什么: 可以用高维数据。(CS229 2018 L6 46.30-48.50)

公式推导以及求解参数: CS229 6.4-6.8 讲的完美！
分清楚两个名词 geometric margins 和 functional margins
一共有三种参数求解
可以转换成 QP 问题，QP 问题甚至有专门商业软件去解决 (6.4)
对于这个特例，有更好的解决 (6.6)，需要先看一下 (6.5) 中的 Lagrange duality，最后得出一个 KKT 条件，意思是只要满足这个前提条件，就可以用 Lagrange duality 来做
实际上还有更好的 SMO 算法，这里推导直接看 (6.8) 即可，需要先看一下 (6.7)，主要就是知道正则化会导致最后的 KKT 条件变成 (6.7) 结尾所写的公式，这个在 (6.8) 最后有用
Kernel 函数，当时看 CS229 的时候懵了一段时间，但是懂了感觉 CS229 讲的挺好的，通过跳公式法（跳岛战术）来看:
先是 Eq.(5.5)，发现如果要用高维度数据，使用梯度下降太复杂了，所以要优化
理解 Eq.(5.6)，为什么 \(\theta\) 可以那样表示：因为它和每个 \(\Phi\) 的维度都是一样的，而 \(\Phi\) 的数量远远大于维度，因此肯定可以找到这样的方程。
理解 Eq.(5.7)，将 (5.6) 带入就能够得到 (5.7)，这个公式说明，我们梯度下降不需要直接暴力求解，而是对 \(\beta\) 进行梯度下降。
理解 Eq.(5.8) 和下面的式子，在 (5.7) 中我们还是有 \(\theta\)，所以运算量还是大，但把 (5.6) 再带进，就能化简，注意看式子最右边，需要求两个 \(\Phi\) 的乘积，这是关键。
最后 Eq.(5.9)，我们发现两个 \(\Phi\) 的乘积可以简化成一定的格式。这样一来，我们发现只要算 1-次项的乘积就行，而 2-次、3-次都是直接可以拿 1-次的结果得出来！最终搞定。

SVM 和 Kernel(Chapt.5-6)

Comments