机器学习——海量数据挖掘解决方案

SVM针对分类问题的前提假设直观易懂,由此推演出的模型求解过程也是顺理成章一气呵成。我们通常先从最简单的情况入手,假设数据是线性可分的。SVM认为此时的最优分类面,是使得样本集到分类面的最小几何距离最大化的超平面,这个距离成为“间隔(margin)”。如图4所示,黑色实线就是最优分类面,两边两条虚线之间的几何距离就是此时的最优间隔。数据点离分类面越远,分类的置信度也越高。

机器学习——海量数据挖掘解决方案

图 4 SVM最优分类面示意图

SVM假设线性分类面的函数形式为

(1)

鉴于篇幅关系,我们略去推导过程。在最大化间隔的假设下,可以得到SVM的原目标函数为: