机器学习——海量数据挖掘解决方案_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

图 5 SVM核函数的作用原理图

SVM如何规避过拟合

过拟合（Overfitting）表现为在训练数据上模型的预测错误很低，在未知数据上预测错误却很高。图6的蓝色曲线代表训练错误，红色曲线代表真实错误，可以看到随着模型复杂度的升高，模型对训练数据的拟合程度越好（训练错误越低），但到了一定程度之后真实错误反而上升，即为过拟合。

机器学习——海量数据挖掘解决方案

图 6 过拟合

过拟合主要源于我们采集的训练样本带有噪声，有部分样本严重偏离其正常位置，统计学上称之为outlier。前面已经提到，决定SVM最优分类面的只是占少数的支持向量，如果碰巧这些支持向量中存在outlier，而我们又要求SVM尽可能完美的去拟合这样的数据，得到的分类面可能就会有问题。如图7所示，黑色加粗虚线代表最优分类面，带黑圈的蓝色数据点代表outlier。可以看到outlier严重偏离了正常蓝色数据点的位置，所在位置又恰巧使其成为了支持向量，导致了最终的分类面（深红色实线）严重偏离最优分类面。

6/11 首页上一页 4 5 6 7 8 9 下一页尾页