机器学习——海量数据挖掘解决方案_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

简单又不简单的参数调节

调参数是最基础的步骤，虽看似简单却也内有乾坤。不同模型可以调节的参数数量不同，可以采取“抓大放小”的原则，调节少数几个（数量最好控制在1到2个）影响最大的参数，否则参数的组合呈指数级增长会变得难以调节。

大多数模型都有一个控制过拟合的参数，据我们的经验来看，一般情况下这个参数对预测效果的好坏影响最大。对于SVM模型，前文提到过的限制松弛变量部分的C参数就起到控制过拟合的作用，调节C参数一般也能看到预测效果出现较大变化。此外，如果使用了高斯核函数将原始特征空间映射到无限维，那高斯核参数往往需要调节。因为太小的可以把任何数据都映射成线性可分，导致非常严重的过拟合问题。相反，太大会使得映射后的空间仍然是低维空间，起不到升维的效果。

交叉检验和AB测试

调参数需要用预测效果来比较还坏，有人可能会问，那该如何测试才能比较客观的检验参数甚至模型的有效性？我们的测试方法主要有两种：离线测试和在线测试。离线测试时我们只有训练数据，一般会采用学术界常用的交叉验证方法。如图9所示，我们将训练数据平均分为n份，在这n份数据上进行n次循环，每次取其中一份作为检验集（Validation Set），其他n-1份作为训练集（Training Set）。最后对n次预测的结果求平均，以平均得分来对比不同的参数和模型。n一般取5、10或者20。

机器学习——海量数据挖掘解决方案

9/11 首页上一页 7 8 9 10 11 下一页尾页