大数据技术贴:构建一个有指导的数据挖掘模型

我们往往很难理解为什么训练集和验证集被用来建立模型之后就会成为“污点”。这就好比你参加考试,你认为这题你做的是正确的,老师让你去预测考试成绩,你显然认为分数很高,因为你认为,如果没有答案,第二天在参加同样的考试,你的想法不会改变。这时候,你的系统中没有一个新的标准,这时,你需要的是一个验证集。

现在,想象一下测试结果以后,估分之前老师让你看看你同学的几个试卷。如果他们都和你的结果不一样,这时候,你可能会把你自己的答案标记为一个错误的答案。如果第二天老师给出了正确的结果,这个时候让你再去做同样的的试卷,你可能得出的就是不同的结果。这就是为什么验证集应该不同于测试集的原因。

对于预测模型,一个好主意是测试集所在的时间段与训练集和验证集的时间段不同。一个模型的稳定性证据在于它在连续的月份中都能够良好的运行。来自不同的时间段的测试集,也称为不合时宜的测试集,虽然这样的测试集并不总是可用,但是它是验证模型稳定性的一个很好的方法。