数据挖掘比赛通用框架

 

最后一个字段Label就是我们要预测的y,在我的数据集里取值0或1,所以是一个二分类问题。

对于分类问题,要根据标签来划分数据集,比如每种标签采样多少,这样才能保证训练集跟验证集的样本标签分布接近,另外采样方式也不限于随机采样,可以根据实际业务问题选择合适的采样方式。这里我们可以借助scikit-learn来实现分层的K折交叉验证,代码如下

X = df.ix[:,0:-1]

y = df.ix[:,-1]

from sklearn.cross_validation import StratifiedKFold

kf = StratifiedKFold(y,3) # 三折交叉验证

用以下代码验证一下训练集和验证集中的正样本的占比: