数据挖掘比赛通用框架_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

数据挖掘比赛通用框架

最后一个字段Label就是我们要预测的y，在我的数据集里取值0或1，所以是一个二分类问题。

对于分类问题，要根据标签来划分数据集，比如每种标签采样多少，这样才能保证训练集跟验证集的样本标签分布接近，另外采样方式也不限于随机采样，可以根据实际业务问题选择合适的采样方式。这里我们可以借助scikit-learn来实现分层的K折交叉验证，代码如下

X = df.ix[:,0:-1]

y = df.ix[:,-1]

from sklearn.cross_validation import StratifiedKFold

kf = StratifiedKFold(y,3) # 三折交叉验证

用以下代码验证一下训练集和验证集中的正样本的占比：