数据挖掘比赛通用框架

kf = KFold()

4.3. 特征工程

毫不夸张地说,特征工程是DM重要的一环,也是决定DM比赛的关键因素。纵观DM比赛,几年间已由追求模型是否fancy转向无尽的特征工程,主要得益于越来越标准化的ML模型,以及更好的计算能力。

特征工程可以做的很复杂很庞大,但受限于本人目前的水平,这里只结合原博客内容讲解一些最基本(也是最经典)的处理方法。

4.3.1. 处理类别变量

类别变量(categorial data)是一种常见的变量,在我之前写的『新手数据挖掘中的几个常见误区』 一文的第三节中讨论过 为何要对类别变量编码

toy_data当中,字段Continent, Country, Product, Brand, TreeID, Industry, Saler都可以看做是类别变量。处理类别变量一般是先标签化,然后再二值化编码。标签化的目的是将字段的原始值(如字符串、不连续的数字等)转换成连续的整数值,再对整数值二值化编码,如果原始值是整数,则直接二值化即可

我们拿