数据挖掘比赛通用框架_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

kf = KFold()

4.3. 特征工程

毫不夸张地说，特征工程是DM重要的一环，也是决定DM比赛的关键因素。纵观DM比赛，几年间已由追求模型是否fancy转向无尽的特征工程，主要得益于越来越标准化的ML模型，以及更好的计算能力。

特征工程可以做的很复杂很庞大，但受限于本人目前的水平，这里只结合原博客内容讲解一些最基本（也是最经典）的处理方法。

4.3.1. 处理类别变量

类别变量(categorial data)是一种常见的变量，在我之前写的『新手数据挖掘中的几个常见误区』一文的第三节中讨论过为何要对类别变量编码

在toy_data当中，字段Continent, Country, Product, Brand, TreeID, Industry, Saler都可以看做是类别变量。处理类别变量一般是先标签化，然后再二值化编码。标签化的目的是将字段的原始值（如字符串、不连续的数字等）转换成连续的整数值，再对整数值二值化编码，如果原始值是整数，则直接二值化即可

我们拿

10/19 首页上一页 8 9 10 11 12 13 下一页尾页