数据挖掘比赛通用框架_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

可以看到，原来的一列Continent字段变成了三列，分别代表[ 'AM', 'EP', 'LA' ]，取值1表明是，取值0表明否。这就是常说的one-hot编码。如果类别变量的取值是整数，则直接用sklearn.preprocessing.OneHotEncoder()即可，把上面代码中LabelBinarizer()替换掉

注意我们必须将对训练集上的变换原封不动的作用到测试集，而不能重新对测试集的数据做变换（详见我之前写的『新手数据挖掘中的几个常见误区』第一节）。

4.3.2. 处理数值变量

一般而言，数值变量不用做太多处理，只需做正规化(normalization)和标准化(standardization)即可，分别对应scikit-learn中的Normalizer和StandardScaler。不过对于稀疏变量，在做标准化的时候要注意，选择不去均值。

其实数值型变量最好也进行离散化，离散手段从基本的等距离散法、按分隔点人为指定，到聚类、输入树模型等，手段很多，在此不详细展开，我会在后续文章中提及。

12/19 首页上一页 10 11 12 13 14 15 下一页尾页