数据挖掘比赛通用框架

[[0 0 0 0 0 0 0 0 0]],因为这个样本里的三个词从未出现在训练集corpus中,这是正确的结果!

为了方便将变换作用在未来的测试集,我们可以先把vectorizer3pickle保存到本地,用的时候再load,保存方式如下:

import cPickle as pickle

pickle.dump(vectorizer3, open('vectorizer3.pkl','w'))

用的时候再 vectorizer = pickle.load(open('vectorizer3.pkl','r'))即可。

4.3.4. 特征融合

ToDo 区别对待稠密特征和稀疏特征,

4.3.4. 特征降维

ToDo PCA等