数据挖掘比赛通用框架

print temp3.toarray()

运行结果:

 

仔细观察不难发现,is this这类的停止词在变换后数值变小了。

!!注意!!跟处理类别变量、数值变量一样,我们在处理文本变量时,必须将训练集上的变换方式原封不动地作用到验证集或测试集上,而不能重新对验证集或者测试集做变换。比如在得到上面的vectorizer3后,我们将其作用在一个新的样本 ['a new sentence']上,代码如下

print vectorizer1.transform(['a new sentence']).toarray()

我们可以看到,结果是