运行结果:
仔细观察不难发现,is this这类的停止词在变换后数值变小了。
!!注意!!跟处理类别变量、数值变量一样,我们在处理文本变量时,必须将训练集上的变换方式原封不动地作用到验证集或测试集上,而不能重新对验证集或者测试集做变换。比如在得到上面的vectorizer3后,我们将其作用在一个新的样本 ['a new sentence']上,代码如下
print vectorizer1.transform(['a new sentence']).toarray()
运行结果:
仔细观察不难发现,is this这类的停止词在变换后数值变小了。
!!注意!!跟处理类别变量、数值变量一样,我们在处理文本变量时,必须将训练集上的变换方式原封不动地作用到验证集或测试集上,而不能重新对验证集或者测试集做变换。比如在得到上面的vectorizer3后,我们将其作用在一个新的样本 ['a new sentence']上,代码如下
print vectorizer1.transform(['a new sentence']).toarray()