数据挖掘比赛通用框架

2代表second这个词在第二句话中出现了2次。一般我们不会直接用这个结果,而是会将每行归一化之类。

这种处理方式简单粗暴,没有考虑词与词之间的关系。我们改进一下这个方法,除了考虑单个词之外,还考虑corpus中成对出现的词(类似NLP里n-gram的 bi-gram,具体请自行Google),代码如下

vectorizer2 = CountVectorizer(ngram_range=(1, 2))

temp2 = vectorizer2.fit_transform(corpus)

print vectorizer2.get_feature_names()

print temp2.toarray()

运行结果: