数据挖掘比赛通用框架_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

数据挖掘比赛通用框架

2代表second这个词在第二句话中出现了2次。一般我们不会直接用这个结果，而是会将每行归一化之类。

这种处理方式简单粗暴，没有考虑词与词之间的关系。我们改进一下这个方法，除了考虑单个词之外，还考虑corpus中成对出现的词(类似NLP里n-gram的 bi-gram，具体请自行Google)，代码如下

vectorizer2 = CountVectorizer(ngram_range=(1, 2))

temp2 = vectorizer2.fit_transform(corpus)

print vectorizer2.get_feature_names()

print temp2.toarray()

运行结果：