vectorizer1 = CountVectorizer(min_df=1)
temp1 = vectorizer1.fit_transform(corpus)
print vectorizer1.get_feature_names()
print temp1.toarray() # temp1是sparse类型, 转换成ndarray方便查看
运行结果:
第一行是corpus中所有词,下面的ndarray每行代表该词在该样本中出现次数,比如第2行第6列的
vectorizer1 = CountVectorizer(min_df=1)
temp1 = vectorizer1.fit_transform(corpus)
print vectorizer1.get_feature_names()
print temp1.toarray() # temp1是sparse类型, 转换成ndarray方便查看
运行结果:
第一行是corpus中所有词,下面的ndarray每行代表该词在该样本中出现次数,比如第2行第6列的