数据挖掘比赛通用框架

from sklearn.feature_extraction.text import CountVectorizer

vectorizer1 = CountVectorizer(min_df=1)

temp1 = vectorizer1.fit_transform(corpus)

print vectorizer1.get_feature_names()

print temp1.toarray() # temp1是sparse类型, 转换成ndarray方便查看

运行结果:

 

第一行是corpus中所有词,下面的ndarray每行代表该词在该样本中出现次数,比如第2行第6列的