数据挖掘比赛通用框架

4.3.3. 处理文本变量

文本在实际问题中很常见,比如用户评论、新闻摘要、视频弹幕等等。我们用的toy_data不包含文本变量,所以这里我参考了scikit-learn的文档,一个小的corpus作为我们的训练数据集。

corpus = [

'This is the first document.',

'This is the second second document.',

'And the third> 'Is this the first document?',

]

corpus有四句话,可以看做是四个样本。接下来我们先用一个简单的方法处理文本变量——统计corpus中每个词出现次数,代码如下: