数据挖掘比赛通用框架_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

数据挖掘比赛通用框架

4.3.3. 处理文本变量

文本在实际问题中很常见，比如用户评论、新闻摘要、视频弹幕等等。我们用的toy_data不包含文本变量，所以这里我参考了scikit-learn的文档，一个小的corpus作为我们的训练数据集。

corpus = [

'This is the first document.',

'This is the second second document.',

'And the third> 'Is this the first document?',

]

corpus有四句话，可以看做是四个样本。接下来我们先用一个简单的方法处理文本变量——统计corpus中每个词出现次数，代码如下: