基于机器学习方法的POI品类推荐算法_国内_物联网_中国计算网——工业互联网一站式服务平台—

　　2.特征空间表示(典型的如PCA)

　　文本特征经常采用的基于信息增益方法(IG)特征选择方法[3]。某个特征的信息增益是指，已知该特征条件下，整个系统的信息量的前后变化。如果前后信息量变化越大，那么可以认为该特征起到的作用也就越大。

　　那么，如何定义信息量呢？一般采用熵的概念来衡量一个系统的信息量：

　　当我们已知该特征时，从数学的角度来说就是已知了该特征的分布，系统的信息量可以由条件熵来描述：

　　该特征的信息增益定义为：

　　信息增益得分衡量了该特征的重要性。假设我们有四个样本，样本的特征词包括“火锅”、“米粉”、“馆”，我们采用信息增益判断不同特征对于决策影响:

　　米粉(A)火锅(B)馆(C)品类

　　整个系统的最原始信息熵为：

　　分别计算每个特征的条件熵：

　　利用整个系统的信息熵减去条件熵，得到每个特征的信息增益得分排名(“火锅”(1) > “米粉”(0.31) > “馆”(0)) ，按照得分由高到低挑选需要的特征词。

　　本文采用IG特征选择方法，选择得分排名靠前的N个特征词（Top 30%）。我们抽取排名前20的特征词：[酒店, 宾馆, 火锅, 摄影, 眼镜, 美容, 咖啡, ktv, 造型, 汽车, 餐厅, 蛋糕, 儿童, 美发, 商务, 旅行社, 婚纱, 会所, 影城, 烤肉]。这些特征词明显与品类属性相关联具有较强相关性，我们将其称之为品类词。

　　基于领域知识的特征选择方法

　　基于规则的特征选择算法，利用领域知识选择特征。目前很少单独使用基于规则的特征选择算法，往往结合统计学习的特征选择算法，辅助挑选特征。

　　本文需要解决的是POI名称字段短文本的自动分类问题，POI名称字段一般符合这样的规则，POI名称 = 名称核心词 + 品类词。名称核心词对于实际的品类预测作用不大，有时反而出现”过度学习“起到负面作用。例如”好利来牛肉拉面馆“， ”好利来“是它的名称核心词，在用学习算法时学到的很有可能是一个”蛋糕“品类（”好利来“和”蛋糕“品类的关联性非常强，得到错误的预测结论）。

　　本文使用该规则在挑选特征时做了一个trick：利用特征选择得到的特征词（绝大部分是品类词），对POI名称字段分词，丢弃前面部分（主要是名称核心词），保留剩余部分。这种trick从目前的评测结果看有5%左右准确率提升，缺点是会降低了算法覆盖度。

　　分类模型

2/4 首页上一页 1 2 3 4 下一页尾页