基于机器学习方法的POI品类推荐算法_国内_物联网_中国计算网——工业互联网一站式服务平台—

　　其中，|C|表示样本的类别数据。

　　小数溢出

　　在计算类概率密度时多个条件概率（小数）连乘，会存在着超过计算机能够表示的最小数可能，为避免小数溢出问题，一般将类概率密度计算转成成对数累和的形式。

　　另外，如果在计算p(ti | Cj)时过小，取对数后将会得到一个负无穷的值，需要对p(ti | Cj)截断处理：小于某个阈值（如1E-6）时，采用该阈值替代。

　　算法预测

　　本节将结合前面三节内容，给出算法具体的计算预测过程。为简化问题，我们假设字典为：[拉面，七天，牛肉，馆]，并且只有火锅和快餐两个品类，两类样本的数量均为8个。以“好利来牛肉拉面馆为例”：

　　对测试样本做中文分词，判断”牛肉“属于品类词，丢弃品类词”牛肉“前面的部分，并提取样本的特征词集合得到：[牛肉拉面馆]

　　根据字典，建立向量空间模型：x = [1, 0, 1, 1]

　　利用Naive Bayes模型分类预测，我们给出在“火锅” 、 “快餐”两类的计算过程(计算时做了加1平滑)：

　　特征词品类火锅(C1)快餐(C2)

　　样本属于快餐的概率高于属于火锅概率4倍，预测样本属于快餐置信度明显高于火锅概率。

　　算法随机抽取2000条未校准的POI数据进行评测，算法的评测指标有两个：覆盖度和准确率。覆盖度是指算法可预测的样本数量在整个测试样本集中的比例。由于采用特征选择后，一些POI名称因不包含特征词集合而无法预测，算法的评测的覆盖度为84%。算法的准确率是指，可预测正确样本在整个测试样本集中的比例，算法评测的正确率为91%。

　　总结

　　机器学习解决问题最关键的一步是找准问题：这种问题能否用机器学习算法解决？是否存在其他更简单的方法？简单的如字符串匹配，利用正则就可以简单解决，才机器学习方法反而很麻烦，得不偿失。

　　如果能机器学习算法，如何去表示这个机器学习问题，如何抽取特征？又可能归类哪类机器模式（分类、聚类、回归？）

　　找准问题后，可以先尝试一些开源的机器学习工具，验证算法的有效性。如果有必要，自己实现一些机器算法，也可以借鉴一些开源机器学习算法实现。

　　Reference

　　Introduction to Information Retrieval:Scoring, term weighting and the vector space model

　　Lucene SmartCn

　　A framework of feature selection methods for text categorization

　　A Comparison of Event Models for Naive Bayes Text Classification

　　原文地址：http://outofmemory.cn/wr/?u=http%3A%2F%2Fblog.chedushi.com%2Farchives%2F10004 感谢原作者分享。

4/4 首页上一页 2 3 4