基于机器学习方法的POI品类推荐算法_国内_物联网_中国计算网——工业互联网一站式服务平台—

　　建模

　　完成了特征表示、特征选择后，下一步就是训练分类模型了。机器学习分类模型可以分成两种：1）生成式模型；2）判别式模型。可以简单认为，两者区别生成式模型直接对样本的联合概率分布进行建模：

　　生成式模型的难点在于如何去估计类概率密度分布p(x|y)。本文采用的朴素贝叶斯模型，其”Naive”在对类概率密度函数简化上，它假设了条件独立：

　　根据对p(x|y)不同建模形式，Naive Bayes模型主要分成：Muti-variate Bernoulli Model （多项伯努利模型）和Multinomial event model（多项事件模型）[4]。一次伯努利事件相当于一次投硬币事件（0，1两种可能），一次多项事件则相当于投色子（1到6多种可能）。我们结合传统的文本分类解释这两类模型：

　　多项伯努利模型

　　已知类别的条件下，多项伯努利对应样本生X成过程：遍历字典中的每个单词(t1,t2…t|V|)，判断这个词是否在样本中出现。每次遍历都是一次伯努利实验，|V|次遍历：

　　其中1(condition)为条件函数，该函数表示当条件成立是等于1，不成立时等于0；|V|则表示字典的长度。

　　多项事件模型

　　已知类别的条件下，多项事件模型假设样本的产生过程：对文本中第k个位置的单词，从字典中选择一个单词，每个位置k产生单词对应于一次多项事件。样本X=(w1,w2…ws)的类概率密度：

　　采用向量空间模型表示样本时，上式转成：

　　其中N(ti,X) 表示特征词i在样本X出现的次数。

　　参数估计

　　好啦，一大堆无聊公式的折磨后，我们终于要见到胜利的曙光：模型参数预估。一般的方法有最大似然估计、最大后验概率估计等。本文使用的是多项伯努利模型，我们直接给出多项伯努利模型参数估计结论：

　　还记得特征表示一节中统计的term_category_frequency和category_frequency两张表吗？此时，就要发挥它的作用了！我们，只需要查询这两张表，就可以完成参数的估计了，是不是很happy? 过程虽然有点曲折，但是结果是美好的~ 具体参数意义可以参见特征表示一节。

　　接下来的coding的可能需要关注的两个点：

　　参数平滑

　　在计算类概率密度p(X | Cj)时，如果在类Cj下没有出现特征ti ，p(ti | Cj)=0，类概率密度连乘也将会等于0，额，对于一个样本如果在某条件下某个特征没有出现，便认为她产生的可能等于零，这样的结论实在是过武断，解决方法是加1平滑:

3/4 首页上一页 1 2 3 4 下一页尾页