机器学习——海量数据挖掘解决方案

图 2 回归分析示意图

统计分类——被广泛应用的机器学习方法

统计分类要解决的问题是,如何将一个样本点分到类别集合中的一个或多个类,比如图3所表示的就是将数据分为3个类。

机器学习——海量数据挖掘解决方案

图 3 统计分类示意图

现实场景中我们往往需要把数据分成不同的类别,以方便我们分析和使用,因而统计分类方法具有广阔的应用范围。达观数据团队开发的用户建模、内容审核系统、反作弊系统等都使用到了统计分类模型。比如反作弊系统,目的是区分用户行为是否作弊,抽象出来就是个分类问题:输入是用户的各种行为数据经过处理后得到的特征,输出只有两个类别——“作弊”和“非作弊”。接下来我就简单介绍一下最具代表性的分类算法——支持向量机(Support Vector Machine, SVM),一窥机器学习的工作原理。SVM绝不是入门级的机器学习算法,选择介绍它是因为,机器学习需要解决的数据线性不可分、过拟合等问题,SVM都给出了比较可靠的解决方案,借此我们也可以对机器学习有个大概的认识。

理想情况下SVM的理论模型