hadoop作业团队及作品介绍

团队介绍

大家好,我们是来自南京大学机器学习与数据挖掘研究所(LAMDA组)的“hadoop作业”团队。我们的队长是邹晓川同学,小组成员有郭训力、李涛和宋拴。我们都是南京大学2011级硕士研究生。在研一下学期,有幸参加黄宜华教授开设的《大规模海量数据并行处理》的课程,让我们接触了hadoop,了解了hadoop。百度举行的比赛给我们一个一展身手的机会,所以,我们来了。谢谢!

赛题四:基于Hadoop的多分类支持向量机以及半监督学习在文本分类中的应用

基于Hadoop的多分类支持向量机

支持向量机(SVM)本来是用来做2分类问题的,对于多分类(multi-class)问题而言,最为广泛使用的一种方法就one-versus-rest。其具体做法就是对于总共C个类别而言,分别训练C个2分类分类器。测试的时候分别用这C个2分类分类器对待测样本进行打分,最后选取打分最高的分类器作为这个待测样本的最终类别。显然,无论是训练还是测试过程都是可以并行的。其训练过程的并行如下图所示:

 

可见,训练文件首先被复制多份,然后再传给reducer(mapper)进行训练。

半监督学习在文本分类中的应用

半监督学习(Semi-Supervised Learning)指的是学习过程不仅要使用已标记的训练数据,同时还要使用未标记的测试数据。半监督学习的应用场合一般是训练数据较少,而测试样本较多的情形。而赛题4中的-1类没有任何的训练数据,正好符合这种情形。我们算法如下图所示: