团队介绍:
EagleEye队是由南京大学计算机科学与技术系的两名研究生笪庆和陈虎组成,我们两人均来自机器学习与数据挖掘研究所。EagleEye名称来源于我们在早期使用hadoop实现的一个基于内容的图像搜索引擎的名字,后来就沿用的这个名字作为在各种场合组队的队名。我们对基于真实海量数据的机器学习和数据挖掘尤其感兴趣,我们相信机器学习和数据挖掘的技术会对所有数据集中型的行业带来推动型的发展。
作品介绍:
在这次比赛中,我们选做了技术类赛题中跟我们专业相关的其中的四题。由于不是创意类赛题,所以在这里我们将简单介绍一下我们对每个题目的所使用的方法。
第一题
第一题我们采用了所谓的Tiny Image的方法,存取了图片的缩略图的直方图文件,然后在第一个任务中将10个查询在Tiny Image中的近邻查找出来,选取N(N>100)个出来作为候选,在第二个任务中根据查询和候选图片的原图计算的距离对候选图片进行re-ranking,输出结果。
第二题
第二题我们首先利用hadoop从6个月的动态路况计算出一周里面每天每个小时每个链路的平均通过时间,然后枚举所有投递方案返回其中最快的,对每种投递方案,用Dijkstra计算相邻投递点的最短路径。考虑到动态路况具有时效性,计算平均时间时我们按照日期新旧进行了加权。
第三题
第三题我们计算了每个用户的候选问题和该用户回答过的问题在文本特征上的cosine距离,综合问题类型的相似度以及问题的悬赏分,给出了用户最可能回答的问题的一个排序,并基于这个排序预测前3个问题即用户真正回答过的问题。
第四题
第四题我们使用了2个线性SVM,一个是multi-class SVM,用于区分480个类型的查询;另一个是one-class SVM,用一个线性空间将训练数据中的样本点“包起来”,用来判断480个类别之外的查询,最后将二者的结果合并起来得到最后的预测结果。