rucasu队:目标行人分割研究项目

第五组:大家好,我们参与的项目是百度的目标行人分割研究项目。最后我们也获得了百度的20万现金大奖。这是我们参加这次竞赛的组成,吴子丰是队长,我是第二个黄永桢。我们简单介绍一下这次竞赛任务,是做目标分割,确定说是在这里面做行人分割。给出一个图象,我们要判断哪些像素点是人,哪些是背景。这个任务在学术界是长期以来的重要问题。它的困难在于它目标多种多样。有尺度、形状、观众等等多种变化。也因为他有复杂的背景,使这个问题变得更加难。在今年之前,这个问题的一些主流方法都是基于图理论的。

去年一个深度学习的算法在计算机视觉CV领域取得了巨大的突破。这个框架是用来做目标分类的。关于深度神经网络,在去年的竞赛有一百万样本的竞赛,取得了非常好的成绩。完败之前所有的算法。并且已经被Google、百度全面采用深度应用。我们也选择了这样一套技术来做。今年的EBN文章里面,美国一个顶尖大学的教授提出了这个模型。我们就是在这个模型里面进一步来做的。

对每一个,可以看到红色、绿色、蓝色三个窗口,他们的中心点是同一个象素,我们是针对他周围的环境信息,来判断这个象素是前景还是背景。对所有采用深度神经网络,把它建模以后,就能够区分每一个像素点了。这个模型非常庞大。采用GPO技术可以很好的解决这些问题。

我们取得的成绩,比第二名高出8个多百分点。这是我们的结果。如果能达到86%结果的话,很大程度上意味着他可以有一定的商业利用价值。因为准确度到86%,意味着大部分人被正确的分割出来。人被分割出来以后,接下来可以做很多相关的应用。在讨论类应用之前我们可以看到一些结果。第一列是比较好的成功的分割。第二列和第三列,由于背景和前景太相似、太复杂了,也会有一些失败的案例。但是总体上86%代表了大部分图象都能够被成功的分开。

值得一提的是有一个词叫“End —to—end”。它是特征性,需要人为的参与。但是我们是输入一个象素,直接给出你结果,不需要中间任何的象素。而且准确率结果可以上90%以上。

应用背景,第一,做智能视频监控,一个重要的问题就是把人找出来。你只有知道人在哪。视频监控都是以人为本,你把人找出来以后可以做很多的应用。比如说人到底是在马路上还是在人行道上,汽车在什么地方上,这都涉及到智能交通方面的问题。第二,敏感图象过滤。比如说黄色图象、政治敏感图象,如果你能把它分割出来,就能够很好的过滤掉。第三,网络商品搜索。我知道Google已经很好的推出了这个,也在做。如果这个问题解决好的话,有一个大明星背一个包,你想知道这是什么包,直接把它的图片告诉你,你去互联网上把它的图片都找出来。类似的商品都可以找到。第三,智能图象处理。大家用过百度魔图,你想把人脸的像素点做一个分割,你能针对这些点做一个美容。就可以做很多其他的应用。这是我个人能想到的东西。

谢谢大家!