比如说我们做的人脸检测,我们把相册里面的人脸检测出来,然后再进行标注,做了各种各样的UI设计,我们把这个东西做到微软的Photo Tagging为里面。后来我们做图像的搜索,我想搜索一下我的小孩穿绿一衣服的照片,把穿这件衣服的照片搜索出来。后来我觉得前面这十几张挺漂亮的,我把它选出来,然后做了一个识别软件,你用计算机自动判断出来,这个照片里面哪些部分是重要的,你不能进行遮挡,同时你要把整个背景全部盖住,同时你要均匀的分布,所有的条件同时满足,要在几毫秒之内算出来,这个技术现在是不难的,但是十年前是相当难的。所以为什么那时候专门发表一篇文章专门干这件事情,我做了很多特别效果的软件,这时候我太太不跟我吵架了,她觉得我干了一点有用的事情。
我刚才给大家看的其实都是有照片的,我判断这个照片里面哪个地方重要,哪个地方不遮挡,我只要用人脸检测就可以了。但是如果是普通照片,什么地方我不应该遮挡,什么地方是重要的,这涉及到图像内容的分析,这就涉及到更加智能的东西。图像智能在学界是研究很久的,我们研究的时候前面也已经做了十几年了,但是我们是第一个用大数据的方法来做这件事情的,现在大家经常听到大数据,其实十几年前已经做这件事情了,只是我们叫的名字不一样。
我们可以看到数字,过来三个学生,要了两万张图像,我们觉得很了不起的,现在的数据量是不一样的,算法也是不一样的。那个时候能够做到是相当了不起的,所以我们最后做出的结果是这样的,我们计算机可以判断出一张图像哪个是最重要的。
还有一个好玩的应用,这个东西你把图像缩小以后,你就看不清了,如果你把中间重要的部分切出来再缩小,你还是可以看清图片的,所以这个实际上还是很有用的,这是照片系统里面很多图很容易把里面重要的部分弄出来。
实际上人工智能难就难在并不是所有的东西都那么做的,有些东西是超出我们的智商的。比如说这张图片,哪个对我来说是更重要的,但是计算机是把前面的判断出来,这个现在是可以解的,现在我搜集大量小孩撒尿的照片还是可以训练出来的,但是不是那么容易的,有的时候领导讲话也是这个姿势。
下面这张图更难理解了,我用我小孩的图,你们做图像理解,你们能不能理解这些图。后来他们看了以后都放弃了这个研究方向,比如说这是我小孩的第一个女朋友,这是我在俄罗斯给他买的玩具,关系还是很好的,但是进展的有点快。他才六个月,很有科学家的探索精神。
然后我们又做了一些有趣的东西,把这个图像把物体切割出来,我们把一组图同时切割出来,再做一些好玩的东西。
接下来我们希望跟一些电影结合起来,我们就找了小兵张嘎卡通片,我们进行图像搜索,找出了相似的图像和照片,把这个替换掉了,这个用PS是很容易做的,但是十年前是很难做的。我们从检索到分割,所有的步骤都是动画做的,这是十年前的工作,也是发表在顶级的会议上。这个是小兵张嘎跟他的妹妹,这是我的小孩跟他的女朋友。这是小兵张嘎跟特务。
刚才讲的是人脸识别,图像方面我们也做了开创性的工作,在我们做之前,大家讲这张图有一些毛病,然后再评价这个Quality,我们做这个工作这张图是很完整的图,但是我们判断这张图有多美、多漂亮。比如说这两张图,按照传统算法,左边是模糊的图,右边是清晰的图,但是我们判断左边这张图是有意义的,怎么让计算机来判断一个图美,还是不美,其实我们也不知道怎么做。所以我让学生到图书馆把摄影书拿回来,我们再用计算机来识别,它的景深,物体的白色在什么位置,然后学突然这张图是漂亮,还是不漂亮的。它有什么用呢?我们在网上搜索了大量的图,搜索完了以后我们可以把漂亮的图放在前面,差的放在后面。或者说你在手机牌照的时候,我们可以教你怎么牌照,怎么取景,怎么样使用大光圈等等。
我们在MSN上还做了一些特效,加一些眼镜,如果大家现在用APP可以在脸上做各种各样的特效,这是我们十年前做的产品,已经在MSN上用了很长时间。但是我们做这么多产品,大家没有一点感觉,根本不知道我们做了什么东西,就是因为做的很辛苦,而且效果也没有那么好。