有了这样的知识,可以用它架构友好的智能监控识别体系。现在即使有个算法很好,比如266出来了,它编码的效率和AVS2是一样的,我说那也不行,为什么?因为你压完以后还有解,解的时候才知道哪个地方是识别的。现在压的时候就知道哪个东西是有用,哪个东西没有用,有用的可以压得轻一点,这样构建分析架构,底层是完全的视频流,视频流上面可以构架一个区域描述,不是有ROI么,这个“R”就是region,根据区域描述,然后若干的区域构成个对象,它们的关联就可以构成事件,只要处理能力足够强,我就把这个东西表述出来了,这是对识别非常有用的帮助。
三、找不到:以大规模视觉搜索解决跨摄像头搜索问题
第三个挑战,跨摄像头怎么办?我们可以对跨摄像头的数据进行矫正,然后进行一些后续的工作。这方面已经有很多工作在做了,比如我们试验室学生搭了一个系统,你在北大校园的一个地方走,其他几个框是别的几个摄像头,从一个摄像头跨到另外一个摄像头时候,现在有一个专门技术是再认证,一个人在一个摄像头里出现过,当你就到第二个摄像头,那么我能够再识别出来你。因为有时候可能不是正脸,靠人脸识别已经不管用了,就要靠颜色、身体、步态、外形等等综合识别就是你。
多摄像头协同的对象检测与追踪
怎么做好这个系统?除了刚才的技术以外,还有一个重要的技术是能做到大规模的搜索。大规模的搜索这一块我们组有个很好的工作叫CDVS,它可以用很少的特征去搜索你要的东西,就是说我用手机拍一张照片或者拍一个景色,拍完以后传送到服务器,搜索后会告诉你拍的是哪里。这个过程它需要你的特征选得非常好、非常准,然后有代表性,这样才能使得搜索比较准。
具体想法是这样的,可以用一组特征,这组特征我们把它命名叫“CDVS”,CD是一个紧缩的描述词,就是面向视觉搜索的紧缩描述词,这也是在国际标准化框架下面做的。前一段时间有个多媒体描述标准是MEPG7,最近很少人提了,但是最近有人开玩笑说它给MEPG7注入了新生命。
这里面的关键技术,一个是选择特征点,然后选择特征,把这些特征进行聚合、进行压缩、进行点压缩,最后形成个非常小的。举例来说有多小,比如你照了个照片,这个照片有3、4兆大的尺寸,我们从中提出来大概500个bit,连1K都不到,就可以进行搜索了,最高可以到16K,16K检索的效率就更高,我们判断特征好不好是用召回率来判断,我们都希望召回率达到90%,低于90%就认为这个特征没有选好。什么叫召回率90%?我用完整的照片到库里搜出来的东西,和我这用521个去搜,是不是有90%都在我刚才搜的100个里面,如果是的话那你这个特征是可以的,我们是根据这个准则。
它后台的技术涉及到,比如数据压缩的技术,涉及到计算机视觉特征提取,涉及到机器学习和视觉挖掘。特征和视觉有关的主要是局部描述子,如果大家对模式识别知道一点的话,里面有个非常好的描述词叫“SIFT特征”,这个特征它有一些特点,它可以保持平移不变、旋转不变、伸缩尺度不变等,有这个特征在识别里面是蛮有用的。但是这个特征有点毛病,一个是专利问题,另外是耗费存储比较大,耗费计算时间比较大。
这个在目前互联网上和视频监控里已经有一些应用,这是我们搭的验证系统,左边是摄像头实时对着马路,中间是这个系统,经过这个系统,右边的这个是车的车牌号、是哪个摄像头的、颜色等等马上就出来了。所以这套系统只要一上线,将来做布控是非常简单的事。
总结
总结一下,对多媒体大数据、对智慧城市或智能城市有三个挑战问题:压缩问题、模式识别问题、视觉搜索问题。针对这些问题,压缩主要是靠提高编码压缩的效率来应对;识别问题我们要想法做好编码,做些ROI的支持,把这些信息尽可能包含进去,使得后面丢失的信息更少一点;视觉搜索的问题可以采用紧缩的描述形式,使得搜索的速度更快,现在这个系统基本上是100万张图片可以在1秒之内完成搜索,这个速度是非常快的。
这个领域关注的人没有像金融那么多,但是它对整个系统的影响是比较大的,所以也请做系统的人稍微留心一下,另外也需要和做数据科学的其他领域多交流沟通,使得这个系统融入真的大数据平台里。谢谢大家!