中国工程院院士高文:多媒体大数据分析与搜索

  刚才说的是从编码的角度,我们有去空间冗余、去时间冗余和去编码冗余三种技术,来把视频流里的冗余去掉,这三种技术包含了许多算法,有变换、滤波、运动补偿、熵编码等等。分类就是像刚才说的,去空间冗余最主要的工具是变化,把时域变到频域上再进行处理,对于空间的冗余主要是采用预测编码的方式去除,对于感知主要是通过熵编码去除。

  

 

  压缩性能来源估计(倍数)

  再细分一下,这三代到底是哪个工具做了多大的贡献?上图左边两列,色彩空间和这几代大概贡献度是6倍,第三类是预测与运动估计。这一块每一代是不一样的,比如第一代贡献3左右,第二代贡献6左右,第三代贡献10左右。熵编码这三代有点变化,但是没有构成成倍的变化,基本大约是3倍左右。所以乘起来,针对高清视频,第一代是75倍,二代是150倍,三代是300倍,我们正在做第四代,希望做600倍。

  刚才我们说第一代、第二代、第三代,它的应用场景是什么?应用场景是电视、电影,因为我们什么东西都是需求拉动的,它最大的需求是什么?过去30年一直是广播电视和电影,广播电视和电影有个假定,即场景要经常换。为什么?场景不换,人的注意力就会失散掉,很有可能就打瞌睡睡着了。所以,它有一个假定是最长30秒就必须换掉场景,这样人脑能被抓住,随着情节的演化,人能够深入进去。这个假定已经被视频编码界广泛接受,也就是说背景是要经常换的。并且,经过反复实验,认为0.5-2秒为最合适的间隔。

  但是如果应用于监控,故事就不一样了,这是为什么?因为一个场景长时间不变,这时候假定是错误的。现在监控里面用的算法和广播电视一模一样,只不过有的厂商比较聪明一点,说咱们能不能别2秒钟就切换,能不能再长一点,比如弄1分钟、2分钟,有这样的案例,效果也确实提高了一些。但是又有一个问题,尽管场景是不换的,但镜头拉得近的时候,场景里面公交车站分之一画面,你也不知道它什么时候进来,刚好你切换时公交车在里面,切换完公交车走了,这个场景和你后面参考的场景变化非常大,这时候就来问题了,就是多少秒或多少分钟的擦分全都不对了,这个突然马力就上来了,系统就崩溃掉。

  现在做模式识别时,压得狠了以后把目标里面很重要的特征给滤掉了。如果我知道哪个是前景,这个我压得轻一点,后面的识别就会好了。对于背景,因为反正它是背景,没有人在乎好一点差一点,背景可以压得稍微狠一点,这样可以把真正有用信息保留得多一点。怎么样做背景建模呢?我的学生们做了一些工作,可以通过算法把它们组合到一起。预测场景怎么建立起来,什么时间更新,多长时间需要更新,更新的点是什么,是固定更新,还是发现过了哪个域值就要更新,有两个博士论文都是做这样的工作。

  把所有这些东西集成在一起,我们做的音视频标准里面,专门有个分值做监控视频,这个正在走国家标准化的程序。它经过严格的测试,在视频流里面我们加上这个模式,然后在里面做点优化,比广电里面用性能高一倍,提前完成了在2023年做到的任务,也就是说从监控视频角度我们已经做到了第四代,它已经性能提高了一倍,测试的结果是基本可以翻一番了。我们把同样的技术架到,国外最好的编码叫HEVC,我们把同样的场景技术加到HEVC上,其他什么都不动,加上背景建模技术进去,它的性能可以提高40%,提到50%就是下一代了,我们没做优化,直接加上去就做到这样的效果,这是非常好的技术,这个技术目前还没有开始用,我们也希望找到一些好的用户,特别是建大的城市的数据中心时最好采用这种技术,存储就会节省很多。作为AVS2这个标准本身,它现在已经在一些地方开始使用。

  编码有很多有意思的需求,不是所有的都能做,像这种需求我们认为在监控里能做得动的就做了,现在正在做VR,这是第一个挑战。

  二、看不清:面向对象检测、跟踪与识别解决模式识别问题

  第二个挑战,对象检测、跟踪识别挑战。不仅仅是模式识别率再高、人脸识别再准再高,识别的准和不准有算法的好坏,还有一点是在编码那端能不能对我提供支持。以往这两个系统像轨道一样完全平行,我们希望编码和识别能合作,把中间那堵墙翻过去或者拆掉。怎么拆掉?编码时候要考虑怎么办。现在我们提出个支持是ROI,就是编码时候识别出来哪个区域可能是识别要用的区域,把这个区域定义成感兴趣区域,对于感兴趣区域要描绘出来,现在语法里对感兴趣区域有专门的描述,除了这个区域以外还包括其他的,比如你可以放GPS信息、摄像机参数信息。有了这个以后,我在后面编码时候,会针对编码参数进行调整,ROI区域压得轻一点,这样关键的信息丢失的会少一点。