工程院院士高文:大数据的技术趋势与应用前景

这些案例告诉我们大数据时代已经来了,当然在大数据里面我们需要知道什么东西的量最大,这个曲线大家能够看到,我们2012年图像和视频数据已经占到80%多,今年图像和视频数据在整个大数据的比例已经要接近90%,这样一个比例,在真正的大数据里面你的核心挑战到底是什么,当然数据大了以后怎么处理、怎么挖掘里面的一些有价值的规律,是我们首先要做的。最大的数据要怎么处理,实际上是最大的一个挑战。

所以说我们多媒体大数据,特别和图像、视频有关传输、存储、处理、应用是四个问题。为什么有效存储这个问题很难,实际上现在街上按的摄像头所拍下来的东西不会永远保存,有的会存三个月,有的会存一个月,有的还会存一个星期就会覆盖掉,这个数据就永远丢失的,为什么会这样呢?因为存不起,这个费用太高。怎么有效保存对于大数据是一个很大的难题。怎么样处理,大家都以为这个问题很简单,有各种各样的智能处理系统、图像分析系统,实际上那些都是再研究或者是做演示,像城市大规模系统还是比较少。

第二,关于智慧城市中的多媒体大数据的挑战。到底是什么挑战呢?因为智慧城市本身,这个概念是一个非常好的概念,所谓智慧城市也是一种生态系统,这个生态系统里面为了达到,比如说这个城市的平安、健康、适宜居住、交通方便等等,所以你需要去构建一个完整的信息系统,这个信息系统实际上是包括视频传感、物联网系统和网络、和整个决策系统构造成一个完整的系统,这个系统才叫智慧城市。在这个系统里面有很多子系统,包括有可视化的治安防控系统、应急联动子系统、数字化城市管理系统等等,比如像治安防空系统可以通过各个卡口、电子警察、一些监控、技术防范等等子系统实现治安防控。对于应急联动,对于自然灾害、公共事务等发现以后能够启动应急联动的功能。城市管理就包括现在我们经常说的汽车定位、地理信息、身份验证、物品识别、数字通信等等,把这些系统连接在一起是一个完整的信息系统。这个系统的监控很关键,当然不是视频、摄像头,里面包括各种各样的传感器,视频是比较主要的一些传感器,这些传感器分布在城市的各个角落,在各个角落的获取的各个信息是通过一个网络把这些信息能够进行传输,当然这些传输,网络是分各种各样的一组一组的,这里面和居住有关、和办公有关、和交通有关的等等。这些一些群体的数据通过这个网络就会构造成一个所谓的感知网,如果你以摄像头为主就是视觉感知网,这个视觉感知网会被送智能分析中心,最后对整个智慧城市进行决策。这个决策里面有两个非常大的难题:

1、存不下,刚才已经说过,数据最多存三个月,有的可能一个月、一个星期就被覆盖掉,数据永远被清除掉,这是很可惜的事。

2、找不快,如果发生一件事希望系统快速找出来反而找不快。

首先我们看存一下这个问题,因为现在数据源源不断的产生,源源不断的往系统里面灌,系统的存储除非你很有钱,不停的增加存储设备,但是现在没有说哪个人不断的增加存储设备,一个预算完了存储一段时间就算了,或者把里面的信息摘取出来放在另外的地方。这里面大家很容易想得到,如果有一个非常好的高效的存储技术,或者把原来的图像和视频编码压缩可以节省存储空间,原来能存三个月,如果能把它的压缩效率提高一倍就可以存六个月,或者把原来的系统开销减掉一半。这件事在技术领域已经做了三十多年,大概从90年代初有人提出来,刚开始不是为了视频监控做的,而是为广播电视、数字电视做的,比如第一代的编码标准,早些时候大家用的VCD、DVC的标准,做了一段时间大家觉得压缩不够又开始做第二代,觉得还不够就开始做第三代,现在系统大量使用的是H.264,我们叫做第二代的标准技术,现在正在做第三代的一些东西。

第三代、第二代、第一代的编码效果有多高呢,第一代的编码标准能够把原来的视频数据压缩到1/75,第二代比第一代效率增加了一倍,能够把原来的视频压缩到1/150,现在正在做的第三代大概能把数据压缩到1/300,大概是这样,取下来的视频压缩完之后存储在那里,如果有办法找到一个编码压缩技术就可以提高它的编码效率。为什么有150:1、300:1,甚至未来修600:1的压缩能力呢,因为我们拍视频的时候里面有很多的冗余,只要你有很好的算法把这个冗余去除掉,所以拧毛巾就是做视频压缩要做的,为什么可以这样呢?因为冗余里面有各种各样的,比如说同样的东西每一桢被拍了很多遍,如果每一桢都重新表达出来肯定很浪费,能不能把后来拷的都一样拷过来就可以了。还有一种叫编码冗余,实际从理论可以分析出来,现在的算法离真正的理论上限还差很远,只是找不到更好的算法逼近那个理论上限,所以现在有成千上万的工程师和科学家找高效编码的算法,希望一点点进行改进。所以我们还有很多的空间。基本大的框架就是这个这张图给的框架。笼统说,采用包括正交变换、运动预测、商编发等等使编码效率一点点的提高。