另外,先不说数据的意义如何,单从海量数据的堆积来看,想要做好大数据分析处理也并非一件容易的事情。
目前,我们对大数据所能采取的分析处理办法,不外乎两种方式:一种是数据转换,即先将异构数据转为结构化数据后,再利用结构化数据时代成熟的分析工具去处理;一种是无需转换,直接对异构数据进行分析处理,后者面临的最大问题是,已存的分析工具主要都是针对结构化数据的,对异构数据的分析工具也有,但尚不成熟。直白的说就是以现有技术水平还无法对大数据进行理想化、成熟地分析。
董敬认为,现在谈的大数据实际是拓展的异构数据。而异构数据和结构化数据是有本质区别的。“结构化数据是数学的、数字的,它是yes和no的关系,很明确。我们所有东西都是要进行数学描述的,不会将‘白砂糖’三个字打进去。而是先得定义1=白砂糖,2=红砂糖,然后把1和2输进去,才能进行计算。所以,结构化数据不只是占用硬盘空间数,它从分析方法到信息承载量,都很成熟。”
他认为,客观讲,异构数据的信息量没有结构化数据的多。比如“白砂糖”三个字,按字节算是六个字节。但在结构化数据里,比如它等于2,2只有一个字节,却代表了“白砂糖”这样六个字节承载的内容。物理上看节省了五个字节,所以它贮存的效益更高。另外,因为结构化数据直接可以带各种各样的线性模型,只要一上数据公式就能出结果。
“而现在的异构数据主要是一些音、视频和图形图象。这些内容除结构化数据能够承载的东西外,要对它们进行分析会相对复杂一些,需要人机辅助。而且异构数据所承载的信息量,如一段视频、一张图片或一张照片,都只是反应一件事,就是一个字节。要想形成大数据很容易,只要不做结构化数据,几天就能形成大数据,这几天的数据量比做结构化数据的人几十年做的数据量都多。但那只是字节数,它承载的信息量可能没什么。”
他指出,对异构数据进行标准化分析,需要用到线性分析模型,但前提必须将其转化成结构化数据。当然,对异构数据进行转换不是一个简单的编码那么容易。因为很多异构数据并非一个固化的状态,而是一个动态的。所以,先得制定一套评价它、固化它的尺度或者标准,然后在整个分析过程中用这个标准来衡量所有过程或行为。
首发集团副总工程师兼信息化办公室主任徐志斌认为,“像我们一年大概路上会有几亿笔交易,其中交易车辆信息包括了路上的视频信息。这些信息形成我们的样本优势。所以我们希望通过机器学习,看能否从现有一些图片里针对我们自身需求进行提取,来做一些特征分析。”但他表示,“采用传统算法想要做这样的事情效果不是太理想。”
目前国际上视频技术也有比较前沿的研究方向,即如何就视频数据去做浓缩。这样做的目的,一个是,比如晚上没车的数据有8个小时,通过浓缩,最终可能只留1个小时的数据,能够降低成本;第二个,相当于是从视频数据里进行一些目标、特征或事件行为的提取。此外,业内对视频数据分析也有不做结构化转换,直接以图定图模式去处理的,“这种应用更多的是做一些分析,比如在路上行驶的车辆,可以定位到这辆车在某个时间段里的行驶轨迹、路径等。”
徐志斌认为,现阶段先考虑将视频数据从非结构化转成结构化数据,将大量所需特征提取出来后再做留存,这种方式处理不光是缩减量很大,也只有到这个阶段可能才适合留存下来再去做数据的挖掘分析。
显然,在对异构数据分析处理尚未有特别有效的解决办法之前,我们大谈大数据分析应用时就不得不警惕产业泡沫的滋长。
一如中国工程院孙家广院士曾提醒的那样,谈大数据,有一个数据希望引人注意,“我们传统数据是字符数据,但现在的大数据99%都是新媒体,像视频、音频这样的数据,字符数据占用量不足0.1%。所以,在这个形势下必须要对大数据进行研究,过去传统数据里的字符数据已经过时了。”形势如此紧迫,相比过早的谈论大数据分析应用,我们是否该将更多的目光先转向解决异构数据的分析处理研究上来呢?(李玲玲)