大数据时代 管理从何下手?

数据量的增长变成一个突发事件是最近两年的事情。基于互联网的应用产生的社会性变革,使得一系列数据开始从客户端产生,而不是从企业里产生。数据量的增长速度有了新的级数上的增加。在这个基础上,70%-85%的数据是“多种数据格式的复合体”。未来数据的管理模型跟今天会有很大的差别。另外,87%的数据库性能问题都与数据量的增长相关。这是基于Oracle的一次数据调研。Gartner发现数据量直接影响的是现有处理模式的性能。所以,现在数据量的高速增长,如果按照原来的管理模式,把数据都放在一起保存,未来会遇到更多的挑战。因为现有数据库结构和数据管理的模型,已经不能满足基于大数据的数据规模。

    如果一些企业提前采用大数据技术,能在竞争中取得一些先机。Gartner对未来五年的预测,其中有一条引起了轰动。到2015年,85%的世界五百强企业如果不采取大数据的策略将失去竞争力。所以大数据的竞争是非常关键的时机,也是非常残酷的事情。现在大家的确需要有足够先进有力的应对措施。

    一、“大数据”是什么?大数据带来的问题是什么?

    “大数据”指的不仅仅是数据量,而是会带来一系列新的挑战。Bigdata的概念首先是由Gartner一位叫道戈拉里的分析师提出的。他提出Bigdata面临三个V的挑战:数据量(Volume)、数据多样性(Variety)、高速(Velocity)。

    在这个前提下,Gartner去年发布了Bigdata的12个模型。最关注的是最下面的区间,即有关Bigdata最开始产生的几个量化指标:数据量、数据种类和处理速度。一般企业所面对的数据管理管理的是数据库、结构化数据,以及所能预先安装好的管理软件所带来的数据。大数据管理的往往是我们无法管理的数据,比如来自企业外部,微博、社交网站和多媒体等各种载体。

    数据多样性将是大数据的一个重点。它意味着未来数据的产生本身就是一个很大的区别。高速,与CIO关注的系统性能不是等同的关系。这里的高速指的是从数据产生到最终针对数据产生决策的速度,里面包括了存储的过程、计算的过程、整个模型和以什么方式提交出最后的结果。所以,不仅是计算能力和存储性能的问题,更多是在数据管理方面如何保护它的处理速度。在大数据问题中,速度往往是性命攸关的。比如对于灾难的预测,当灾难发生时,要很快对灾难发生的程度、影响的区域范围、对长远的影响等都需要量化出来。这是大数据很典型的应用,如果短时间内没有计算出来,那么数据就没用了。

    大量、多样性和高速必然带来复杂性的问题。到现在为止很难找到一个很好的解决方案,能够应对所有的数据格式问题。虽然现在有很多不同行业开始采用标准化手段来回避这个问题,但仍然是很严峻的问题。

    现在在医疗界有一个数据标准Dicom,即医疗数据的影像传输协定。当初只是针对制药,不过现在医疗行业包括医院都在采用这个数据格式,这是很好的趋势。通过一个中立机构,制定数据格式的标准,由它来解决一部分数据复杂性的问题。但如果放到更大范围,面向所有企业的话,数据格式还不存在。虽然现在有SML这种相对来说适用范围更广的格式,但在具体的定义以及应用方面还有很多挑战。

    极限的信息管理:12个象限

    “大数据”将对信息管理的各个方面的需求推向极限。访问权限管理和控制,包括数据敏感性分级(Classification)、共享协议(Contracts)、热点数据(Pervasiveness)、技术实现(Technologies)。这个层级是用户很少提到的,有了如此大的数据量,未来会是很严重的问题。数据敏感性分级,把所有数据放在一起是数据管理的灾难,数据管理的前提是所有数据产生的价值是不同的,不同时期产生的价值也是不一样的,必须要定义哪些是有价值的,哪些没有价值,还要定义价值的时间区限。共享协议,数据提交的方式是怎样的,如何提交,提交的格式是怎样的,这些都需要通过合同以法律形式确定下来。热点数据,大数据时代热点数据在不断变化。热点的程度和时间未来对访问权限和控制很重要。技术实现,能够管理大数据的技术手段有哪些。

    质量管理包括保真度(Fidelity)、数据的相关性(Linking)、数据的有效性(Validation)、数据的有效期限(Perishability)。在访问权限之上是质量管理,这是原来数据仓库中的重要概念。数据拿进来之后保真度怎样,每个数据都有上下文的关系,这些上下文关系会不会影响在下一个场景中使用。数据的相关性,不同来源的数据组合的模型产生的结果不能将其中一部分拿出来断章取义。数据的有效性,从时间和应用场景的角度对这些数据进行管理,这是更高的层面。这四个象限都非常重要,现在大家关注更多的数据量的问题。

    大数据产生对数据中心架构设计的新需求

    现有基于关系型架构设计出来的数据中心很难满足未来的要求。大数据如果能充分利用将有非常好的商机。比如商业预测,08年的经济危机人们都归咎于监管不够和对数据模型的设计出现了严重问题。如果设计出一个更加完善的数据模型,是否能预测出产生的危机,并对后果更加量化,帮助人们进行更好的决策呢?大数据不仅对企业,对一个国家,甚至全球的稳定都是十分重要的。

    还有很多新类型的应用,比如期货、股票。如果能比竞争对手早一点点预测到市场趋势,都会有非常重要的商业价值。从挑战和机遇来看,会产生对基于大数据架构的一种新的需求。大数据的复杂模型不是在原有系统上扩容,增加一些新应用就能实现的。比如,用数据中心逐渐扩容的方式来迎合这种需求很难做到的。无论是数据库、存储、数据计算能力,现在流行的数据中心的技术很难满足大数据的需求。需要考虑对整个IT架构进行革命性的变化。