大数据到底是什么?

我们再来看看地球能源的4V属性:

大数据到底是什么?

图注:大数据的4V属性:Volume、Variety 、Velocity和Value。

1、Volume——储量:现在已经探明的,或新探明的煤、天然气、石油、风、太阳能等能源的储量是相当惊人的,但遍布于多种地形、地貌中,就看人类有没有本事都能获取到了。

2、Variety——类别:随着人类技术水平的进步,所获得的能源种类也就越来越多,并且越来越多以前认为不行的资源,后来也慢慢成为了能源,放射性元素就是典型的例子,而若技术成熟,海水将成为人类用之不竭的新能源。曾经有一篇科幻论文说得好“也许未来只需要一把泥土,就能把火箭送上月球”。另一方面,不同能源所需要的开采技术与工具也各不相同,这就好比结构化数据与非结构化数据的处理手段的差别。因此,人类面对的能源类别越来越多,它也需要人类具备越来越多种类的能源开采能力。

3、Velocity——开采/转换效率:很难想像一口一天只产一加仑的油井有什么价值,如果一个太阳能的光电转换效率不到1%,还有使用它的必要吗?因此,人类在能源上的开采/转换的效率将决定这种能源的可利用性,就如果做数据分析,今天的销售数据分析,一个月后才能出来,那不分析也罢了。

4、Value——价值:能源的价值取决于它所能提供的能量与贡献,谁都知道95号汽油比92号汽油好,但也更贵;煤很便宜,但能提供的能量也相对较低;电能,在目前仍要通过其他能源转换得来,这都是价值之所在。它决定于自身的属性,与相应的数据挖掘与提炼的能力,前者相当于汽油与煤的不同,后者相当于炼油厂在95与92号之间的提炼工艺不同。它们都最终决定了数据的价值——并且像某些大数据宣传中所鼓吹的那样,好像任何数据用大数据分析后,就能黄土变黄金一样,这是不可能的,除非你自己对某类数据的认知就有偏差(原本就是土,和原本就是金子,有着本质不同)

IBM所提倡的Veracity,我认为可以理解为能源的提炼水平,就算是95号汽油,中国产的能和欧美产的相提并论吗?这就是所谓的真95与假95号的区别。另一个典型的例子就是浓缩铀,丰度为3%的铀235的低浓缩铀可用于核发电,而丰度高于90%的铀235则可以用来制造核武器,两者的价值肯定不一样?所以,这种提炼质量与能力上的区别也最终会体现在能源的价值上。因此,IBM强调数据分析的准确与真实,可以与能源提炼过程中的纯度相对应,体现了对数据分析的一种质的要求。

大数据到底是什么?

图注:IBM把大数据第4个V定义为Veracity。

说完理念的对比,再看纵向技术架构上的相似之处,大家可以想想大数据中所谈到的数据采集、汇总、保存、管理、分析、呈现是不是与能源的勘探、开采、汇聚、保管、提炼、使用有着一一对应的关系呢?

特别需要指出的是,现在物联网的一大分支——工业互联网越来越热,而大数据就是其最后的重要支撑(前不久通用电气还专门为此投资了Pivotal),其理念在于将各种传感器、致动器也纳入整体的信息采集体系,借助工业设备管控平台,分析出存在于工业设备内有价值的信息,以便于管理、精度调校以及健康预警。想想看,这是不是像地质勘探中,将不同炸点的传感信息汇总起来,再通过震荡波分析软件,来呈现出地下的矿产分布与结构视图?

大数据到底是什么?

话说至此,我们应该可以总结一下了——在某种角度上讲,大数据其实就是人类能源开拓历史在IT领域的一种再现与映射。

无论从理念还是实现手法上,大数据的种种说辞,都可以在人类悠久的能源勘探、开采、利用的经验中到对应的关系,因此,从根本上讲它并不新鲜。

但关键就在于,在IT领域,对于“数据能源”的认知水平,远不如人类对其他类别能源的认知,所以当我们有一天终于完善了相关理念基础,开发出相应的工具,看到了数据内部的能源之后,可能就一种当初发现石油一样的冲动,进而将其夸大、神话。但是,仔细想想,对于已经经历过太多这类惊喜的人类来说(火、电、煤、油、气、核能、太阳能,哪个不给我们一个惊喜?),应该不必如此大惊小怪。