大数据:释放应用价值,数据融合先行

我们所处的社会已经从IT(Information Technology)时代全面跨入DT(Data Technology)时代,数据渗透到当今每一个行业和业务职能领域,成为关键的生产要素之一。从Gartner发布的大数据技术成熟度曲线图中可以看出,大数据已不在是停留在概念层面,而是正式进入了产业化应用进程中。据统计,仅全球交通、教育、消费、电力、能源、健康与金融等7大重点领域的大数据应用潜在价值就在3.2万亿-5.4万亿元左右,大数据潜在发展空间巨大。

1

然而,从中国信息通信研究院的另一组数据表明,国内实际的应用情况尚有差距,据统计有44%的企业还没有大数据部署和应用,24%的部署了但未实现大数据应用,只有1/3的企业初步应用了大数据,是什么制约了大数据的快速普及之路? 中国工程院院士、中国互联网协会理事长邬贺铨院士在2017大数据产业峰会上表示:"数据资源的流动性和可获取性是大数据应用和产业发展的基础,直接关系到大数据价值的实现情况。"

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。但在大数据时代,数据源是多样的、多种形态的,海量的数据常常是半结构或无结构的。从数据获取到最终的数据价值呈现要经历数据从源头接入、处理、存储计算到分析挖掘、应用、服务的完整数据生命周期。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合就成为不可或缺的一步。

2

所谓数据融合,是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集合,实现数据资源的流动和易获取,从而支撑多样并呈碎片化的商业智能服务使用。来自赛迪智库的调研,现实中实施的大数据项目至少有80%的时间和经费花在了数据准备上,其中多源数据的融合是最耗费资源的任务之一。纽约时报也曾报道: "数据科学家把高达80%的时间用于数据准备而不是用来发现新的商业智能".

伴随着人们对数据应用价值的不断渴求,区别于传统数据统计的需求,用户对大数据的数据准备有着更高的要求:

第一,多源。除了众所周知的数据开放度的影响之外,多源数据融合的另一个瓶颈在于如何打破原有垂直建设系统间的信息孤岛、构造统一的整体的数据平台,把分散但相互有关联的数据以整体的视角看待和思考并进行管理,并且通过这样的统一平台,对上层碎片化的或需要快速迭代的大数据应用进行有效、良好的支撑。比如在数据抓取中,要充分考虑传统企业已经具备大量系统存在的情况,而对于这些系统在不干扰的情况下,如何能够把数据准确、高效、实时的拿得出来,快速认清企业有什么样的数据原材料。这在非常多的尤其是政府、大型企业里面是个很大的挑战。另外,数据进来之后,因为系统和系统之间的建设时间是不同的,数据的表现形态也是各异的,我们要对这些数据进行横向之间的处理并且能把这些数据关联起来,让分散的数据形成一个整体,这都是数据融合过程中所要解决的问题。

第二,实时。万物互联的趋势下,人们不仅对于数据的数量,也对数据的时效性提出了愈来愈高的要求,有一组数据表明12%的管理者都能认识到数据对于企业或组织的巨大影响,然而,53%的管理者认为太多的核心信息不能及时获得。特别是在某些连续性业务运转的应用场景下,比如通信、金融、安全领域等,需要通过大数据技术对业务数据进行实时同步的收集、整合与挖掘分析,用以指导甚至是随时根据数据变化而调整业务策略,而不是把业务系统停掉先分析再作出决策。对未来的预测远比做事后诸葛更能体现大数据的潜在价值。

第三,海量。在DT时代,数据量急剧爆发,据IDC预测,目前全球每年数据的生产量是 8ZB( 1ZB=1024EB),2020 年将达到 40ZB.我们已经从"传统互联网"时代的"线上数据化"阶段和"互联网+"时代的"线下数据化"阶段,快速进入了"数据流通时代",即线上线下全产业实现数据化,数据在产业链上下游甚至跨产业流通并创造价值的阶段。在这一过程中,目前数据的生产速度和能力远远大于我们对其使用和价值变现的速度和能力。对数据业务价值的高期望值和落后的数据集成方案之间的矛盾日渐突出。互联网、物联网、云计算,我们的业务系统每时每刻都在产生着大量的不同来源的数据,如何及时、有效、全面的捕获到这些数据是另外一个会直接影响数据价值体现的关键因素。