掘金大数据产业链:上游资源+中游技术+下游应用

据此, 麦肯锡曾预测中国大数据潜在市场将达到 1.57 万亿元。

大数据 大数据

从公司层面上看,以 IBM 为首的 IT 巨头在收入上遥遥领先; 创业型公司Cloudera、 Splunk 等的收入与巨头厂商仍有差距。 2013 年 IBM 大数据业务收入为 13.68 亿美元, HP 和 Dell 的大数据收入分别为 8.69 和 6.52 亿美元,排在第二三位。三家公司的大数据业务均占总体收入的 1%左右。 收入最高的纯大数据公司为Palantir( 为政府和金融机构提供数据分析软件服务), Pivotal(大数据集成产品,提供 Hadoop,内存 SQL 数据库以及 MPP 等多种服务) 和 Splunk(大规模机器数据收集,存储,可视化分析) , 分别为 4.18 亿, 3 亿, 2.83 亿美元。

大数据

技术路径之争

大数据处理系统一般需要经过 4 个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析。

( 1) 数据准备:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为 ETL( Extracting, Transforming, Loading)过程。
( 2) 数据存储与管理:大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
( 3) 计算处理环节:海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。
( 4)数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。

大数据

大数据解决方案基本可分为两类, 由主流数据库厂商主导的传统方案升级: 数据库一体机(例如 Oracle ExaData 以及 IBM Netezza 等),以及以开源力量为主的大数据技术( 以 Hadoop 为代表)。 随着数据的海量化和快速增长的趋势不断增强,传统关系数据库技术表现出明显的不足,如何以合理的成本获得海量数据的高可用性已经成为现代 IT 领域的重大挑战。 大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。在所有大数据解决方案中,最为引人注目的是由主流数据库厂商主导的传统方案升级,以及以开源力量为主的大数据技术。 两者是相互补充的关系。

大数据 大数据

目前大数据开源技术中使用最广的是 Hadoop, 一个能够对大量数据进行分布式处理的软件框架。 Hadoop 框架的核心设计是: HDFS 和 MapReduce。 HDFS 为海量的数据提供了存储, 提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 而 MapReduce 为海量的数据提供计算,它将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。 基于以上特点, 用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

Hadoop 是大数据行业应用最广的分布式系统

大数据