如何理解大数据分析

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据。而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语。

大数据定义之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈。“大数据”一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值。

大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的数据增长。而扩展NAS和对象存储这些技术支撑大数据存储,已经存在了多年,并且人们对此有着充分的了解。

在一个非常简单的层面上,大数据存储无非是存储用于产生大量的非结构化数据的应用程序处理的大量数据。这包括高清晰度视频流,油气勘探,基因组学等数据。

一个大型存储厂商的一位营销高管表示,其公司正在考虑将“海量数据”作为其大数据存储条目的名称。

大数据分析是比较紧急的和多方面的,但IT人员对其理解较少。大数据分析发展过程在历史上一直受到网络的推动。然而,大数据分析的应用程序正在发生在所有主要垂直行业领域,现在的快速增长是一个增长的机会,值得所有供应商进行炒作。

大数据分析是快速增长的多样化的区域。因此,试图确定它有什么用可能是无益的。但是,可以识别和鉴定大数据分析的技术特征和共同点。这些包括:

·在可扩展性方面,传统的数据仓库处理速度太慢,而且有限制;

·融合来自多个数据源的数据的能力,其中包括结构化和非结构化的数据;

·从数据来源获取信息是至关重要的,其中包括越来越多的移动设备、无线射频识别技术、网络,以及自动化技术。

此外,在多样性大数据分析中可以找到至少四个主要发展片段。这些片段是MapReduce,可扩展的数据库,实时流处理和大数据应用。

(1)MapReduce

ApacheHadoop是MapReduce段开始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一种用于并行网络的数据处理称为MapReduce的概念。此后不久,ApacheHadoop的诞生成为一个开源实现MapReduce的过程。周围的社区正在快速成长,生产加载项扩展了企业数据中心内的ApacheHadoop的可用性。

Apache的Hadoop的用户通常在商用服务器建立自己的并行计算集群,各有专门存储在一个小型磁盘阵列的形式,最近,也开始采用固态硬盘(SSD)的形式。这些通常被称为“无共享”架构。而存储区域网络(SAN)和网络附加存储(NAS)的可扩展性和弹性,通常被视为缺乏I/O性能,这些集群需要超越标准的数据仓库的能力。因此,Hadoop的存储是直接连接存储(DAS)。然而,使用SAN和NAS的“二次”存储正在成为新兴的形式。

一个潜在的Hadoop用户面临的采购选择,从单纯的开源到高度商业化的版本,其范围内越来越广泛。Apache的Hadoop和相关的工具都可以免费在ApacheHadoop的网站下载。Cloudera的公司提供了一个商业版本,其中包括一些Cloudera的插件和支持。其他开放源代码的变种,如Facebook的distribution,也可以从Cloudera公司获得。其商业版本包括MAPR,EMC公司现在将其合并成一个Hadoop应用。

(2)可扩展的数据库

而Hadoop已经攫取了大部分的头条新闻,因为它在数据仓库环境下具有非结构化数据的处理能力,更有向大数据分析的发展空间。

结构化数据也得到了大量的关注。一个充满活力和快速增长的社区围绕NoSQL,这是一个开源的、非关系型、分布和横向扩展的数据库集合的结构,可以满足网络规模的数据库设计的高流量的网站和流媒体的需要。面向文档的实现包括MongoDB(如“humongous”DB)和Terrastore。

开源社区所产生的另一种面向分析的数据库是正在开发使用的scidb,包括环境观测和监测,射电天文学和地震,等等。

传统的数据仓库供应商并没有袖手旁观。甲骨文公司正在打造其“下一代”大数据平台,将利用其分析平台和内存计算的实时信息传递。Teradata公司最近收购了ASTER数据系统公司,将ASTER数据的SQLMapReduce添加到其产品组合中。

(3)实时流处理

对于多个数据流进行实时分析的StreamSQL从2003年开始使用,然而到现在为止,StreamSQL只能够渗透到一些比较小的小众市场,如金融服务,监视和通信网络监控等领域。而随着行业厂商和用户对大数据的兴趣不断增长,StreamSQL势必会得到更多的关注和寻找更多的市场机会。