EMC:大数据=大机遇

大数据时代已经到来

大数据和传统数据的区别,首先是数据量的膨胀。根据EMC和IDC追踪的全球的数据量,在最近十年中,数字世界将增长44倍,从 0.9 ZB 增加到 35.2 ZB。其次,数据的种类、复杂度都将大大增加,不再仅是处理企业内部结构化的数据,更多是非结构化数据,以及外部数据。

非结构化数据将占到90%,移动传感器、社交网络、电子支付、视频监视、视频渲染、智能电网、地球物理勘探、医学成像、基因测序等等行业和应用都会产生大量非结构化数据。 这些数据对实时性的要求非常高。比如,一两天前的微博数据对人们来说,可能价值就少了很多或者已经没有价值。如此复杂、广阔的数据,作为企业应该如何来处理呢?如果不能把数据中的价值提取出来,那么对企业和个人来讲数据就是成本,因为它需要存储、管理。只有找出额外的价值,比存储本身的成本更高的价值,大数据才能为企业创造价值。

大数据之旅

如同几年前企业要踏上云计算之旅,EMC曾经给出了云计算之旅的几个步骤。同样,大数据也是由几步组成的:第一,对现有IT架构进行改造,包括大数据基础存储架构和数据分析的架构,能满足所有数据需求更快的响应和灵活的可扩展性。

大数据环境和传统模式对存储和数据管理有非常大的不同。传统模式的IT架构和数据分析的弱点已经显现。第一,Scale-up模式,即纵向扩展的过程,当原来的存储容量超过时,必须引入新的存储系统,所有新的调配全部是手动的。而在大数据情况下,无论是成本、数据需要的响应程度,纵向扩展和手动的模式都是不适合的。需要Scale-out模式,自动地调配。第二,在传统模式下,很容易形成存储孤岛、数据孤岛,很多容量要么没有在孤岛中释放出来,要么需要更多的管理员,让管理架构变得更加复杂。在大数据情况下,需要相当大的存储池,根据不同数据的情况,对池的存储空间进行分配。

EMC Isilon

EMC Isilon是针对大数据提供的技术,有空前的可扩展性,空前的容量和超凡的易操作性,可以管理15PB。同样可以保持很好的文件系统 IO/s 性能,IO操作可能达到百万级。更重要的是易操作性,每次需要扩容的时候,企业根据数据量增长的过程,只需要增加新的节点。

新的大数据分析平台

在数据分析方面,大数据和传统数据时代也有很大不同。传统数据分析仅限结构化数据,分析TB级陈旧数据。整个分析系统受限于纵向扩展体系结构。随着数据量增大,必须进行不同的分级和升级换代。

在大数据分析的情况下,首先必须是更新换代,能够很好处理结构化数据和非结构化数据。Hadoop是处理非结构化数据很好的技术,一个好的大数据平台必须要同时能够处理结构化和非结构化数据。第二,要有很好的吞吐能力,能够处理PB量级的数据,才能保证所分析的数据,掌握的结果是现在最实时的结果,帮助企业做出正确的选择。Scale-out架构是唯一的选择。