大数据时代来临 巨头破解密集计算困局

继物联网、云计算之后,“大数据”已迅速成为市场和用户争相讨论的热门科技概念。那么究竟什么是大数据呢?调研机构IDC认为,某项技术要想成为大数据技术,必须满足IBM所描述的三个“V”:即多样性(variety)、大容量(volume)和时效性高(velocity)。多样性是指数据应包含结构化的和非结构化的数据;大容量是指聚合在一起供分析的数据量必须是非常庞大的;时效性高则是指数据处理的速度必须很快。

  在2011年,“大数据”的概念已经赚足了人气,调研机构IDC数字宇宙在2011年6月的报告显示,全球数据量在2011年已达到1.8ZB,在过去5年里增加了5倍,而到2015年将达到近8ZB。进入2012年,大数据丝毫不会放慢增长的步伐,全球制造业、政府、零售商、金融等众多机构已经陷入“数据爆炸”的困境。

  尤其在互联网和电信行业中,随着移动互联网的不断创新强大,海量数据蜂拥而至,更多新的数据形式也不断涌现,现在的数据早已不是结构化的了,还掺杂了包括办公文档、文本、图片、网页、报表、音频、视频信息等很多非结构化数据,这为传统的数据处理带来了新的挑战。

  随着数据量的急剧增长,以及对数据在线处理能力的要求不断提高,海量数据的处理问题越来越受到关注。在金融、电信等领域,都需要通过对大量的用户数据进行分析,才能做出相应的决策。对互联网数据进行存储和处理的海量数据处理系统也开始向数据密集型计算系统发展。

  数据密集型计算系统特点

  数据密集型计算系统不仅需要存储超大规模的数据,还需要对这些数据进行复杂的计算与分析。由于对数据密集型大规模计算系统的需求越来越多,人们也越来越关注。不同于已有的分布式计算或高性能计算,数据密集型大规模计算的特点可以概括为两个方面:

  海量的数据集:通常在PB级。这意味着对于一次计算任务而言,获取所需的数据所花费的时间将是不可忍受的,这完全不同于以往的计算系统,同时也给数据密集型大规模计算系统的设计与实现带来了新的挑战。

  复杂的计算过程:简单地将数据进行分块处理已经不能满足数据密集型计算的需求。即使是对互联网数据的分析也开始具备科学计算的复杂性,这种计算的复杂性为局部性的优化和数据管理带来了新的挑战。

  由于数据密集型大规模计算系统的研究还处在起步阶段,对于数据密集型大规模计算系统的体系结构设计仍在探索中,目前在对系统结构方面的研究中,重点大多集中在如何使计算尽可能地靠近数据。但是,当大规模计算的数据量超过1PB时,传统的存储子系统已经难以满足海量数据处理的读写需要,数据传输I/O带宽的瓶颈愈发突出。

  因此,数据密集型计算系统在系统结构方面面临的最大挑战其实是如何在存储超大规模数据量的同时,保证存储系统与计算系统之间的I/O带宽。海量数据处理系统面向的应用是处理大量的数据,所以其设计关键是如何组织存储资源以获得高速的I/O吞吐率以及海量的数据容量。

  大型机打破I/O瓶颈 强化安全

  在2011年,IBM就提出了“智慧的运算”概念,其内涵包含大规模数据整合、优化的系统,以及云计算等新兴服务交付模式。伴随着全新的zEnterprise 114大型机产品发布,zEnterprise System企业级大型机已经作为“系统中的系统”来全面实现“智慧的运算”。

  众多周知,除了RAS外,大型机的设计被公认用来处理大容量的I/O应用。IBM大型机的设计中包括一些辅助电脑来管理I/O吞吐量的通道,而让CPU解放出来只处理高速内存中的数据,每一个I/O通道都能同时处理许多I/O操作和控制上千个设备。利用大型机处理数据中心超大数据是已经是十分常见的情景了。

  相比于x86服务器,大型机经常是同时处理上千个数据流。并且能保证每一个数据流的高速运转。在软件方面,IBM提供一种高性能操作系统IBM z/TPF,专为具有高需求、高容量、实时事务处理需要的组织提供高可用性而设计。

  此外,随着高度分布式的计算、广泛的在线协作和异构IT环境的结合,对数据的依赖性已越来越高,使得信息安全比以往更加关键和复杂。由于IT基础架构更加开放和多样,安全威胁正在加剧,并变得更加难以管理。

  在安全性方面,IBM大型机具备得天独厚的优势,System z大型机具有一种高度安全的设计,可帮助减少如今分布式、协作、多平台环境中的数据破坏风险。安全构筑于大型机结构的每个层级,包括处理器、操作系统、通信、存储和应用。

  除了异常强大的安全基础,得益处于IBM Security Solutions“Secure by Design” 计划,大型机从一开始就将安全性构筑到IT基础架构内。该计划的目的就是帮助企业将安全性整合到内部的服务结构中,并融入到业务流程和日常操作之中。

  而且,IBM也已将“Secure by Design”计划考虑到软件设计中,针对于大型机的IBM Tivoli和IBM Information Management安全产品支持“Secure by Design”背后的理念,并提供用户管理、资源保护以及审计与合规性报告的解决方案。这也使得在目前分布式、多平台计算环境中,大型机更加适合于作为企业集中的安全中心,来支持和管理多个混合环境,以最大限度降低混合环境中的风险。