直面海量处理+实时分析的双重挑战

时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经而且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。

显然,大数据是一种创新,它在任何时候都知道你在哪里。我们可以以有效方式利用这些数据,而且已经看到了市场需求。

日前,在北京举办的大数据世界论坛上,内存计算、实时查询、有效的存储管理、智能挖掘分析,成为了众多IT人士关注的焦点。

用户需求——海量+实时分析

来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。

而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。

“我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。

显然,和NUMA架构(非一致性存储访问)相比,MPP的优势在于更适合复杂的数据总和分析与处理。当然它也需要借助支持MPP的数据库系统来屏蔽节点之间的负载均衡与调度复杂性。

同时,颜阳也给出了BI和ETL工具选型建议——兼容性、操作性、功能性、展现力、维护性。他表示,在数据中心,每一个转换要保证数据的完整性和准确性,要进行安全性的管理和控制,这些都要通过开发工具加上适度的编程来实现。如果开发团队对这个工具的理解和整合程度不好的话,最后的数据仓库的数据会形成很多垃圾,甚至造成很多错误的数据出现。因此,要兼顾五个方面去开展。

大数据并不等于IT重构

本次大会传递出来的另一个信息是,对真正需要大数据的企业而言,大数据的需求并不等于IT重构。

实际上,并非所有的数据都需要进行分析,对企业而言,核心在于找出关键的数据,并运用适合MPP系统的相干数据,得到一些结构化的数据,而一些非结构化的数据,可以用Hadoop进行处理。

另一方面,大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。

目前,不管是IBM、EMC还是SAP都推出了自己的Bigdata Total solution,从中对比我们可见一斑。

IBM——数据仓库一体机

IBM将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”据了解,Netezza一体机是一个小型的、成集成度很高的多机并行处理环境。其架构基于MPP,由两个Hosts系统接受查询请求,查询语句将分散成几十个或者上百个分片,传给第二层,第二层的每一个单元是一样的(内部名称S-Blades分区内存),再把每一个分片看成MPP环境中的每一台机器,中间的网络构成MPP网络。

当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。如果数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。

EMC——自服务数据仓库

Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。

EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。比如写一段R代码,并把R代码进行分享,同时看到别人的评论,可以随时随地的进行自己的工作。

SAP——内存计算+开放平台

SAP在此次大会上提出了开放的内存计算平台HANA,据SAP解决方案和架构部总经理张志琦介绍,HANA将成为SAP未来的平台,未来所有的应用都会发布在HANA平台之上,并且用作实时分析。而HANA将主要用于实时处理大量交易数据的软件,包括数据建模、数据和生命周期管理、安全、运营的工具,基于行业标准为多个接口提供支持。

“内存比磁盘计算快1000000倍,传统数据库磁盘读取速度是5毫秒,内存数据库磁盘读取速度是5纳秒。用户可以利用内存高速的性能,更快速的获取数据、汇总数据、分析数据。此外,大数据时代,一台服务器不一定够,用户可以通过分而治之的方式将动态的服务器分到不同的节点上,快速的进行数据分散计算、数据分散汇总、获取更快速的结果。每台服务器还有更多的CPU,可以在总的内存计算中更给力。所有的数据都可以通过分布式的环境。”

张志琦表示,“HANA将是一个开放的平台,SAP将和业务伙伴等在HANA之上开发应用,体现更多的支持。SAP HANA平台将支持更多的内存应用程序,比如报表、运营报告、能力分析加速器,更多的获取价值。HANA不仅仅是分析应用,更多的是一个业务应用。我们希望企业可以在不需要IT人员关注的情况下就可以获得信息的获取。这本身是SAP HANA平台提供的能力。”

数据分析职业未来很吃香

随着大数据的流行,可以预见的是,数据分析师将是将来最热门的行业之一,大量的行业比如政府、能源行业、互联网行业都需要数据科学家,而这些数据科学家要不断的提出关键性、对业务有重大启示性的问题。阿里巴巴目前已经有一百多个数据分析家,他们不同的部门都在对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。

Informatica企业数据集成产品管理总监郑玮表示,大数据分析师可能会有越来越大的需要,可能是IT组织的一部分,也可能是业务组织的一部分。从互联网的情况来看,提供用户的价值,可以发掘很多用户价值,比如汽车销售等等有直接的销售影响。在世界的各个地方,尤其是一些数据比较多的、比较成熟的行业中,会有大量的数据分析、数据科学家的需求。

Teradata天睿公司首席客户官周俊凌谈到,企业必须要有一些专注于数据研究的科学家,一旦有了数据科学家,企业需要对数据科学要进行相关培训,了解相关的业务。

IBM硅谷实验室大数据项目总监Steven Sitze则认为,现在一些大的企业都有数据分析师。而这些数据分析师现在并没有分析大量或者子类型的数据,这在发展工具上会有很大的机会。对企业而言,光有一个大数据的平台是不够的,要有一些发展的工具帮助他们利用来展示大数据的分析展示能力。

观察:大数据产业才刚刚上路

对数据存储厂商来说,不管是大数据还是海量数据还是有不少挑战存在,首当其冲的是,他们必须要强化关联式数据库的效能,增加数据管理和数据压缩的功能。

因为过往关联性数据库产品处理大量数据时的运算速度都不快,需要引进新技术比如Hadoop来加速数据查询的功能。另外,数据存储的厂商也开始尝试不只采用传统硬盘来存储数据,像是使用快速闪存的数据库、闪存数据库等,都逐渐产生。

另一个挑战就是传统关联性数据库无法分析非结构化数据,因此,并购具有分析非结构化数据的厂商以及数据管理厂商,是目前数据存储大厂扩展实力的方向。

同时,数据管理的影响也在于对数据安全的考量。IDC软件市场分析师吴乃沛表示,大数据对于存储技术与资源安全也都会产生冲击。首先,快照、重复数据删除等技术在大数据时代都很重要,就衍生了数据权限的管理。

举例来说,现在企业后端与前端所看到的数据模式并不一样,当企业要处理非结构化数据时,就必须制定出是IT部门还是业务单位才是数据管理者。由于这牵涉的不仅是技术问题,还有公司政策的制定,因此界定出数据管理者是企业目前最头痛的问题,而这一切,对大数据而言,不管是技术还是应用都才刚刚上路。