大数据正在改变思考方式

从2013年开始,EMC公司再次调整公司组织架构,形成以EMC II、VMware以及Pivotal三驾马车的业务组合。云计算与大数据已经成为EMC公司战略的重中之重。EMC副总裁、销售部全球首席技术官Patricia Florissi博士表示云计算改变的是IT消费模式,而大数据正在改变人们工作、生活与思考的方式。

大数据不是新瓶装旧酒

早在云计算刚刚兴起之时,业界即有对云计算是属于变革性的创新技术还是新瓶装旧酒包装出来的噱头。时至今日,伴随着云计算逐渐落地,大家对于云计算的理解才慢慢开始清晰。而大数据时代的到来,同样有人斥之为商业智能与数据分析的再包装宣传,不过是一种新瓶装旧酒的老套玩法而已。显然,IT厂商们并不会认同这种观点。

EMC副总裁、销售部全球首席技术官Patricia Florissi博士就表示:“在我看来云计算改变的是IT消费模式,这代表着IT技术的消费化。而大数据则正在改变着我们工作、生活与思考的方式,并不是新瓶装旧酒。大数据实际上不仅仅是单纯的大数据,它代表着三个趋势:一、大规模出现的海量数据是我们看待事物的方式、对整个事物的见地有所不同;第二、因为有云计算,我们有更强的存储和处理能力来分析大数据;第三、人们已经达到了对于大数据的分析水平。”

Patricia Florissi博士认为任何技术都需要有足够条件和时间才能够发挥作用:“如果海量数据出现,我们没有足够的存储能力,那我们只能将数据删除掉;如果我们有足够的存储能力,但是没有数据分析能力,那么数据并没有什么价值,就犹如金矿石在眼前,却没有能力提炼成为金子;如果我们有了存储和处理数据的能力,却没有解读和分析数据的能力,那我们同样需要再等一段时间才能迎接大数据时代的到来,好比过去印刷术的发明到真正商用经历了好几代人的时间。如今大数据这三个条件都已经成熟。”

Amazon和Google的大数据服务未必更好

在云计算概念刚刚出炉之时,关于公有云与私有云孰优孰劣的争论颇为热闹。我们也可以看到现在Amazon、Google以及Rackspace等提供的公有云服务被越来越多的用户所采用。而在大数据时代下,Amazon与Google同样推出了类似公有云的大数据分析服务。这让用户又一次面临着云计算时代类似的问题:是自己构建大数据分析环境,还是通过Amazon或者Google来获取分析能力?对此,Patricia Florissi博士表示需要用户在使用难易度、成本以及使用目的三个角度考虑选择。

Patricia Florissi博士深入分析道:“首先,我们需要了解到Amazon或者Google提供的大数据服务在易用性如何,它与企业级环境相比有何区别。如果是一家中小型公司,使用Amazon的API把数据存储在Amazon上会更加容易。EMC现在的一个趋势就是向用户提供他们以前在Amazon和Google那里获得的同样的易用性、可编程性以及易于操作的界面。在这个前提下,EMC来帮助企业级用户使得他们的数据中心虚拟化,也就是通过软件定义数据中心、软件定义存储让用户获得像Amazon、Google同样的易用性和可编程性;其次,使用Amazon或者Google提供的大数据服务也会有所得失,Amazon和Google的服务比较容易,易用性强,不过使用它们意味着你将失去控制权;而使用自己数据中心则能够掌握控制权,不过在易用性方面却不足,EMC希望能够在企业级环境让用户在易用性、可编程性和控制力方面达到一个平衡;最后从成本角度考虑,如果你对数据处理频率进行一个经济学评估的话,会发现如果数据处理频率比较高,对数据处理能力和容量要求比较大的时候,也就是数据使用率超过50%的时候,就会出现一个经济学的临界点和转折点,此时使用自己的数据中心就比Amazon或者Google便宜。当然,Amazon和Google也在数据高峰和未预见问题的处理上比较容易操作。”

根据Patricia Florissi博士介绍,EMC II的核心是聚焦在大数据管理,Pivotal则是大数据分析方面。

数据学是一个团队的学科

随着大数据的兴起,一些与大数据相关的职业也开始热门起来,这其中就包括首席数据官(CDO)以及各种大数据分析人才。EMC副总裁、销售部全球首席技术官Patricia Florissi博士认为大数据衍生出来数据学应该是一个团队合作的学科。

Patricia Florissi博士表示:“数据学其实包括不同的专业人才,主要是大数据科学家,这类人才主要建立不同的数据模型,将抽象的数据视觉化,并且需要有能力将不同组变量之间的相互关系进行分析;第二类就是业务科学家,这类人才对于所处的行业特点与业务环节非常了解;第三类就是计算机科学家,这类人才专门来设计基础架构,在基础架构之上按照业务科学家的要求去管理和运作大数据科学家设计出来的大数据模型。首席数据官CDO其实是建立和运营数据分析这个部门,CDO其实是大数据专家和计算机专家一个界面,因为CDO需要管理大数据专家,大数据专家需要不断与计算机专家互动和合作,中间的配合工作则是由CDO来完成。”

软件定义:瓦解传统IT市场

软件定义数据中心,被认为是又一大影响IT发展的方向,从中衍生出来的软件定义存储、软件定义网络、软件定义计算等都在逐渐影响着IT业界。这种趋势其实也非常好理解,在IT硬件逐渐走向同质化的今天,软件才是差异化竞争的关键。

EMC副总裁、销售部全球首席技术官Patricia Florissi博士就表示:“软件定义数据中心将会瓦解现有数据中心的概念,包括存储、网络以及计算,这将是一个巨大的IT变革。其实软件定义的本质就是智能从硬件转向了软件,通过软件来实现数据中心的不同需求,这意味着软件定义使你拥有一种很灵活、灵动的方式管理你的硬件。在存储领域,我们看到软件定义的存储会将控制和数据管理这两块分割开,在控制方面,硬件变得越来越不重要;在数据管理方面,因为专业化的数据需要非常快的速度来存储数据,所以对硬件的专业化要求也将越来越高。”

当前,随着像Hadoop、Openstack、CloudStack等开源软件项目的如火如荼,开源已经成为软件定义数据中心中不可或缺的一股力量。那么EMC对于开源软件项目的态度又会如何呢?Patricia Florissi博士对此表示:“EMC完全支持和拥抱开源像Openstack、CloudStack这些开源技术,而且会将所有开源技术与EMC产品集成。EMC所追求的是如果采用某项开源技术,那么EMC平台上的性能将会是最好的。”

当然,Patricia Florissi博士仍然坚持企业级IT厂商非开源软件平台具有固有的优势,企业级IT厂商的非开源软件平台在功能和时间领先方面是其他开源平台所不能比的。Patricia Florissi博士表示:“企业级厂商有一种责任就是要比Openstack更快的把创新和更新的版本推向市场,需要在功能强大和时间上领先开源项目。”

最后,Patricia Florissi博士用一个笑话来表明了她对开源的观点和看法:“在非洲有一个老人和一个男孩,他们两人都看见一个老虎,男孩赶紧穿他的跑鞋,这个老人说你为什么要穿跑鞋,你穿上跑鞋也跑不过老虎。但是这个男孩说,我不在乎我能不能跑过老虎,我只在乎我是不是能够跑过你。”