其次,大数据和云计算的目标受众不同,云计算是卖给CIO的技术和产品,是一个进阶的IT解决方案。而大数据是卖给CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。比如电信运营商可以用大数据分析手机用户流失的原因是什么。某家领先的手机运营商,他们采用大数据解决方案一个星期,就发现了原因,并使公司获得了1亿美元的高回报。
VMware是业界领先的云基础架构厂商,在IaaS、PaaS和SaaS领域都有很强的技术、产品和解决方案。在管理Hadoop平台时,VMware有相对应的产品,如vFabric Data Director和Serengeti。这两项技术都能对Hadoop平台进行有效管理,起到快速部署、一键式管理等功能。
VMware最近收购了一家公司Nicira,即进行线上服务分析的云服务公司。它可以使大量的数据,无论是预置数据,还是其他应用数据,都能轻松上传到它的服务中去,进行快速分析,并以图表进行展示结果。无论是大公司还是小公司,抑或某个部门,都很容易应用大数据技术。VMware致力于为高速跑车建造高速公路,让大数据和云进行有效结合。
虚拟化提高Hadoop的安全性、灵活性和易管理性
Hadoop是Apache基金会发起和研发的,是目前业界公认的开放平台之一。授权公司可以发布自己相应的Hadoop版本。以Hadoop为代表的分布式系统,是大数据系统必要但不充分的组成部分。必要性是因为现在的大数据中很多数据是机器产生的数据,或者是物联网各种各样的探测器、电脑产生的日志,这些是人为产生的,而且数量巨大,不适合把它直接放到数据库中去。而Hadoop就提供了全新的方式,可以轻松进行平面扩展,把这些数据放在库里进行任意的数据分析。Hadoop成功的建立了这个环境,使得围绕Hadoop的软件能够提供各种各样的功能,完成智能分析工作。
说它是不充分的理由是因为我们需要对数据进行分析,客户可以把数据放池子里,Hadoop则把这些数据分成几百个、几千个节点,这是在特定的某些应用场景必须进行的部分。但是更多的应用场景是需要实时的反应,互动的反应,这时候就需要其他技术,包括内存类检索技术,甚至在数据产生时要进行实时反应的技术。这些技术都结合在一起,才是一个完整的大数据处理系统。所以VMware及其合作伙伴一直在实时反应、互动和内容检索等方面不断努力。
VMware的战略方向是和业界领先的不同版本都进行合作,以开放的态度建立一个生态圈,支持所有版本的Hadoop都能在VMware的虚拟化平台上运行。在这个指导方向下,VMware做了如下几方面的工作。一方面是和社区紧密合作,VMware开发者和和社区的开发者一起,输入Apache源代码库。Hadoop在它产生的时候,并没有考虑到虚拟环境,它是一个物理环境的技术,比如机器和机架的物理概念,但没有虚拟机的概念,VMware加进去的代码就加进了虚拟机的概念,虚拟机的概念和其他概念有一些不一样,需要特殊处理,在源代码里就知道它在虚拟环境中运行,进行优化。通过VMware的努力,使得现在的Hadoop开源技术,能够在虚拟化环境里运行。能够让它十分钟甚至更短的时间之内,从无到有,产生新集群。VMware的目标就是为超级跑车创造一条宽敞大道,使得大数据跑车能够快速跑起来。
另外, VMware虚拟化对Hadoop的作用,就是使它更接地气,并从现实角度适用于云计算环境,使它更易于管理并且安全。
第一、让Hadoop适用于多租户环境,很多时候公司里需要Hadoop或者大数据系统,往往不只是一个部门,不同部门在私有云里有可能都需要自己的Hadoop集群。在公有云上就有更多类似的需求,虚拟化就提供了一个很好的架构,可以使得多个集群之间非常灵活的同时运行,不互相影响。