Forrester分析师:Hadoop的首要任务是标准化

虽然流行度逐渐升温,但是根据Forrester研究机构的高级数据管理分析师James Kobielus的说法,开源技术Hadoop在应对大数据分析时还存在这一定的障碍。其中包括了如何存储上百TB的数据以及Hadoop互操作性标准的缺失。

在TechTarget网站最近的一次采访中,Kobielus向我们介绍了大数据存储的问题,以及为何标准化对于Hadoop普及来说是一件好事。

最近对于Hadoop技术和大数据分析的谈论非常多,Hadoop受到了越来越多的认可,但是为什么并不是所有人都用它呢?

Kobielus:在部署一个大数据分析项目时,不管你用的是Hadoop集群还是传统的数据仓库,我们知道要应对的是几百TB的存储压力,这部分成本是十分昂贵的。所以大数据领域里,真正的成本因素是存储,要花多少钱购买存储设备?你能承受多大的存储?有多少数据可以存放在磁带中?最重要的是存储部分,而不是你选用了哪种技术。

在您的研究中,Hadoop使用者中有多少企业的数据量已经达到PB级别了?

Kobielus:现实中,大多数Hadoop集群是达不到PB数据级别的,而且是差的很远,他们更多的是管理几百TB的数据。但是在我调查的客户中,很多人表示数据增长到PB级别时,存储问题是最让人头疼的。这也就是为什么我们并没有看到很多扩展到PB级别的传统数据仓库,原因很简单,就是成本问题。

那么除了存储的成本问题之外,Hadoop和大数据分析还有哪些挑战?

Kobielus:整个Hadoop生态系统还处在起步阶段,同传统的数据仓库技术相比还不成熟。目前主流的企业数据仓库厂商还有许多没有添加Hadoop的特性,即使是有,也是没有完全地集成到他们的核心数据仓库工具中。这是Hadoop不成熟的一个具体表现。

此外,Hadoop社区并不标准,我的意思是它的标准化同其他开源社区存在一样的问题。许多用户或者公司登录同一个社区,然后自己构建软件并开放源代码。这些功能的确是被许多人用到,但是它缺乏一个统一的正式的标准,或者是批准过程。现在,Hadoop或者开源社区中有许多人会说标准化是一条错误的路线。我也理解他们要表达的意思,但是事实就是在没有标准化的情况下,随之而来的就是风险,而大部分公司是无法承受这部分风险的。

为什么说没有标准化就是存在着潜在的风险呢?

Kobielus:事实上,Hadoop集群目前还没有一个普遍的参考架构,而一个参考架构则可以为可插拔存储层提供一个明确的接口,同样为跨多平台的MapReduce互操作性提供一个标准的界面。这个架构和SOA社区在过去十多年开发的那些参考架构(SOAP、WSDL和UDDI等)相类似,最终目的都是为了加强互操作性。对于Hadoop来说,我们还没有互操作性和认证的测试,这对于许多领域来说都是致命的,比如你的公司是一家大型企业,你们在不同的部门中使用了Hadoop集群,而它们想要结成一个共同体。而现在还没有这样的标准,也没有实时数据控制与访问的技术说明。这样的技术对于许多大型企业在接受上会存在困难。

Hadoop早期的使用者该如何应对互操作性问题?

Kobielus:如果你想要在分布式Hadoop中做真正的实时数据分析话,那么你需要去编写大量的代码来进行功能定制,然而许多时候还会出现bug或者根本无法工作。在这里有很大的风险,我认为业界目前最重要的应该是为互操作性和认证测试创建一个普遍的参考架构,并希望具体出炉一些正式的标准,比如HDFS版本等相关标准。