M.C. Srivas表示在成立MapR之前他曾经会见过Cloudera的创始人并考虑加入其中。但Cloudera希望像Red Hat做Linux那样围绕Hadoop平台提供支持、服务和更多软件盈利。而这与M.C. Srivas的理念并不相符。他认为Hadoop还有非常多漏洞需要弥补。
于是他通过熟人与Calista Systems(虚拟化软件商,2008年初被Microsoft收购)的CEO John Schroeder相识,并于2009年共同创建了MapR公司。现今,MapR的产品已为存储巨头EMC推出的Greenplum HD企业版Hadoop提供技术。
Hadoop的未来
据M.C. Srivas和Schroeder介绍,他们的Hadoop发行版在许多特性上领先其他基于开源Hadoop的发行版。虽然其他人并不这么认为,但这是不争的事实,MapR的产品克服了其他开源版Hadoop的固有缺陷。
Hadoop实现了被称之为HDFS(Hadoop Distributed File System)的分布式文件系统和被称之为MapReduce的大数据运算平台。MapReduce依赖于HDFS实现。通常MapReduce会将目标的计数的数据分为许多小块,HDFS将每个块复制若干份以确保系统的可靠性,同时按照一定的规则将数据块放置在集群中不同的机器上,以便MapReduce在数据宿主机器上进行最快捷的计算。
M.C. Srivas表示在2年的发展期间,MapR基本上重构了文件系统。同时改进了Hadoop的“job tracker”使其能跨机器的任务分配并管理其执行。改进了Namenode,这是一个中心服务器,负责管理文件系统的Namespace以及客户端对文件的访问。而开源版本的Hadoop仍存在单点故障和Namenode处理文件数量受限的状况。
Cloudera的Kirk Dunn也承认M.C. Srivas提到的开源Hadoop存在的缺陷,但他表示在评价开源Hadoop具备的优势时,还有一些其他的因素需要考虑。同时开源版的Hadoop也会最终克服固有的缺陷,最终所有代码因为开放而变得独具优势!众所周知,开源的优势可得到社区的广泛支持。你是愿意依靠成百上千的工程师在重要问题上给予支持?还是依靠只有少数精英工程师的公司?
从本质上讲,Hadoop是主要还是一个“批处理”系统。Hadoop需要一段时间处理数据以便得到结果。Hadoop现今还不具备实时生成信息的能力。随着搜索引擎需求的发展,Google已经放弃了MapReduce,并转移到被称之为“Caffeine”的平台之上,新平台可使搜索引擎的速度更快。John Schroeder暗示MapR也在朝类似的“方向”努力,尽管其“解决方案”可能看起来与“Caffeine”非常不同。
M.C. Srivas指出现今的Hadoop与在谷歌内部运行的版本完全不同。除了GFS和MapReduce以外,Google还在其软件层运行着被称之为“Borg”的作业调度和监控系统,其主要负责管理数据中心内的服务器群集。Google现在还没公布“Borg”的相关信息。和所有Google的前员工一样,M.C. Srivas不能透露其详细信息。但M.C. Srivas表示你不能错误地认为Hadoop就是Google的基础设施。像Google这样的公司,他们肯定有他们自己且尚未公布的秘密武器。
Hadoop要想成功就必须继续发展。而MapR已经具备了一切。
更多详细信息,请您微信关注“计算网”公众号: