Google在新的内容索引系统中放弃MapReduce_云计算专题_计算头条_中国计算网——工业互联网一站式服务平台—

有消息表明，Google在新型网络内容索引系统——Caffeine中，将放弃以MapReduce为基础架构的分布式计算平台。

据Google高级主管Eisar Lipkovitz表示，在Caffeine中，Google的后端索引系统将从MapReduce上移除，并向Google新建的分布式数据库平台——BigTable上进行迁移。他表示，谷歌将于下月在USENIX研讨会上提交一项新的文件讨论系统。

据了解，从去年开始，Google就已经启动了代号为“Colossus”的研发计划，主要内容围绕新的分布式文件系统——Caffeine进行研发。Caffeine将创建一个新的数据库的编程模型，而这也意味着Google必须在BigTable上重建整个索引系统。

MapReduce完成历史使命

必须看到的是，在Google的直接竞争对手——Yahoo、Facebook们对MapReduce饱含热情进行研发投入的同时，Google却宣布放弃MapReduce，不得不佩服Google的勇气。

实际上，早在Caffeine建立之前，Google就建立了基于MapReduce的搜索索引系统。从本质上而言，这个索引是由序列的批处理操作组成的。它通过把对数据集的大规模操作分发给网络上的每个节点进行运算，而每个节点会周期性的把完成的工作和状态的更新报告回主计算。

Lipkovitz首先谈到了Google基于MapReduce文件索引系统处理方式。“我们必须面对一个非常庞大的数据系统，在这之前，我们需要等待8个小时的计算时间我们才能够得到计算的全结果，然后我们就会把它发布到索引系统中去。过去我们一直在不停地重复这个耗时耗力的工作。”

Lipkovitz进一步解释了Google放弃MapReduce的原因，“MapReduce仅仅是一个批处理操作方式，”Lipkovitz解释说，“一般来说你不能启动下一阶段的命令操作，直到你完成第一项操作。”

可以看到，Google之所以放弃MapReduce，是因为它并不能为谷歌提供它所想要的索引速度，特别是随着实时检索时代的到来，谷歌需要的是在几秒内刷新索引内容，而非8小时。

实际上，在过去的几年里，针对MapReduce的技术讨论可谓是褒贬不一。

麻省理工学院的数据库专家Mike Stonebraker认为，MapReduce的计算方法对于实时计算来说是很不合适的，是过时的。

“MapReduce就像是游击队员而非正规军”，Lipkovitz表示，“如果你想基于Mapreduces建立分布式文件处理系统，如果你想实现更多的操作命令，那么必然会有错误发生。况且你并不能缩短处理的时间，这是Google选择放弃Mapreduces的原因。”

Caffeine的处理原理

早前在谷歌的一篇博文中，谷歌提到了Caffeine的处理原理，“与我们的老索引技术相比，Caffeine能够提供的新网络搜索结果提高50%，最大程度收集我们提供的网络内容。无论是新闻、还是博客或论坛，一经发布，用户都能发现相关内容的链接，索引速度较以前有大幅提高。”

据了解，Google从2009年8月就开始测试Caffeine。当时，Google曾表示新索引技术将是自2006年以来的重大变革。速度和综合性是新技术关注的目标。

Google曾表示，新系统需与网络内容的爆炸性增长保持同步，过去两年中，博客、视频和社交媒体技术都蜂拥至网络。借助Caffeine，Google将加快索引次数的更新，对一小部分网络进行消化，而不是对整个网络重新索引并更新索引内容。

Google软件工程师卡莉·格兰姆斯（Carrie Grimes）在博客中称：“我们将把Caffeine列为未来考虑重点，不仅使之索引更多新结果，还要将之打造为适应网络消息增长的速度更快、理解力更高的搜索引擎，为用户提供相关度更高的搜索结果。”

关于“Colossus”计划

“我们需要一个新的计算框架”，Lipkovitz说，这使工程师能够在BigTable上编写代码，而该系统是基于“Colossus”建立的分布式存储平台——也被称为GFS2。

“原有的基于MapReduce的文件系统，不能达到Google所需要的计算规模。”

据了解，“Colossus”是专门设计BigTable的开发计划，基于这个原因，它并不针对传统的分布式存储平台应用。换句话说，它是专为建立新的Caffeine搜索索引系统而用的，虽然它可能会在Google的其它内容所服务，但其并未跨越整个谷歌的基础设施系统。

微信关注公众号“cncompute_com ”，为您奉上最新最热的计算头条资讯，干货满满。