10gen发布MongoDB与Hadoop连接器_云计算_计算头条_中国计算网——工业互联网一站式服务平台—

10gen近日宣布他们已经推出MongoDB与Hadoop连接器（1.0版）。这个版本将提供一年的维护。10gen的工作也为用户提供了在MongoDB部署与Hadoop集群数据处理的一体化工具。此连接器支持Hadoop 0.20.x以上的版本。

连接器的核心功能主要是提供将MongoDB所存储的数据读入Hadoop MapReduce，同时将MapReduce处理过的数据返还到MongoDB。用户还可以选择是批量写入数据或是单独用在某个用例上。10gen的目标就是在Hadoop生态圈中建立对用户有意义的组件。

在1.0版本中10gen还提供了如下特性：

●从Pig写入数据到 MongoDB

●从Flume 分布式日志系统写入到 MongoDB

●在MapReduce中支持Python，并通过 Hadoop Streaming 读取并写入数据到MongoDB

在未来10gen团队将会继续完善他们的工作，据悉未来将会考虑对Ruby的支持，以及脱机处理MongoDB备份文件读写的能力。（李智/编译）

关于MongoDB

Mongo是一个高性能，开源，无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发，提供了以下功能：

◆面向集合的存储：适合存储对象及JSON形式的数据。

◆动态查询：Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记，可轻易查询文档中内嵌的对象及数组。

◆完整的索引支持：包括文档内嵌对象及数组。Mongo的查询优化器会分析查询表达式，并生成一个高效的查询计划。

◆查询监视：Mongo包含一个监视工具用于分析数据库操作的性能。

◆复制及自动故障转移：Mongo数据库支持服务器之间的数据复制，支持主-从模式及服务器之间的相互复制。复制的主要目标是提供冗余及自动故障转移。

◆高效的传统存储方式：支持二进制数据及大型对象（如照片或图片）。

◆自动分片以支持云级别的伸缩性（处于早期alpha阶段）：自动分片功能支持水平的数据库集群，可动态添加额外的机器。

MongoDB的主要目标是在键/值存储方式（提供了高性能和高度伸缩性）以及传统的RDBMS系统（丰富的功能）架起一座桥梁，集两者的优势于一身。根据官方网站的描述，Mongo适合用于以下场景：

◆网站数据：Mongo非常适合实时的插入，更新与查询，并具备网站实时数据存储所需的复制及高度伸缩性。

◆缓存：由于性能很高，Mongo也适合作为信息基础设施的缓存层。在系统重启之后，由Mongo搭建的持久化缓存层可以避免下层的数据源过载。

◆大尺寸，低价值的数据：使用传统的关系型数据库存储一些数据时可能会比较昂贵，在此之前，很多时候程序员往往会选择传统的文件进行存储。

◆高伸缩性的场景：Mongo非常适合由数十或数百台服务器组成的数据库。Mongo的路线图中已经包含对MapReduce引擎的内置支持。

◆用于对象及JSON数据的存储：Mongo的BSON数据格式非常适合文档化格式的存储及查询。