Hadoop联姻Excel: 微软巩固Office帝国

大数据的泡沫在毫无止境的膨胀,它给IT企业带来了颠覆性的改革。 Hortonworks的CEO Eric Baldeschwieler表示,目前企业中80%的数据是非结构化数据。更为雷人的是这些数据在以60%的速度呈现指数级增长,到2020年,全球数据使用量预计将暴增44倍,达到35.2ZB(1ZB=10亿TB)。大数据的急剧蔓延使得企业在存储架构方面逐渐面临着史无前例的考验,由此引发了数据仓库、数据挖掘、商业智能、云计算等应用的一连串连锁反应。

据最新消息,微软正在研发一种连接器,即Excel用户能访问Hadoop大数据处理结果。而Hortonworks希望把它变成NoSQL到SQL的的通用连接器,在开源社区推而广之。

大数据膨胀催生了微软等巨头纷纷拥抱Hadoop

各大企业巨头纷纷有所行动,雅虎、AOL、谷歌、Facebook等早期采用并使用Hadoop来存储和分析PB级别的非结构化数据。IBM也在在 SmartCloud 平台上新增基于 Apache Hadoop 的服务 InfoSphere BigInsights 分析软件。Oracle的Big Data机采用了NoSQL数据库和Hadoop框架。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备。Google 的网络搜索引擎在得益于算法发挥作用的同时,Hadoop的核心MapReduce 在后台发挥了极大的作用。亿贝的Hadoop系统能够很好地处理大规模非结构化数据,高效处理用户邮件数据。

  Hadoop核心框架MapReduce工作原理

与各大巨头相比,微软更是耐不住寂寞,它与Hortonworks达成合作,致力于将Hadoop打造成用于存储和处理数据的引人注目的平台。Windows和Hadoop的结合将是非常具有吸引力的,这将吸引大量的Windows用户。显然微软具有在此领域竞争的实力,优化和调整是确保其成功的重要因素。

微软捷足先登 不断强化开源Hadoop框架的支持

大数据的浪潮一浪高过一浪,企业厮杀角逐越发激烈,微软迈出的步伐似乎更快,发力更猛。Hadoop可谓是开源创新领域的杰出典范,微软对Hadoop的支持更应该被看作极具转折式的决策。

首先,早在2006年起微软就捷足先登,致力于研发某种非常类似于Hadoop的项目,被称为“Dryad”。

2011年年初,该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。

其次,微软早在2011年3月份就发布了数据库系统Trinity. Trinity是一款NoSQL数据库,同时也是一个基于内存的数据存储与运算系统。Trinity包括一个图结构数据库(提供实时查询与后台批量计算任务,类似于Map/Reduce,同时支持ACI的事物并提供C#的客户端API)和一个并行计算系统。目前在微软为Probase和AEther这两个产品服务。

此外,2011年8月微软就增加了SQL Server在大规模数据处理和并行数据仓库平台对开源Hadoop框架的支持。微软已经将Hadoop嵌入到了生态系统中,并且发布了SQL Server的Hadoop连接器,此外,还推出了基于Hadoop的Windows Azure预览版,该连接器的最终版本已提供下载。这两个连接器采用SQL to Hadoop (SQOOP)技术,在Hadoop File System (HDFS)和微软关系数据库之间有效地传输数据。通过这个连接器,用户可以在Hadoop中分析非结构化数据,然后迁移到SQL Server环境中进行数据分析。

  SQL Server的Hadoop连接器

用户需要将SQL Server Hadoop连接器部署到Hadoop集群的主节点。主节点还需要安装Sqoop和微软的Java数据库连接驱动。Sqoop是一个开源命令行工具,用来从关系型数据库导入数据,并使用Hadoop MapReduce框架进行数据转换,然后将数据重新导回数据库当中。