从小数据分析到大数据平台，大数据开源技术是如何演进的？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

当数据快速发展的时候，当时我们确实也存在很多数据解决方案，这些解决方案主要是由IBM等等公司提供。这些解决方案看起来非常并行，是企业数据的解决方案。但是对于这些解决方案存在的问题就是针对专属的数据，要付出高昂的代价解决这些问题。在大数据世界里，很多中小公司也会产生大量的数据，他们无法支付得起高昂的企业解决方案。

The rise of Hadoop

1.history of Hadoop

2003年，谷歌发布了一篇Google GFS论文，论文介绍了如何将GFS系统用于大型的、分布式的、对大量数据进行访问的应用。2004年，谷歌公布了另外一篇关于MapReduce的介绍一种用于大规模数据集（大于1TB）的并行运算编程模型，即MapReduce编程模型。

2005年初，雅虎启动了Nutch项目，同时，Nutch项目的开发者在Nutch上有了一个可工作的MapReduce应用，到当年年中，所有主要的Nutch算法被移植到使用MapReduce和HDFS来运行。

在2006年2月，他们从Nutch转移出来成为一个独立的Lucene子项目，称为Hadoop。大约在同一时间，Doug Cutting加入雅虎。Yahoo提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

3/18 首页上一页 1 2 3 4 5 6 下一页尾页