解疑：Hadoop+数据仓库到底是梦幻组合还是命中的宿敌？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

想一想数据管理世界中的那个伟大的存在–数据仓库吧。在过去的二十年中，尽管其他的系统和软件在许许多多的迭代、变革中演进，甚至完全被新模型所抛弃，数据仓库这个老骨干却安然屹立。她可能会偷偷地给自己的面颊，皱纹整容，也可能会激起一些不那么令人深刻的模仿，但是没有什么能长期的吸引她的注意力。

直到现在。自从Hadoop出现在舞台上之后，一直有人嘀咕说，这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是，在几年前，数据仓库已稳操胜券。

但是现在真的到了数据仓库要退休的时候了吗 Hadoop甚至想要进入她的鞋子里吗还有谁在后面等着呢

让我们仔细看看这些据报道的竞争对手的全部本领。

数据仓库持久吸引力的背后是什么

简单地说，数据仓库意味着将不同来源的数据聚合为一个用于报告和分析的中央存储库。它长期成为实际解决方案的原因如下：因为这些数据是被聚合的，在经历抽取，转换，加载过程后，协调成为“真理的唯一版本”，缓和矛盾，重构数据格式化的方式，从而适应预定的模式。

结果是一个完整的、可靠的，一致的数据来源，这些数据可用于商业智能软件查询。

Hadoop究竟是什么

对于需要处理海量数据集的用户来说，这是一个开源的编程框架。使用分布式存储系统，它给用户一种存储、清理和处理大量数据的方法。

为了使数据达到千兆兆字节的传输速度，Hadoop分布式文件系统(HDFS)沿着成千上万的硬件节点读取数据。即使许多节点由于技术故障而停止工作，系统仍能保持正常运行。这意味着存在低风险的数据丢失–对于那些使用大量数据进行非常复杂的分析的企业来说，这是一种真正的恐惧。

难怪Hadoop正在转向一个寻求可靠的方法来运行大数据处理任务的行业。

另外，它是开源的–这是一个巨大的吸引力。它具有无限的可伸缩性和无限的可定制性。包含定制应用程序、查询和方法的范围是无限的。数据挖掘的复杂性可以随着数据的复杂性和数据的数量而增长。

它哪里比数据仓库更出色

大数据正变得越来越大，许多大型数据仓库都试图采取定制的多处理器设备来应对不断飙升的存储需求。但是除了最大的组织外，所有这些都需要付费。

与此同时，Hadoop可以灵活地处理滚雪球般的数据。然后用户可以将它与数据仓库层或顶部构建的服务相结合，无论是像Presto的SQL软件，或者用相似方式工作的Hive，或者像HBase类的NoSQL。

但这并不意味着Hadoop将取关系型数据库或者数据仓库。事实上，我们马上就会看到，这很可能是最好的支持，而不是取代。

那么他们是竞争对手吗

完全不是。简单地说，他们没有扮演相同的角色。

数据专家趋向于把Hadoop看作现有数据仓库架构的一个补充，并且可以为他们节省大量现金。通过把数据块迁移到Hadoop，可以减少关系型数据库的压力，从而使数据仓库平台更便宜，并且可以在不增加语速那的情况下进行扩展。

用这种方式，Hadoop可以降低数据仓库的总成本，而不是取代它的某些东西。

它如何使数据仓库的性能更好

数据仓库的构建成本很高，运行成本和增长成本昂贵。随着收集的数据量的增长，存储需求和花费也会呈指数级增长。

此外，这些庞大的数据集合意味着用户每次运行查询的时候，不能进入数据仓库的全部范围–而且他们的硬件也无法处理这个问题。这意味着使用分析数据集来给业务中的各个部门访问数据仓库特定区域的数据。

它是一个不完美的系统。不仅限制了用户在数据上执行分析的范围，也是一个定时炸弹。

随着越来越多的数据涌入仓库，每个数据集都可能变得如此不堪重负，以致难以使用。你可以通过限制访问来减轻硬件压力，但是那意味着给各个部门越来越窄的数据分析选择。对于严格的商业智能来说，这样的做法并不够好。

Hadoop并没有遭受这些挫折。进入门槛很低，而且对增量投资是开源的。它可以随着时间的推移而建立起来，你可以不断增大数据量而不需要花大量的成本来匹配。

对于那些刚刚进入数据行业的公司--没有对大型机或者基于Unix的数据仓库的投资–这种可扩展的、增量式的框架是非常吸引人的。但是Hadop是一个框架，而不是一个完美的解决方案。它在处理巨大数据集方面很出色，但是它从来没有打算要替代数据仓库。