大数据时代:如何赢得竞争优势

数据分析的价格和性能

Hadoop不仅提供卓越的数据分析功能和结果,还比传统数据分析工具更具成本效益。其原因是传统数据分析工具的扩展数据分析能力主要遵循80/20规则:最初的小努力和付出能够带来大收益,但随着数据集发展为大数据,这种回报会减少。

形成鲜明对比的是,Hadoop可以线性扩展,这是有效且符合成本效益的数据分析的关键因素。随着数据集的增长,传统数据分析环境规模呈指数增长,为获取洞察力需要投入更多额外费用,这最终让人望而却步。而对于Hadoop,服务器集群能够随着数据集数量和规模的增长而直接附加存储线性地扩展规模。

Hadoop的这些优势是其在基于web的企业和数据密集型企业快速普及的主要原因。

然而,Hadoop部署面临的主要挑战仍然是其文件系统。HDFS是append-only(只允许在这个文件之后追加数据)存储要求数据装在Hadoop集群中,然而再输出后处理以供不支持HDFS API的其他应用程序使用。

Hadoop在较大型企业部署的另一个障碍是需要采取使环境可靠的特殊措施。需要不断监控Hadoop以确保单点故障不会导致灾难,在数据丢失的情况下,数据会被重新加载到Hadoop集群。

冲破障碍

Hadoop的这些问题已经成为过去式。开源社区创造了一个充满活力的生态系统,使Hadoop不断完善。一些公司现在正在提供基于开源Hadoop的商业产品。