Amazon、Cloudera、Microsoft与IBM的Hadoop-as-a-Service

Jaql,基于JavaScript Object Notation(JSON)的高级查询语言,它也支持SQL。
  • Hive,用于支持Hadoop文件的批量查询和分析的数据仓库基础设施。
  • HBase,用于在Hadoop中支持大型稀疏表的列存储数据环境。
  • Flume,收集数据并将其加载到Hadoop中的设施。
  • Lucene,文本检索与索引技术。
  • Avro,数据序列化技术。
  • ZooKeeper,针对分布式应用程序的协调服务。
  • Oozie,工作流/任务协作技术。
  • BigInsights还包含了IBM开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,与企业软件的整合和Hadoop增强让管理更加方便,性能更加优越。

    BigInsights并没有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在DBMS或数据仓库中”。

    IBM的Hadoop解决方案已经问世了,客户可以进行测试。

    另一个值得一提的解决方案是EMC Greenplum Analytics Workbench,一个1000+物理节点的集群在运行Hadoop集成测试,是由EMC及Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch和VMware这些合作伙伴一同推出的。Greenplum并不提供Hadoop-as-a-Service,而是提供了一个超过10000虚拟节点和24 PB存储容量的平台,用于对Hadoop本身进行测试。

    根据2011 TDWI的一份调查,34%的企业使用大数据分析来帮助制定决策。大数据和Hadoop将在未来扮演更重要的角色。