2011年,Kafka捐献给了开源社区,2012年从Apache孵化器计划出来。当初开发Kafka的领英开发人员成了从领英拆分出来的Confluent这家新公司的成员。
使用Kafka的公司包括领英、推特、网飞、Pinterest、高盛和Coursera。
Storm
Apache Storm在其项目页面上的描述是,这是一种分布式实时计算系统,让用户很容易可靠地处理无限制的数据流,正如Hadoop用于批量处理,Storm用于实时处理。
这项技术有时被称为是Spark的替代技术。2011年,开发Storm的公司BackType被推特收购。2014年,从孵化器计划出来后,Storm成为了Apache软件基金会的一个顶级项目。
此后,推特开发了自己的内部系统,用于处理最初分派给Storm的任务。使用Storm的公司包括雅虎和Spotify。
Nifi
Apache Nifi原先名叫Niagara Files,这个技术转让项目由美国国家安全局(NSA)开发,2014年11月,它作为一个孵化器项目,捐献给Apache软件基金会。2015年,它成了一个顶级项目。
Nifi旨在处理这个问题:如何让数据在系统之间的流动实现自动化。其在Apache软件基金会上的项目页面介绍,这项技术“支持功能强大、可扩展的有向图,这些有向图涉及数据路由、转换和系统中介逻辑。”
它提供了一种基于Web的用户界面。另外,与NSA开发的其他项目一样,它也提供了安全功能,包括SSL、SSH、HTTPS、加密内容,以及可插入式、基于角色的验证和授权机制。
Flink
2015年1月,Apache基金会接受Apache Flink成为一个顶级项目。这项技术是一种面向批量数据和流数据的分布式数据分析引擎,它提供了使用Java和Scala的编程API。
该项目脱胎于柏林的Stratosphere研究项目。使用Flink的企业组织包括第一资本(Capital One)和Data Artisans。
Arrow
这个月,Apache Arrow被Apache软件基金会接收为一个顶级项目。这项技术源自Dremio公司,这家公司还捐献了Apache Drill项目。Dremio的几位创始人是从MapR出来的,这是一家Apache Hadoop发行版公司。
据Apache软件基金会声称,Arrow最初是靠来自Apache Drill项目的代码起家的。据Dremio的联合创始人兼首席技术官Jacques Nadeau声称,Arrow提供了列式内存分析功能。
Apache软件基金会的更多大数据项目
这些是Apache软件基金会里面Hadoop生态系统中一些备受关注的大数据项目。另外许多是捐献而来的。所有这些项目的开发工作都在进行之中,Apache软件基金会的网站对它们都有全面记载。
Connolly告诉《信息周刊》杂志:“Apache之道就是社区比代码重要。虽然技术值得关注,但是Apache之道是把社区放在首位。”
原文标题:Hadoop Ecosystem Evolves: 10 Cool Big Data Projects