ApacheArrow:该项目由MapR Technologies公司的一位Drill架构师带头,旨在建立一个通用数据层,兼容各种各样的大数据工具和引擎,比如Drill、Spark、Impala、Cassandra和Parquet;
Alluxio:这是基于内存的文件系统(原名Tachyon),与Apache Spark和Apache Mesos一样,也出自AMPLab实验室,现在得到一家同名公司的支持;
ApacheBeam:这是很有前途的大数据框架,其目标之一是用同一组API进行实时交互的批处理,并且通过“Runner”支持Spark、Flink和Google Dataflow;
CrateDB:遵守Apache 2.0协议,是可扩展的SQL数据库(有些人称之为NewSQL数据库),用于实时机器分析;
ApacheKylin:这个基于Hadoop的开源引擎提供联机分析处理(OLAP)能力,在2016年全年都是Apache软件基金会(ASF)的顶级项目(TLP);
ApacheGeode:2016年11月,ASF把分布式内存数据库Geode 提升为TLP 级别。
大数据用于社会公益
现在,大数据分析已经遍地开花,既存在于我们购买的产品中,也存在于我们使用的网络服务和我们通信的方式中。但值此辞旧迎新之际,我们必须提醒自己要从人性的角度出发,静下心来好好想想如何终结人类的苦难。
为此,我们应该看到大数据对社会进步的积极作用,而不只是赚钱。在2016年,大数据被Polaris等团体用来打击人口贩卖,把罪犯绳之于法。撰写“巴拿马文件”调查报告的记者使用云分析和图形数据库等大数据技术,来剖析和披露离岸避税行为。
大数据为公众健康作出贡献的例子不胜枚举,包括美国疾病预防控制中心利用机器学习来阻止阿片类物质引发的HIV爆发,Spark和Hadoop加快癌症研究,拓扑数据分析促使研究人员重新思考“干扰变量”对治疗外伤性脊髓损伤意味着什么。
我们不知道2017年将为大数据世界带来些什么。但如果和2016年一样,那么我们将目睹那些改变着人类生活的核心技术遭遇意想不到的突破、令人震惊的失败和稳步的发展。