最全大数据学习资源整理

Facebook Scribe:流日志数据聚合器;

Fluentd:采集事件和日志的工具;

Google Photon:实时连接多个数据流的分布式计算机系统,具有高可扩展性和低延迟性;

Heka:开源流处理软件系统;

HIHO:用Hadoop连接不同数据源的框架;

Kestrel:分布式消息队列系统;

LinkedIn Databus:对数据库更改捕获的事件流;

LinkedIn Kamikaze:压缩已分类整型数组的程序包;

LinkedIn White Elephant:日志聚合器和仪表板;

Logstash:用于管理事件和日志的工具;

Netflix Suro:像基于Chukwa 的Storm和Samza一样的日志聚合器;

Pinterest Secor:是实现Kafka日志持久性的服务;

Linkedin Gobblin:LinkedIn的通用数据摄取框架;

Skizze:是一种数据存储略图,使用概率性数据结构来处理计数、略图等相关的问题;

StreamSets Data Collector:连续大数据采集的基础设施,可简单地使用IDE。

服务编程

Akka Toolkit:JVM中分布性、容错事件驱动应用程序的运行时间;

Apache Avro:数据序列化系统;

Apache Curator:Apache ZooKeeper的Java库;

Apache Karaf:在任何OSGi框架之上运行的OSGi运行时间;

Apache Thrift:构建二进制协议的框架;

Apache Zookeeper:流程管理集中式服务;

Google Chubby:一种松耦合分布式系统锁服务;

Linkedin Norbert:集群管理器;

OpenMPI:消息传递框架;

Serf:服务发现和协调的分散化解决方案;

Spotify Luigi:一种构建批处理作业的复杂管道的Python包,它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题;

Spring XD:数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统;

Twitter Elephant Bird:LZO压缩数据的工作库;

Twitter Finagle:JVM的异步网络堆栈。

调度

Apache Aurora:在Apache Mesos之上运行的服务调度程序;

Apache Falcon:数据管理框架;

Apache Oozie:工作流作业调度程序;

Chronos:分布式容错调度;

Linkedin Azkaban:批处理工作流作业调度;

Schedoscope:Hadoop作业敏捷调度的Scala DSL;

Sparrow:调度平台;

Airflow:一个以编程方式编写、调度和监控工作流的平台。

机器学习

Apache Mahout:Hadoop的机器学习库;

brain:JavaScript中的神经网络;

Cloudera Oryx:实时大规模机器学习;

Concurrent Pattern:Cascading的机器学习库;

convnetjs:Javascript中的机器学习,在浏览器中训练卷积神经网络(或普通网络);

Decider:Ruby中灵活、可扩展的机器学习;

ENCOG:支持多种先进算法的机器学习框架,同时支持类的标准化和处理数据;

etcML:机器学习文本分类;

Etsy Conjecture:Scalding中可扩展的机器学习;

Google Sibyl:Google中的大规模机器学习系统;

GraphLab Create:Python的机器学习平台,包括ML工具包、数据工程和部署工具的广泛集合;

H2O:Hadoop统计性的机器学习和数学运行时间;

MLbase:用于BDAS堆栈的分布式机器学习库;

MLPNeuralNet:针对iOS和Mac OS X的快速多层感知神经网络库;

MonkeyLearn:使文本挖掘更为容易,从文本中提取分类数据;

nupic:智能计算的Numenta平台,它是一个启发大脑的机器智力平台,基于皮质学习算法的精准的生物神经网络;

PredictionIO:建于Hadoop、Mahout和Cascading上的机器学习服务器;

SAMOA:分布式流媒体机器学习框架;

scikit-learn:scikit-learn为Python中的机器学习;

Spark MLlib:Spark中一些常用的机器学习(ML)功能的实现;

Vowpal Wabbit:微软和雅虎发起的学习系统;

WEKA:机器学习软件套件;

BidMach:CPU和加速GPU的机器学习库。

基准测试

Apache Hadoop Benchmarking:测试Hadoop性能的微基准;

Berkeley SWIM Benchmark:现实大数据工作负载基准测试;

Intel HiBench:Hadoop基准测试套件;

PUMA Benchmarking:MapReduce应用的基准测试套件;

Yahoo Gridmix3:雅虎工程师团队的Hadoop集群基准测试。

安全性

Apache Knox Gateway:Hadoop集群安全访问的单点;

Apache Sentry:存储在Hadoop的数据安全模块。

系统部署

Apache Ambari:Hadoop管理的运作框架;

Apache Bigtop:Hadoop生态系统的部署框架;

Apache Helix:集群管理框架;

Apache Mesos:集群管理器;

Apache Slider:一种YARN应用,用来部署YARN中现有的分布式应用程序;

Apache Whirr:运行云服务的库集;

Apache YARN:集群管理器;