盘点大数据生态圈，那些繁花似锦的开源项目_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

Flink支持delta-iterations，在迭代中可以显著减少计算。同时，在处理方式中，Flink是一行一行处理，从而能获得与Storm类似的性能。然而，对于SQL支持和社区活跃度上，Flink都稍逊Spark一筹。

3. 即席查询

即席查询当下比较受关注的有Hive、SparkSQL、Presto、Impala、Drill等，其中Hive借助于Hadoop的东风，已然在生产环境得到广泛使用。在Hive之外，关注度最高的无疑是Spark SQL。Impala出自知名大数据创业公司Cloudera，在沉寂了一段时间后，当下亦有了复苏的迹象。Presto来自Facebook，类似于Impala的一个即席查询工具，在该公司内部得到广泛使用，而国内也在一些知名公司得到部署，比如美团。Drill则是Google Dremel的开源实现，于今年5月发布了里程碑版本1.0，稍显年轻。

大数据开源生态繁花似锦

在大数据领域，除下上述几个分布式计算类别之外，在图处理和机器学习领域同样存在许多优秀的开源技术框架，比如：图计算开源技术Spark Graphx、PowerGraph、Giraph、Neo4j等;机器学习开源技术Spark MLlib、Mahout、PredictionIO等。同时，开源技术已经占领了数据从收集到可视化和存储的整个流程，比如：用于数据收集的Flume(NG)和Sqoop，分布式消息队列技术Kafka、RabbitMQ，用于数据可视化的HighCharts、D3.js、Kibana、Echarts等等。此外，加之Cassandra、HBase、MongoDB、Redis等NoSQL，Lucene、Solr、ElasticSearch等搜索技术，Docker等容器技术，ZooKeeper等分布式应用程序协调服务，整个大数据开源生态繁花似锦!

本文永久更新链接地址：http://www.linuxidc.com/Linux/2015-09/122902.htm

2/2 首页上一页 1 2