在 一大三小:亚马逊,微软、谷歌、IBM ,IaaS四强争霸中,我们有报道过IaaS领域的硝烟弥漫,而Amazon在市场占有率上有着压倒性的优势——租用的计算资源是象限中其它14个供应商的5倍,IaaS霸主地位毋庸置疑。然而,区别于其IaaS的绝对优势,AWS在PaaS领域的日子似乎“没那么好过”,其领先地位受GCE、Azure、Heroku等众多劲敌窥伺。然而AWS之所以为AWS,不仅因为其数量庞大的合作伙伴,还有其独一无二的云服务,就在本个月,Amazon一扫之前在PaaS领域的低调,在宣布EMR支持Impala之后,更推出了流计算服务Kinesis。
EMR支持Impala:AWS军团亮剑流计算之始
本月,Amazon宣布EMR支持Impala,Impala是专为实时、ad-hoc查询设计的开源工具,使用类SQL语言。在AmazonEMR上使用Impala,用户可以在非结构数据上执行快速的交互分析。对于许多类型的查询,比Hive快很多。Impala的性能使它成为迭代查询和许多流行BI工具一个很好的引擎。通过Amazon EMR,用户可以用Impala作一个可靠的数据仓库来执行数据分析、监控和商务智能等任务。这里是三个用例:
- 取代Hive,在长期运行的集群上使用Impala来执行ad-hoc查询。Impala可以将迭代查询时间减少至秒级,使它非常适合做快速调研。用户可以在同一个集群上进行流计算和批处理,在一个长期运行的Hive和Pig分析集群上使用Impala,或者为Impala查询建立一个经过专门调优的集群。
- 在短暂的Amazon EMR集群上使用Impala而不是Hive来进行批ETL作业。对于很多查询来说,Impala比Hive快,就像Hive,Impala使用SQL,所以,从Hive到Impala查询修改工作量并不大。
- 结合使用Impala和第三方商业智能工具。通过给集群连一个客户端ODBC或者JDBC驱动,你可以将Impala作为强大可视化工具及监视面板的查询引擎。
Kinesis的全面可用:AWS之所以为AWS的原因
Kinesis,AWS于11月宣布的流数据服务,现已公开使用。这种服务理论上可以与流行的开源技术(比如Apache Strom)相匹敌,而当下也只有Kinesis能带来完全的管理经验,这种经验成为AWS的进程中的标准。
随着公司(尤其是基于因特网的公司)寻求超越他们倚仗已久的批处理方式,流处理正变得越来越流行。流处理主要利用数据的实时优势,而不是等待几分钟,甚至是数小时来分析收集所有(前一批正在处理之后)的数据,对这项工作而言Storm可能是最流行的工具,在发往其它地方(比如Hadoop)与历史数据进行分析之前,Storm就会在数据传输过程中进行处理。