11月底,AWS推出了数据仓库服务Redshift,除了价格便宜,Redshift还有诸多特点,甚至你根本不需要雇佣数据库管理员。以下为James Hamilton对Redshift的评论:
快速 强大——Redshift有大量创新,提供非常高的数据请求性能,支持从几百GB到PB或更多。首先,它采用列式存储和压缩技术。第二,硬件对数据仓库进行优化,使用附加的本地存储和万兆网卡连接每个节点。最后,使用了大规模并行处理(MPP)架构,可以在不停机的情况下实现扩展或收缩。
扩展性——有两种节点类型可选,一种为特大节点(XL),拥有2TB的压缩存储空间,另一种为8倍特大节点(8XL),拥有16TB压缩存储空间。起初,你可以从1个特大节点起步,最大扩展到总共100个8倍特大节点的集群。特大节点集群可拥有1到32个节点,8倍特大集群可以拥有2到100个节点。
通过AWS管理控制台或API,可以轻松的调整节点数量,并且这一过程不需要停机。目前Redshift处在有限预览阶段,并不支持调整重新设定空间,正式版将提供这一功能。
高性价比——你可以选择按需付费或长期合同,或通过保留实例获得更低的价格。在按需付费方式下,2TB的数据仓库的价格为0.85美元/小时,价格节点数量随扩展线性增长。保留实例的价格为0.228美元/小时,折合每年1000美元/TB。
全方位管理——Redshift对所有的设置、运维、扩展进行管理,贯穿数据仓库从建立到集群备份,以及安装补丁或升级。所有这些耗费精力的操作都交由Amazon来处理。
安全——Redshift支持SSL加密,可通过网页界面对访问数据仓库网络的防火墙进行设置,并支持在数据仓库集群中创建用户。当Redshift正式发布后,计划支持静止数据加密(encrypting data at rest)和Amazon虚拟私有云(Amazon VPC)。
可靠性——所有写入节点的数据,都将自动的在集群内的节点进行备份,并不间断的在S3进行备份。Redshift对集群的健康持续关注,并自动替换任何组件。
兼容性——Redshift通过了JasperSoft和Microstrategy认证,可以使用PostgreSQL JBDBC或ODBC将SQL客户端或智能工具与Redshift数据仓库连接。
写在最后
毫无疑问,对于价格敏感的用户,Redshift的吸引力足够强大。但我还是会问许多问题?数据安全如何保证?S3仅能提供99.9%的可用性,与金融行业的标准相去甚远。今年和去年频发的宕机,让许多AWS用户心有余悸。有些充满智慧的用户摸索出一套跨可用区备份的经验,能大大提高可用性,但这需要几年时间进行摸索、试错和优化。对于计划尝鲜Redshift的用户,首先需要在本地保存好数据,并准备一只强大的运维队伍以及足够的宽容心。