大数据管理新常态:让Hadoop轻松跑云端

  现在的企业级IT硬件已经变得越来越廉价,一台非品牌服务器,2颗24核CPU,配48G内存,2T的硬盘,不到2万块人民币就能搞定。这种配置如果简单地放几个web应用,显然是奢侈的浪费。就算是用来实现单节点的hadoop,对计算资源浪费也是非常高的。对于这么高性能的计算机,如何有效利用计算资源,就成为成本控制的一项重要议题了。

  通过虚拟化技术,我们可以将一台服务器,拆分成12台VPS,每台2核CPU,4G内存,40G硬盘,并且支持资源重新分配。那如果我们拥有12个节点的Hadoop集群,如何能够让它更好地跑在云端呢?

  作为Apache Hadoop的最快速、最便捷、最安全的数据管理和分析平台,以及最新开源技术的提供者,Cloudera于一个月前宣布增加了对Spark SQL和MLiB与Cloudera Enterprise 5.5 和 CDH 5.5集成的支持。在过去的一年中,两者已经在可用性和交互操作性上取得重大成绩。

  近日,Cloudera又发布了大数据部署和管理工具Cloudera Director 2.0。Cloudera方面表示,新版Cloudera Director简化了在云端执行Hadoop的工作,例如ETL(Extract、Transform、Load)、建立数据流模型(Modeling)、商业智能(Business Intelligence,BI)和分析,以及应用程序递送等。目前Cloudera Director 2.0已开放免费下载。

 

  据悉,Cloudera Director 2.0能够提供自动工作提交功能,加速特定查询的硬件资源请求和释放基础设施的资源分配,且不需手动管理丛及生命周期。此外,也提供客制化模板和设定,让使用者便于管理且可以重复部署。

  另外,Cloudera也与Amazon AWS服务、Google云端平台(Google Cloud Platform,GCP)和微软Aazure合作,提供Cloudera Director支持混合的作业环境,以及Cloudera Director也支持开放云端连接器(Open Cloud Connector),可以和私有云整合。

  具体到合作方面,新版Cloudera Director可支持AWS Spot Instance、Google虚拟机云端服务Preemptible VM、在Amazon S3上的Apache Hive和Apache Spark等,以降低基础设施的作业成本,来提升如ETL的工作量。另外,使用者可以透过Azure市集在Azure上部署Cloudera企业版。

  此外,Cloudera Director 2.0新增集群复制(Clone)和集群修复功能,在不影响用户日常作业的情况下,来增加使用者数量和修复集群。而在应用程序递送工作方面,Cloudera Director在引导工作流程中整合高可用性和Kerberos验证设定,来简化应用程序递送的工作。