优化的Hadoop发行版使混合架构成为过去

数据是企业最重要的资产。对数据价值的挖掘,一直以来都是企业应用、技术、架构、服务等创新的源泉。经过十数年技术发展,企业的核心数据处理逐渐分为两大模块: 以关系型数据库(RDBMS)为主,主要用于解决交易型事务处理的问题;以分析型数据仓库为主,主要解决数据整合分析的问题,并且当需要对几TB或十几TB的数据进行分析时,企业大多采用MPP数据库架构。这在传统应用领域是合适的。但是近年来,随着互联网的快速发展,特别是移动互联网、物联网的发展,企业的数据比以往任何时候产生的都要多都要快,面对动辄几十TB、上百TB、甚至PB级别的数据进行分析时,传统架构已近乎“疲于奔命”,难以招架。Hadoop在企业级市场随之受到关注,逐渐被认为是新形势下最佳乃至唯一的选择 。

这使得在企业的数据中心里,为了应对不同量级的数据、不同性能的计算要求、不同计算模式的需要,不得不采用混合架构,即:关系型数据库+内存数据库+MPP数据库+Hadoop平台。

然而,客户采用这样的混合架构,经常面临如下问题:

1. 大量数据需要频繁地从一个平台迁移至另外一个、甚至是另外几个平台,网络开销巨大。

2. MPP架构在升级或扩容时,对外提供的服务会受到影响。

3. 混合架构的上线、后期运维、升级成本居高不下。

4. 多套平台需要多套运维人马,掌握多套平台技能。

5. 每套平台的容错、备份、灾备等方案及实施,都需要单独考虑。

面对以上众多问题,对Hadoop有经验的客户进行了大胆思考,并逐步实施了一个创新的架构:让Hadoop统一数据分析平台的混合架构。这样的想法仅在一年前还被认为是不切实际的。当时普遍认同的是,Hadoop在处理上百TB或是PB级别数据时具有优势,但是让MapReduce在Hadoop之上去处理GB或是几TB数据,则显得过于笨重。

星环信息科技(上海)有限公司(以下简称星环科技)通过在大数据领域敏锐的判断力、极强的执行力与研发能力,在Hadoop/MapReduce之外独辟蹊径,通过引入Spark,完满解决了Hadoop原有缺陷。 星环科技发布的一站式大数据综合平台 -- Transwarp Data Hub(以下简称TDH),不仅提供对海量数据超强的分析能力,在中小数据量的分析中,性能也优于MPP架构,甚至可比拟专业的内存数据库平台。TDH因此使企业能统一混合架构,形成完整的数据分析平台。

TDH产品系列中的内存分析引擎Inceptor将Spark作为核心的计算引擎,弥补了采用MapReduce计算引擎的缺点。Spark内存计算技术通过把任务描绘成DAG、把分布式数据抽象成弹性分布式数据集(RDD)、中间结果存于内存、减少Shuffle过程的磁盘IO等关键技术,性能大幅领先于MapReduce 。星环科技经过多个成功案例的积累与丰富实践经验的总结,已经将Inceptor打造成成熟、稳定、高性能的分析平台,解决了开源Spark不稳定,例如:运行24小时自动死掉、运行SQL时快时慢、有时比MapReduce还慢、大内存计算时经常没有响应等问题。

Inceptor针对数据仓库复杂分析的特点,对Spark进行了较多的技术改进、创新与性能优化。单独开发了列式混合存储层Holodesk,使得数据能够在内存与SSD中混合装载,满足更大的内存计算缓存需求,极大地扩展了对TB级别数据进行分析时内存的限制。Inceptor在内存计算上做了较多的性能优化,例如:完成了基于代价的优化器,能够更精准地自动选择最优的执行计划;在多表之间通过键值进行关联时,通过数据分区、分桶、查询过滤、条件下放等方式减小数据扫描IO,极大提高查询速度等等。Inceptor在对多张10亿条记录的大表进行关联查询时,相比MPP数据库,性能提升2-10倍。

Inceptor另一个使其能够进入数据仓库领域,统一企业数据分析平台,提供对ANSI SQL1999标准的完整支持。Inceptor支持常用的数据类型、各种表连接查询、各种子查询、操作符、窗口聚合函数、甚至单条数据的DML操作等等。通过SQL实现的,运行在现有内存数据库、MPP数据库等平台统计分析、经营分析等综合性企业报表,几乎无需任何修改,便可以平滑迁移至TDH平台。TDH在某运营商的经分系统中,成功运行300多张报表,几乎没有做任何修改。TDH在某电网公司成功运行21万行SQL代码,而仅仅做了十几处的代码修改。在其他的一些案例中,对于在Teradata等MPP数据库平台运行的SQL也直接迁移至TDH平台运行,性能有很大提升。

Inceptor解决了一直以来MapReduce被诟病的在处理复杂数据分析、即席查询、自助式分析、迭代式数据分析与机器学习时,无法提供快速的响应时间的问题,使得大量一线业务人员可以通过大数据可视化工具灵活地进行交互式数据分析与探索。Inceptor中整合了R语言的统计分析、数据挖掘与机器学习算法,数据分析人员可以快速地通过并行化的R语言算法对TDH平台的TB、甚至PB级别的数据进行快速的数据分析。如此强大的数据分析能力,已经远远超过了现有MPP平台的相关实现手段。

由此可见,对于业界呼声比较高的、将Hadoop与MPP数据库的进行整合的方案,已经显得没有很强的必要性。通过TDH平台,可以完全替代MPP平台 :第一,TDH平台对ANSI SQL1999标准的完整支持,已经可以满足企业对大规模数据仓库进行复杂数据分析的需求;第二,集成Spark内存计算技术,在数据仓库所支撑的数量级上(GB->TB->PB),能够提供比传统MPP平台更好的性能;第三,TDH平台提供比MPP平台更强的扩展性,更强的计算与分析结构化、半结构化、非结构化的能力。第四,TDH平台提供给客户一个统一的数据平台,不同数据量级的数据计算与分析都能够很快得到满足。第五,TDH平台提供统一的数据容错、备份与灾备,对企业提供更方便的措施和安全保障。

更多信息,请访问 http://www.transwarp.io/