Sybase中国技术总监卢东明:大数据时代的数据库挑战

日前,在Sybase IQ 15.4媒体活动上,CSDN联合几家技术媒体共同采访了Sybase中国技术总监卢东明。卢东明就大数据给传统数据库厂商的冲击、列式和行式数据库的比较、以及其他热点话题分享了看法。

Sybase中国技术总监 卢东明

卢东明首先简单介绍了SAP旗下的5大数据库产品:

  • Sybase Adaptive Server Enterprise简称ASE(行式数据库)
  • Sybase IQ(列式数据库)
  • Sybase SQL Anywhere(小型嵌入式数据库)
  • HANA(完全基于内存、实时分析的数据库)
  • Sybase ESP(数据流分析工具)

记者:为何传统行式数据库公司都在发展列式数据库或者混合交付的方案?

Sybase中国技术总监卢东明:目前老牌行式数据库公司都在以某种程度声称拥有列式技术。但值得一提的是,列式存储、列式存储索引、列式压缩和列式数据库是完全不同的概念。为什么都在引入列式的概念,是因为列式数据库现在势头很猛,已经蚕食了很大市场。所以他们就在用词上混淆视听。

举个例子,Oracle和微软的(列式存储)解决方案很像,把其中某些列让用户选择性的存成行或者列。存成列以后确实能带来大量好处,比如高压缩性,快速的在列上做单列分析或者查询。从某种意义上来说,这点很像列式数据库的某些特性。但是,从根本性上来说,他们是不同的东西。纯粹的列式数据库是不存在解压和反向操作过程,Sybase把数据拿过来以后编码,再以这些编码形式存储,也做额外压缩,但是额外压缩带来的效率不是最主要的,更重要的是编码。

基于编码的运算,传统行式解决方案要反复读、反复解压缩、拆解然后才开始运算。所以很多行式数据库是在混淆,想加入到列式数据库阵营里。但为何不声称自己是列式数据库,是因为他做不到。做不到的原因有几个,一个原因是Sybase还占着很多专利,另一个原因是的确很难,传统数据厂商没法抛弃包袱。

记者:用户该如何选择行式或列式数据库?

卢东明:任何数据库解决方案都不是万能的,专项工具要专用。就像并没有一个瑞士军刀又能砍树又能刨木头,又能把木头加工成一个特殊的形状。数据库就是一个工具箱,里边有各种工具,每一个工具有每一个工具的甜点,不可替代。很多数据库用户或者开发商,还在从老式的数据库环境进入新环境中,不管主动还是被动,他们还没有接受数据库市场是一个细分市场。总希望不要用那么多种数据库,用一个数据库把它解决了。但是像现在电信的用户,非常清楚的认识到,在这样的数据规模下,不可能用一个所谓全能型的选手把这个规模解决掉。

记者:HANA里边有那些技术是来自Sybase?

卢东明:现在没有,但以后这两个技术一定会融合,一个是Sybase的内存计算的技术,还有一个是IQ里边各种各样的列式数据库的技术,因为有各种各样的专利索引,IQ里边有10种索引,这是所有其他数据库都没法比的。

记者:大数据对数据仓库厂商带来了哪些冲击和影响?

卢东明:传统数据仓库厂商过去解决的基本上还是数据类型比较简单的、结构化的数据。并没有完全回答,如何无缝的去处理结构化和非结构化数据。数据规模上,这一波数据增长的确让数据库厂商有点措手不及,数据增长忽然间以指数级上升。数据库往后发展还有几个方向,IQ也在做很多新型的索引研究,有没有更新的索引把数据压缩、数据分析、查询和效果做的更好,这是一个方面。另外,从HANA带来的启示,内存计算。HANA里用的一种技术叫Flash卡,Flash卡是直接插在机子里。

从传统存储到SSD到Flash卡到内存大概是4个阶梯,每一个阶梯大概有10倍的差距。HANA用了纯内存,用了Flash卡,用了硬盘,这里边这几种技术都有,IQ现在基本上只用了少量的内存和巨大量的存储。Sybase现在在做一个解决方案就是把Flash卡加进去。

此外,据悉Sybase IQ 15.4采用MPP列式数据库和数据库内分析技术,并加入MapReduce与Hadoop集成,以应对大数据时代的分析挑战,开启洞察关键业务的能力。

另一方面,据记者观察,SAP作为一家大公司,应用软件底层还用到了IBM DB2、SQL Sever、Oracle数据库,而未来用到其他数据库产品的机会,会是逐年缩小,而且缩小的份额一定会转移到ASE、IQ、HANA上。这也是SAP立志三年后将成为数据库市场第二位的一个重要因素。(付江/文)