大数据开拓者 带给人的10大启示

  更好的数据压缩可以节省每TB硬件成本。列存储数据库,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以实现30:1或者40:1的压缩比。而行存储数据库,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的压缩比。这是因为柱状数据可以保持一致,包含邮编、采购订单号码等多种数据。而行状数据,比如与客户相关的属性组合--名称、地址、邮编、采购订单号等等,则不具有这种优势。Aster Data和甲骨文数据库可以提供混合行/列存储功能。甲骨文的Hybrid Columnar Compression可以提供10:1的压缩比。

大数据开拓者 带给人的10大启示[组图]
数据压缩

  压缩比率不同很大程度上取决于数据本身,而且列存储并不总是最好的选择。如果在数据查询的时候需要调用很大属性,行存储方案可能会表现出更好的性能。事实上,行存储数据库经常被企业应用在处理混合查询的数据仓库中,而列存储数据库更多的是集中在海量数据查询中。

  四、分类压缩、减少处理时间

  类似连续性的列数据有利于压缩一样,我们也可以通过数据加载之前进行分类从而提高压缩比。在将数据装载进Sybase IQ至 强,comSCore使用Syncsort DMExpress软件对数据进行分类。该公司的CTO Michael Brown(图示)表示,它可以将10字节的 数据压缩成3、4个字节,而通过分类后的10个字节数据可被压缩成1个字节。“这将给我们存储海量数据提供了另外一种方式 。”