大数据分析技术的新平台

在Gartner的发展规律周期(hype cycle)中,大数据还在节节高升,一个全新的大数据服务供应商类别又诞生了。这一消息对MetaScale是最不陌生的了。该公司在今年四月进入大众视野,是Sears Holdings的全控股子公司。

MetaScale位于美国伊利诺斯州的霍夫曼斯特市,是一家在基于云计算的模型中运营的管理大数据服务供应商。也就是说,MetaScale可以向那些准备采用大数据分析技术但又没有相关架构或者能力的客户,提供不同程度的足够的所需支持。

在本文中,记者编辑就大数据的挑战和市场趋势话题,对MetaScale的创始人兼CEO、同时也是Sears的CTO Phil Shelley进行了采访。

记者:目前企业面临的大数据方面的挑战有哪些?您能否对大数据管理和大数据分析进行分别阐述?

Shelley:首先,从大数据管理方面来看,我们现在处于一个全新的门槛。任何IT行业的资深人士都知道,Holy Grail想要把所有数据都汇集到同一个地方,这对系统要求非常高。当然了,他们没能实现愿望,结果还是用ETL复制数据;这个复制工作非常庞大,不同的系统用作不同的用途,将数据放到不同的地方。因此,数据管理一直以来都让人头疼。不过,现在有了改变。现在已经可以将数据模型放到一个单一的地方,企业中所有的交易信息、历史记录都在同一个地方。这样一来,你就可以实实在在地对企业进行管理、制造模型、设计数据架构,从真正意义上提高数据的使用效率。数据的重复使用十分重要;有了这些技术以后,终于可以实现了。

在把数据集中到一处之后,你就有了使用它们的各种新的可能性,因为Hadoop可以保存海量的历史记录。还不仅仅是保存,它还可以在不用移动数据的情况下对其进行分析。当你的企业涉及数以P计的数据时,你真的没有办法移动它们进行分析。以前的老办法是使用ETL将数据移动到一个分析平台上,现在行不通了。因此,与过去相比,能够拥有一个既能存储数据又能对其进行分析的平台真是一大进步了。

记者:那么,也就是说您是把工具带到数据中去,而不是将数据转移到工具上来?

Shelley:在目前所有的大数据技术中,也有一些新兴的工具可以配置图形前端和分析前端,这样你就能在数据仓库中进行查询和分析,而不是复制它们,你只需提取那么一小部分你真正需要的数据,也就是结果集。这是一种全新的颠覆性的思维方式,人们适应它还需要一段时间。

记者:我听到过很多说法--“逻辑数据仓库”、“混合数据生态系统”等等,这些概念强调的都是把数据放到最合适的地方。这和您说的是一回事吧,对吗?

Shelley:是的,只不过有些地方我说的更具体一点。有些人会说,把数据放到合适的地方;那么如果这么说,你就会有太多包含大量数据片段的系统。由于ETL所花费的时间和成本,我不会支持这一说法。但我绝对拥护工具的生态系统。如果你需要高速的SQL分析,那么Hadoop一定不合适,这一点毋庸置疑。把多少数据放到什么样的地方、什么时候放、怎么放--这些问题都需要仔细规划,否则就会产生某些地方数据太多、某些地方空余太大的情况。如果那样的话,你又回到了使用ETL时遇到的问题--移动数据。在企业数据架构方面的考虑尤其得慎重,需要合理地将系统与Hadoop结合,这至关重要。不过话说回来,我也不太相信太多的其他操作数据存储和逻辑数据集市,因为那样只会增加复杂度。随着数据变得越来越大,你没办法那样做,也没必要那样做。