解析:大数据分析平台要从哪里开始

“大数据”这个提法通常指的是数量、速度和种类都会急剧倍增的数据。根据Enterprise Strategy机构最新研究,大数据分析平台正在模仿这种定义:供应商产品发布数量在增长,产品增强功能迅速翻倍,现在有多种部署选择支持。

  Julie Lockner是ESG的一位高级分析师,也是《稳固的大数据分析平台》一书的作者,她说企业在考虑他们如何把大数据技术整合到他们的架构中尤其是当它变得价格可负担,并且可扩展时。

  部分苦恼源自于大数据技术和术语的流动性,这带来了市场混乱的纠结。Lockner把她的研究命名为“市场前景报告101”,她相信这种纠结可以通过内部评估和培训来抚平。

  这么做意味着从头开始,也就是从定义开始。

  大数据有很多选择

  根据ESG的报告:“大数据分析项目如雨后春笋般冒了出来,有的甚至还没有理解清楚大数据真正的含义就开始做了。”

  根据个人对这一定义理解的差异,这一术语的含义有可能扩大或者缩小。事实上,它的定义已经变得很宽泛了,ESG给出了他们自己的解释:“超出正常处理能力边界和大小的数据集,迫使你采取非传统的方法。”

  Lockner表示,问题是数据量将会发展到TB级,当前系统上会开始出现“应力性骨折”,常规用途的技术在大数据以及大数据分析面前将不能保证成本高效的方法。那才是企业应该考虑扩展他们数据中心的时候。此前,许多大型跨国公司都在做这样的项目,但现在有更多可以支付得起的选择。不管是预算,还是技能集。”

  目前,企业都使用了大量大数据部署方案,有定制开发的方法,大规模并行处理数据库,云计算服务或者一些可用工具的组合。开源Apache Hadoop项目的加入更激起了持续增长的兴趣,该开源项目支持大数据集分布式处理。

  Lockner评价说:“我不记得自HTML诞生之后还有另外哪一种技术可以产生这么大的影响了。”

  像IBM和EMC这样的供应商都想搞清楚如何把Hadoop整合到他们产品服务中。例如,在1月9日甲骨文推出了大数据机,它包含了与Hadoop经销商Cloudera的合作伙伴关系。现在的情况是,如果哪家厂商谈大数据时没有提到Hadoop,你就都不好意思发布新的产品。

  尽管Lockner看到了Hadoop的许多许诺,并且相信今后它将在大部分企业数据中心中存在,但她的研究表明它仍然是一种新兴技术,应该被用于特定的场景。

  大数据开始了

  企业要探索在大数据分析平台上进行投资,需要审查供应商对大数据的定义,并了解他们的产品与大数据的相关性,这是一个很好的开始点。Lockner说:“当你与供应商交流时,要弄清楚他们产品定位以及能解决的问题是什么?”

  例如,EMC公司有多款大数据产品,比如Greenplum数据库软件,Greenplum数据计算设备和Isilon。这三款产品处理的都是不同类型问题。Lockner说:“你必须真正把洋葱层层剥开,并做一些功课。”

  首先,Lockner推荐客户依靠他们有良好关系的供应商,要求查看他们大数据分析平台的演示。这些都是免费信息。因为这个企业中的人们会尽力理解他们想做的事,他们应该可以对供应商施加压力。

  她推荐客户也要学习针对他们业界其它厂商的案例使用情况。这种信息可以帮助看清楚哪些供应商是真正的意见领袖,哪些不是。

  企业应该依靠他们内部的IT部门和他们更有技术悟性的员工,来帮助做一些功课。Lockner说:“通常情况下,一些实验室项目之类的会研究新技术,而且如果企业可以找到那些专家组并与他们集思广益讨论如何做的话,那是一个相当不错的开始。”

  但是要真正剥离这些层次,企业应该判断什么是真正的需求,供应商的产品如何能满足这些需求。据该报告认为,这意味着要估量清楚内部可用技能,数据将从哪里来,分析行为需要多快完成,哪些内容需要与新平台整合。Lockner表示:“理解业务需求比拥有出色的技术更重要。”