罗伯特·汉姆:在大数据时代生存

在最热的IT话题中,云和大数据的简化IT趋势和一体化理念,早在1996年美国CommVault(康孚)公司成立之初,就被其CEO 罗伯特·汉姆(N.Robert Hammer)确定为发展方向,并在多年后的今天得到市场和业界认可。现在,CommVault常被华尔街分析师们看作惠普、戴尔等IT巨头在软件业务上的收购目标。不过罗伯特·汉姆否认了收购一说:CommVault目前市值29亿美元,单股股价从最初3美分涨到65美元,汉姆认为已经没有公司“买得起” CommVault了。今年年初,这家公司登上《福布斯》公布的2012年美国增长最快的25家科技公司排行榜,以3.82亿美元的年销售额和28%的年增长率位列第23。近日,罗伯特·汉姆接受《环球企业家》采访,畅谈了自己对大数据时代的思考,以及对一家系统软件公司来说,如何与IBM等强大的竞争对手抗衡。

关于大数据

我们首先来定义一下什么是大数据。 现在数据从绝对量来说正在迅猛增长,每年的增速是50%;数据变化速度也非常快,它们来自于不同的源。过去数据主要来自于一些应用,但现在可能由机器产生,或者来自社交媒体,它们存在于不同的位置,比如移动设备、笔记本电脑,或者在数据中心,甚至存在云端。

从企业用户的角度来看,如此众多的数据分别被存储在不同的地方,人们再去根据这些信息做出决策变得更加困难了。传统的数据搜索、存储和保护方式已经无法应对大数据的增长,因此这也是很多大公司、政府型组织以及电信公司在做的事情,他们必须再造这方面的引擎以满足新需求。实际上从数据存储、数据安全性、甚至打造更大的商业价值方面,都有这方面的需求。此外从消费者的角度上,他们也有个人的期望值,比如以自己喜欢的方式通过智能设备去安全地访问数据。

如果从企业的竞争力角度看待大数据,他们一定要有获取大量数据的能力。比如说从数据被创造的时候起,就能以实时的方式访问这些数据,并且在此之上搭建一个数据分析层。同时,对已有的数据我们有时要做一个比对,从而发现一些趋势;还可以综合分析来自于不同源的数据,比如有些从现有的数据库中抓取,有的要从Facebook这样的社交网络上调用。举例来说,我们研究怎样治疗某种疾病,就要调用人类基因图谱,这样一方面我们要到某个大学调取数据,还要分析这个基因来自哪些人、他们的年龄以及其他特性等。所以这种能力概括来说就是我们能够去定义数据、给数据打上标签、对它分类,在需要的时候能够很快搜索到。

这个问题听起来似乎很简单,实际上解决起来却很复杂。假设北京有一个大型图书馆,如果你想搜索有关北京天气的信息,这里跟天气相关的书可能有一万本,内容、主题都不同。最快捷的方式当然是做一次性的搜索,把这一万本书里相关的内容找到。从这样的角度来说,各种各样的数据,都要被打上合适的标记,然后去分类,所以你可以想象一下,在世界上这样的内容数量是以几十亿甚至万亿来计算的。

一体化必要性

为何我们可以做到大数据业务的一体化?这可能要追溯CommVault的历史,CommVault最初是AT&T风险投资的一个公司。当这个项目的负责人来咨询我的意见时,我当时的观点是这家公司要成功的机会几乎为零:人们当时对数据备份的概念是—我有一个数据,给它做它的一个拷贝,这就是对它的备份了。

当时的存储就是我们所说的直连存储,一个电脑外接一个存储设备即可完成。当时我就想到问题并不在备份本身,而是在数据上。我当时启发他们,假设数据增长100万倍,我们拥有无限的计算资源、无限的网络,假设存储是免费的,你会怎么做呢?而当时的一些大公司并没有认识到这是数据的问题,他们只是看到表面的数据的备份或者存储技术本身。

在1998年的时候,我指导CommVault做了两件事:一是打造一个架构,这个架构能够处理大规模的数据,覆盖几百个数据节点,就是我们所说的地理数据站点;第二就是如果客户想做数据备份、归档、搜索的话,无须用很多个产品分别做,所以我们要打造一个平台,实现以上所有这些数据的功能。

这个问题理解起来并不难,但是当着手去解决问题的时候,就有很多要考虑的因素,比如其他公司忽略的是什么?要做数据,就必须对应用有深刻了解。举个例子,我把这个数据存在这里,当这个数据出了问题我要恢复它的时候,如果我不知道这个数据跟应用是什么样的情况,计算也不清楚,网络情况又不够了解,要做数据恢复就会很难,所以实际上做数据管理的一家软件公司必须对应用、存储、网络、计算,以及整个的IT基础设施都有非常透彻的了解。