大数据“老兵”畅谈大数据基础设施建设

Martin Leach在大数据工作方面非常忙碌。他曾作为MIT和哈佛大学联合开办的Broad研究所的CIO,在那里,他要负责13PB数据的存储,使用超级计算机进行计算。他和他的团队为人类基因图绘制工作做出了卓越贡献。

在研究所之前,他团队所支持的研究小组为医药巨头默克公司研发。现在,他的新职务是生物技术公司Biogen 的IT研发副总裁,目前,他一些数据科学家编入团队。这只团队通过大数据分析处理保障Biogen 公司的研发。

在他离开非营利组织Broad生物研究所前,我们的编辑采访到Leach。他介绍了CIO在大数据方面所面临的困境,以及处理大数据所需要的技术和能力。Leach表示,企业大数据分析的投资已经由最初的200万美元上升到400万美元,很少专家愿意使用开源工具工作。而最不被重视的数据科学家往往能为企业找到真正有用的数据。

问:你曾经作为CIO们的咨询顾问,在企业建设大数据基础设施时提供建议,你通常都会有哪些建议?

Leach:最开始的阶段是要确认企业的大数据项目计划是什么。做这个项目的最大需求是什么,这是开始阶段最重要的问题,绝不是考虑什么技术或者需要采购什么项目。

问:在Broad研究所的时候,他们做大数据项目最大的需求是什么?

Leach:当时最大的需求是解决内部数据的产生、消化以及存储问题。那个时候在公共机构,比如Broad和私人机构之间是有一个竞争的,看谁能做出人类基因图。因为有这样的外部驱动力,所以,我们考虑的都是如何把项目做的更快一些。我们当时要么慢下来,要么放弃这个工程,要么寻找到更快项目实施方法。

这对我来说,无疑是个挑战,尤其我对生物技术至今都了解不多。他们将一些实验外包出去,并将生成的数据传输过来,突然间,他们就会有数以万亿字节的数据需要传输,他们会有这样的疑问:“我该往那种硬盘里存放数据?我如何获取这些数据?我计算这些数据时要放置在哪里?我又该如何去计算呢?” 我在一群生命科学家那里看到的是他们对数据处理有非常强烈的需求,他们的第一个问题是:“我如何处理这些数据?又该放在哪里?”

问:那他们存放在哪里?

Leach: 很多公司会放置在公司内部。但有些公司会放在云端,但这些数据量很小也不会常用。生命科学领域的数据通常包括遗传学与基因组学资料、药物信息或者病人记录,如果存放在防火墙之外会有很多忧虑。

所以,当你确定为什么需要数据后,下一个工作就是考虑如何存放他们。再下一个就是如何利用计算机处理数据。那是需要在内部计算机内存储处理呢,还是放置在云端,比如亚马逊上,需要时再拿回来处理?这就涉及到大家的另一个猜想,为什么数据需要首先在内部处理呢?

问:获取数据简单吗?

Leach:真正的获取过程并不简单。考虑到传输速度,有些公司会从云端传输。有些则使用硬盘传输。这里面涉及到很多问题,比如,你从波士顿获取数据,但你的数据中心在北卡罗来纳州,我需要解决的问题是,我该如何将几百亿字节的数据通过公司网络传到服务器上,为此我还要做哪些工作?

问:公司如何处理数据的获取?

Leach:有些情况下,研究基于硬盘上的一堆数据,企业就会消极对待传往服务器上的数据。有些情况,企业试图在内部网络中使用数据,进而影响内部网络,因为他们会将数据转移到典型的企业数据网络而不是数据中心。另外一些则是和IT部门紧密合作。

这部分取决于企业其他部门如何与 IT部门合作。我认为网络限速器是为了让其他部门更好地与IT部门合作,也是为了保证IT部门的足够灵活性。这类的项目并不是传统意义上标准的IT基础设施。尝试在Oracle数据库上研发大数据,Oracle会建议你购买一些外部硬件,但你需要数据库专家,这些专家不仅懂得常规数据库关系,也要了解NoSQL、CouchDB、 MongoDB等等。

接下来就是如何找到一群高素质的人才,他们可熟练运用现在的开源技术产品,比如Hadoop、OpenStack之类。人才对于团队来说至关重要,我常常听到同行们的抱怨:“我该去哪里找到真正的千里马?”

问:CIO们会去哪些领域寻找人才?

问:我从eBay的CTO那里了解到,一个重要的领域就是经济学家。经济学家喜欢在数据中寻找金矿,他们也喜欢用数据去解决深层次问题。有一群突然意识到大数据的经济学家会说:哇,我们从来没有处理过这种水平的数据。