查理·奎因将把实验数据与公有数据结合,以推进基因发掘工作。
Alex Howard 2011.6.24 O’Reilly Radar
世界正在经历一场前所未有的数据大爆炸,我的一个同事Edd·Dumbill将其称为另一场“工业革命”。众多行业都开始意识到数据的重要性,并将数据作为传媒、医疗或交通领域战略资源。由于联邦和州政府为开放政府数据创建新的在线平台的工作不断推进,开源数据已经成为Gov 2.0的主要焦点。
数据大爆炸要求新的工具和管理策略。这些新工具和管理策略不仅仅是技术变革,正如Benaroya研究所的数据集成科技主任Charlie ·Quinn在最近的一次讲话中透露:“这些新的方法设计文化变革,企业之间共享数据可以创造巨大的价值。”在Quinn的基因组学领域里,达到TB级别的大数据量已不是新鲜的话题。
在以下的采访中,Quinn分享了对将开放源码应用到数据管理和将公共数据与实验数据相结合的看法。Quinn也会在即将召开全球开源大会的讲话,到时候你会听到更多的关于先进的个性化医疗领域的开放数据和开放源码的信息。
Q:您是如何涉足数据科学领域的?
CHARLIE•QUINN:我进入这个领域源于我的一个朋友。之前我一直从事针对信用卡欺诈事件的数据挖掘工作。现在与我一起工作的主要研究员将要去德克萨斯工作。我们突然有个新鲜的想法,即为研究人员创建工具,我们应该雇佣软件工程师。以前大家用bioinformaticians编写脚本,但他们发现这个程序只能满足他们80%的需求,曾很长一段时间剩余的20%需求都无法满足。因此我们想了一个折中的方法:“如果真的需要合适的软件工具,那么应该雇佣软件工程师来开发新的工具。”因此他向我的老板打电话进一步洽谈此事,并了解了我所做的工作,接下来的故事你们就都知道了。
Q:您之前说过,在基因组研究领域里有一个数据大爆炸。这是什么意思呢?这对您所在领域意味着什么?
CHARLIE•QUINN:这就像模拟技术和数字技术的区别。以前,你用模拟技术获得的数据量是信息的主要组成部分;但是当我们进入到数字时代,数据量以指数方式增长。如果我们以基因表达的价值(这也是我们在基因组学关注的)角度看待科技,每次扫描会产生十亿字节的大数据量。由于我们正转向特定的RNA序列或高频序列,如果你拿到结果的原始输出文件,那么你所看到的就是每次扫描产生的TB级别的大规模数据。这是极大规模的数量级!
从实践角度看,这意味着比你所需要的更多的大量数据出现了。数据爆炸的有趣之处在于研究人员如何提取数据并分他人分享,从而实现数据再利用,也许其他人能够在其中发现一些有意思的事情。
Q:您正在使用什么工具分析和挖掘如此大量的数据?
CHARLIE•QUINN:目前,我们使用的很多工具都是国产的。由于每个组织使用的工具大部分都是自己国产的,因此我们在与其他组织整合数据时会出现一定的问题。西雅图有个名为Lab Key的开源集团,许多人都已经开始使用了。我们也在考虑是否使用他们的一些技术来推动组织后台的进程。但是我们的很多后台都更新很快,他们很难跟上我们的步伐,我们反而经常走在他们前面。国产化和与其他应用相结合还是个问题。
Q:开放源码与上述有何关联呢?
CHARLIE•QUINN:我们尝试尽可能多的使用开放源码,同时希望再尽我们所能回馈社会,但是我们暂时还没有做到回馈社会,但我们会继续努力。
我们并不仅仅是开源的支持者,还是大数据的支持者。我们一直在做的就是试图说服别人我们理解他们不得不对数据在一定程度上保密,但是我们还是应该尽早的尽可能多的尝试放弃或共享数据。
现在我们回到数据爆炸问题。如果我们正在观察基因X,意外获得基因Y或Z上的某些有趣的发现,那么我们可以快速公布或者进行一个简短宣传。因此,我们努力发现新思想,然后从中挖掘数据,并对外公布。这就是我认为我们吸引人的魅力所在:试图更早的分享数据。
Q:在全球开源大会上,您将会谈到如何将实验数据与公共数据结合。您是从何时研究将二者结合在一起的?
CHARLIE•QUINN:我们关注该领域已经有一段时间了。既然得到了行业内的支持,我们现在要做的就是让它更多公诸于众。几年前,我们为Pubnet的基因做了索引,因此当你需要文本引擎时,你可以输入查询条件,就会得到基因列表,而不是文章列表,这将有助于研究人员找到他们所寻找的,而这仅仅是利用公开提供的数据就能达到的。现在,美国国立卫生研究院要求更多的人将结果存入公共数据库,我们可以下载其中的数据,然后与我们内部的数据结合起来进行研究。目前,我们正在进行一个关于某种疾病的项目,这个项目试图找到一个基因是如何活动或一种蛋白质是如何表现的,公共数据库和我们内部数据库的结合给了我们一个有利的研究条件。
Q:您在工作中遇到过哪些挑战?
CHARLIE•QUINN:我们遇到的问题是公有数据库数据的数据质量问题。我们必须雇佣一个监管人员去核实某个数据是否能用,确保这些数据能与我们想要使用的数据相匹配。
Q:开放数据在研究领域和个性化医疗领域的前景是怎么样的?
CHARLIE•QUINN:我们将会看到数据分享多层次化。从长期来看,公共数据库会变得越来越规范。但事实上,我们离此目标还很远,因为研究群体中仍然有很多反对者。实现此目标,我们首先需要在内部共享数据,当人们习惯了这种共享的模式,我们才能将它对更多的用户开放。
【中云网独家编译,如需转载,请注明文章出处“中云网”及网址链接。】