生物学将迎来大数据时代

现在就是做干实验研究的黄金时期。生物学正在发生一场大变革。图片来源:ANDREW J LENARDS

大多数生命科学家正专注于自己的职业,一个特殊的有机体或一种疾病,甚至只是一个特定的分子路径。要学会培养特殊细胞类型或一种新实验室技术,需要数月时间。但是,Atul Butte却并非如此。尽管只有44岁,他已经拥有美国斯坦福大学医学院的终身职位,为肺癌和其他疾病发明了诸多新药。

Butte的实验室也与众不同。这里并非到处都是培养皿和试剂。他的工具看上去更像属于一位工程师或软件开发者:很多时候,他的工具只是一台索尼笔记本,尽管当需要巨大的计算处理能力时,他也会使用斯坦福大学的大型计算机和其他地方的超级计算机。

与培养细胞和测序DNA不同,Butte及其学生和博士后会对装满可自由获取信息的数据库进行筛选,例如,人类基因组、肿瘤基因组序列数据库、脑成像资料库以及糖尿病等疾病的生物标示资料等。

许多人称这样的研究为“干实验”,与目前更多亲自动手的传统“湿实验”形成对比。虽然统计这样的干实验科学家究竟有多少非常困难,但可以肯定他们是人数不断增长的少数派。Butte则是其中的佼佼者。

两年前,Butte及其同事使用公开数据,利用患有100种不同疾病的人群体内的基因集,分析了市面上164种药物处理过的培养细胞基因活性。然后他们发现了一些新的、存在于这些基因之间的相互联络方式。Butte研究小组通过比较患病或用药情况下基因表达的开启情况,发现了在这些基因之间有意想不到的联系。“现在就是做干实验研究的黄金时期。”Butte总结道。

“生物学正在发生一场大变革。” 美国加州大学洛杉矶分校神经遗传学家Daniel Geschwind说。洛杉矶微软研究院计算机专家David Heckerman也指出,现在生物学研究真的可以不需要传统的“湿”实验室了。

数据至上

对于科学而言,大数据并不是一个新概念。欧洲核子研究中心(CERN)的大型强子对撞机(LHC)每年都能够产生15帕(1015)字节的数据,天文学的斯隆数字巡天项目每年也要产生数太(1012)字节的数据。

实际上,这不是计算科学与生物学的第一次结合。研究人员多年以来一直在收集大规模的生物学数据,例如人们熟知的基因组学、蛋白质组学、代谢组学等。生物学家对这些数据进行整理和梳理,以便从中找到一些新的复杂生物学路径或与疾病相关的信号通路等。

不过此类早期努力是由大批科研人员共同参与完成的,而且他们有权在数据公布之前就展开分析工作。但现在这些数据已经公诸于众,之前没有参加这些项目的科研人员也能自由地获取这些数据。美国康奈尔大学遗传学家、为农业部下属的农业调查研究项目工作的Ed Buckler评价道:“现在我们这些人也能利用公开数据提出大数据问题了。”

然而要提出这些问题就需要能够处理大量数据的算法和软件,而且这些软件还必须随着数据的增长不断加以改进。Heckerman和同事最近制作了一款软件,能方便地在遗传数据库里进行大规模搜索,例如进行全基因组关联研究(GWAS)这样的全基因组比对工作。

糖尿病、前列腺癌等疾病背后的遗传基础非常复杂,多个基因可能也只会带来很小的影响。“如果要发现这种微弱的信号,那就必须利用大数据。需要对上万,甚至是数十万人进行比较,才有可能发现一点有价值的线索。不过这里也有一个小窍门。当对大量数据进行分析时会有一些发现,比如发现每个人都会有一些遗传相似点。但是在很多情况下,这些相似点其实只是代表了这两个人更接近,而不是因为他们都携带了某种疾病相关基因。这会给数据分析带来麻烦,我们会发现大量可疑信号,可是再仔细分析一番之后就会发现,这些其实只是假阳性信号。” Heckerman说。

超越生物学

随着经过全基因组测序的植物数量快速增长,以及相关数据的不断公布,植物学家也可以开展自己的干实验工作了。Buckler及同事就在多个玉米品种间寻找抗病基因。该研究小组近日发表的一篇论文,介绍了他们对103种不同玉米进行全基因组比对的工作,他们共分析了1000多个不同的DNA区域,这些区域有的位于基因内部,有的位于基因编码区外。

然后研究人员将玉米的某些性状,例如抗病性和开花时间等,与某些特殊的非编码DNA联系起来。现在Buckler表示,他们正在利用这些研究成果辅助育种工作,希望提高玉米抗病性,或添加一些其他性状。“大数据已经对育种工作带来了切实可见的改变。”Buckler说。

类似工作还有助于回答一些与植物相关的更神秘的问题。加拿大渥太华大学数学家David Sankoff已经对30多种开花植物的全基因组进行了分析,试图重建出1.2亿年前所有开花植物共同祖先的基因组结构,即找出所有开花植物的共有基因组结构,而非简单的共有DNA序列。

该工作最近取得了重大突破。他们对现代真双子叶植物里是否存在基因的双拷贝或三拷贝情况进行了分析和比较,最终推断出开花植物的祖先共有7条染色体,大约含有2万至3万个基因,并且比现在很多植物的基因组小得多。虽然这一发现可能不会对植物育种工作带来太大影响,也不具有很大的商业利益,但是美国亚利桑那大学植物遗传学家Eric Lyons认为:“这是一项非常有意思的遗传学研究工作。”Sankoff研究小组使用的基因组数据库和分析软件都是由Lyons开发的。

通力合作

干实验生物学研究也面临很多问题和困难。其中最大的挑战是如何获得其他人的数据。很多时候,收集数据的科研人员不愿意与其他人分享数据。他们希望在别人利用自己的数据有所收获之前进行自己的数据发掘工作。另外这些数据也可能非常粗糙,需要进一步分析或注释。“这些真是很麻烦的问题。我们需要更好的方法促进大家共享数据。”Butte这样说道。

缺乏统一的标准也是一个问题。每个科研团体用来储存数据的软件可能不同,而且数据格式也千差万别,很多时候连实验设计都不一样,所以结果也有所差异。Butte等人认为处理这些不同格式的数据十分麻烦,但这并非不能解决。更大的困难在于,如何对设计不同实验得到的数据进行比较和分析。

Butte表示,经过多年的标准化工作,实验设计、数据分析,以及各种标准化工作终于带来了回报。Heckerman也表示赞同,他认为生物学数据正在走向标准化。

干实验生物学研究未来还会迎来一次大发展,美国已经要求所有的数据库都向科研界公开。

2013年2月22日,美国科技政策局(OSTP)局长John Holdren提交了一份备忘录,要求美国联邦政府各执行部门尽快拿出方案,鼓励并帮助大家使用由美国政府资助开展的科研工作所取得的成果和数据。该备忘录推出之后因为重点强调要免费获取科研论文而备受关注。但是大家都没有注意到,这份备忘录也同时提出,要促进由美国政府资助开展的科研工作所取得数据早日进入公共数据库。OSTP官员表示,他们已经拿出了初步的方案,并正在进行修改。(张章)