生物大数据:中国能否与世界同步?

大数据时代已经来临。2014财年,美国政府就如何充分利用生物医学大数据,启动Big Data to Knowledge计划,这是继2012年美国国家大数据计划实施后新一轮面向生物大数据的基础研究计划。目前,发达国家在生物大数据领域的技术和应用已远远走在前端。在我国,生物大数据还处于发展的初期阶段。该如何以最快的速度赶上这一潮流,如何从国家主权层面对生物大数据进行有效的保护和管理,如何在基础研究和技术市场应用上与世界同步,已成为不可回避且值得深入思考的话题。

谁是生物大数据技术的领航者

大数据发展的核心动力来自于人类记录、测量和分析世界的渴望。当前,高通量测序技术的快速发展,使生命科学研究获得了强大的数据产生能力。

哈尔滨工业大学计算机科学与技术学院院长王亚东教授告诉科技日报记者,上世纪90年代,科学家花费10年时间、近30亿美元获得了第一个人类基因组图谱;而今天,完成一个个人基因组测序不到一天时间,费用低于1000美元。

自人类基因组计划完成以来,以美国为代表,世界主要发达国家纷纷启动了生命科学基础研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等。这些计划引领生物数据呈爆炸式增长,目前每年全球产生的生物数据总量已达EB级,生命科学领域正在爆发一次数据革命,生命科学某种程度上已经成为大数据科学。

“这还只是刚刚开始”,王亚东强调,“随着测序技术在医疗、健康、医药、环境、能源等相关领域的广泛应用,人类将面临生物数据的海洋,其将成为这些领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。”

与全球蒸蒸日上的生物大数据创新发展热潮相比,中国的研发及应用才拉开帷幕。“我们与国际前沿技术水平至少相差30年,差距主要表现在数据分析、数据管理和与临床的应用对接上”,上海生物信息技术研究中心主任李亦学研究员对此深表担忧。

李亦学分析认为,我国有四大方面非常欠缺:其一,国内现有的生物大数据分析能力虽然与欧美相差不大,但是在数据分析构架、软件系统与先进的IT技术接轨上有待提升。其二,国外在生物大数据领域的领先人才多,尽管我们也有国际顶级刊物上发表的论文和成果,总体而言,国内高水准团队还是少。其三,欧美讲求成果应用,层出不穷的分析软件可被实验室、临床、产业多方应用。其四,在生物大数据理论研究、标准制定和广泛应用上,中国都亟待全面跟进。

谁将引领生物大数据应用的市场和资源

对生物大数据的有效管理和利用,发达国家很早就开始了竞争。早在上世纪80—90年代,美国、欧洲和日本即已分别建立世界三大生物数据中心:美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA数据库(DDBJ)。

王亚东强调,“这三大生物数据中心掌握并管理着全世界的生物数据和知识资源,并处于垄断地位。”

美国国立卫生研究院(NIH)建立了8个国家级生物数据技术研究中心,旨在长期发展生物大数据分析技术,提高生物大数据利用和转化能力,并保持其领先地位。王亚东进一步指出,美国政府于近两年两次启动生物大数据研究计划,目的是有针对性地研究生物大数据管理、分析、共享等生物领域迫切需要的核心技术,从根本上提升美国利用生物大数据的水平,并以此带动生物领域研究与产业发展。

在商业领域,生物大数据的应用市场也如雨后春笋,目前,一些公司已开始提供生物大数据服务。例如,谷歌投资DNANexus公司,提供生物大数据管理和分析服务,并于2011年接管NCBI数据;早在2006年,23AndMe公司就开始提供个人基因组数据分析服务,目前其受益者总数已超过50万人;英国卫生部于2013年专门建立了Gel公司,管理和分析英国十万人基因组计划产生的基因组数据。

BCC报告指出:“至2018年,生物大数据的市场总额将增长至76亿美元,年复合增长率达到71.6%。”麦肯锡公司报告指出:“如果美国医疗保健行业有效利用大数据,就能把成本降低8%左右,从而每年创造出超过3000亿美元的产值。”

谁来掌控我国生物大数据主权

对于一个国家而言,重要领域的大数据已成为战略资源,拥有数据的规模和运用数据的能力将成为一个国家综合国力的重要标志。