表 1 生物大数据项目合作计划
2.2 数据和工具的整合问题
目前主流的高通量测序平台主要有Roche/454焦磷酸测序、Solexa/Illumina边合成边测序和ABISOLiD连接测序。高通量测序技术的读长较短,但测序深度可以在一定程度上弥补读长较短带来的问题。其中,454测序平台读长最长有450~800bp,适合对未知基因组从头测序;Solexa/Illumina测序读长比454测序平台短,但测序通量高、价位低,适合基因组重测序;SOLiD读长也较短,但测序精度高,特别适合SNP检测等。目前应用较普遍的是Illumina测序平台,约占现有测序工具数量的一半。
不同的测序平台产生的数据格式各不相同,常用的文件格式有.bam、.csfasta、.fasta、.fastq、.gvf、.sam、.tar、.tiff、.var、.vcf等。现有的数据分析工具大多只能分析特定格式的数据,在实际的数据分析过程中往往需要把不同格式的数据进行标准化并重新整合,因此会浪费很多时间进行数据的预处理。例如,不同测序平台会产生不同品质和长度的高通量短读数据,由于没有统一的行业标准来描述高通量测序下的核苷酸序列和质量分数值,导致需要跨平台进行序列分析。因此,开发一组可以运行在不同计算平台下的互操作数据分析工具是一个具有挑战性的课题。
表2列出了目前高通量测序下各种组学所使用的工具和方法。随着这些多样的组学数据的整合,数据分析和解释的规模大大增加,这样就对基因组学和生命科学领域的大数据工具和基础设施提出更高的要求。对不同来源、不同形式的数据进行挖掘、评估、整合和应用还亟待加强。未来,多种组学数据的整合分析将会挑战传统的思维模式,发挥其至关重要的作用。
表 2 高通量测序下各种组学所使用的技术
2.3 构建新型学术交流平台日益迫切
随着高通量测序成本的降低,生物大数据对于传统的数据存储、分析和解释提出了新的挑战,而将这些数据和成果进行系统整合并应用于医疗实践才刚刚开始。当前,一些小的实验室显然不具备存储和处理大数据的基础设施和能力。随着互联网技术的快速发展,众多的科学合作网络平台提供了实时的数据交换,使得人们可以通过互联网方便地进行数据分享和成果交流。例如,Illumina公司的新一代测序云计算平台BaseSpace(www.basepace.com)、开放科学框架平台(http://openscienceframework.org)和Figshare(http://epic.org/privacy/medical)等。全球三大IT公司Amazon、Rackspace和Google都提供了云存储和计算解决方案,通过云计算平台可以实现大型数据中心的资源共享。然而,云计算基因组学也面临着数据隐私和病人数据的合法性问题,拓展新型的学术交流平台成为生物大数据研究的一个重要任务。
2.4 数据挖掘技术在生物大数据处理中的挑战
面对高通量测序数据的爆发式增长,传统的数据挖掘算法和工具遭遇巨大的挑战:如何建立智能学习数据库系统;如何对生物大数据存储访问和计算;如何进行隐私保护;如何结合领域知识设计新的适用于生物大数据挖掘分析的算法和工具。具体来说,面向生物学数据挖掘的数据挖掘技术主要有3个层次的挑战。第一个挑战是数据的访问和程序的运算。因为大数据都是分布式存储的,随着数据量的增长,如何建立一个有效的平台,使分散存储的数据能够摆脱计算机内存的限制和大数据处理的障碍,进行分布式计算。第二个挑战是不同的大数据有不同的语义和领域知识,如何能够更好地挖掘语义和领域知识,为数据所有者和消费者服务。第三个挑战集中在算法设计方面,生物大数据稀疏且具有各种各样的混合数据,数据有不确定性、不完整性和多源性等特点,如何用数据融合技术进行处理,并且挖掘出蕴含其中的复杂和动态信息;如何通过局部学习,得到一个反映全局问题的融合模型[17]。
3 高通量DNA测序数据的生物信息学方法
随着生物信息技术突飞猛进地发展,越来越多的计算机和数学领域的专家加入生物信息学研究的队伍,开发出许多好用的生物信息学工具,使得生物学、医学领域的专家可以利用这些先进工具对生物大数据进行分析,更准确地揭示生物进化的内部规律,更好地解释遗传变异,为基础医学研究向医学临床应用转化提供新思路和新方法,取得了非常有意义的成果。但是NGS测序的样本制备过程非常复杂,并且生成的序列难以处理,这给生物信息学专家带来了很大的挑战。