深度研究丨高通量DNA测序数据的生物信息学方法

詹晓娟1,姚登举2,朱怀球3

1. 黑龙江工程学院计算机科学与技术学院,黑龙江 哈尔滨 150050;

2. 哈尔滨理工大学软件学院,黑龙江 哈尔滨 150040; 3. 北京大学生物医学工程系,北京 100871

摘要:高通量测序技术产生的DNA序列数据长度较短,而且数据量非常巨大。分析了高通量测序环境下大数据的挑战和机遇,总结并讨论了数据压缩、宏基因组数据序列拼接、宏基因组数据序列分析方面的算法和工具等研究成果。最后,展望了高通量测序下DNA短读序列数据研究的发展趋势。

关键词:高通量DNA测序;生物信息学;短读序列数据压缩;短读序列数据拼接;短读序列数据分析

中图分类号:TP399 文献标识码:A

doi: 10.11959/j.issn.2096-0271.2016021

Bioinformatics methods for high-throughput DNA sequencing data

ZHAN Xiaojuan 1 , YAO Dengju 2 , ZHU Huaiqiu 3

1. College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China

2. School of Software, Harbin University of Science and Technology, Harbin 150040, China

3. Department of Biomedical Engineering, Peking University, Beijing 100871, China

Abstract: DNA sequence data generated by high-throughput sequencing technology is short in length, and the amount of data is enormous. The challenges and opportunities of the big data in high-throughput sequencing environment were analyzed. The data compression, the assembly of metagenomic sequence data, and algorithms and tools of metagenomic sequence data analysis also were summarized and discussed. Finally, the future of the study> 深度研究丨高通量DNA测序数据的生物信息学方法

1 引言

高通量测序技术又称“下一代”测序(next-generation sequencing, NGS)技术[1],可以一次性测定几十万甚至几百万条序列,是现今应用最广泛的测序技术。相对于传统的Sanger测序技术[2],NGS具有高速、高通量、低价格等优点[3]。高通量测序数据广泛应用于生物学、医学、遗传科学等诸多领域,具有重要研究价值。许多大型的科学研究项目,如千人基因组计划(1000genomeproject)、DNA元件百科全书(encyclopedia of DNA elements)计划、国际癌症基因组计划(international Cancer genome project)等,正以前所未有的速度产生海量DNA序列。截至2014年2月,仅登录在美国GenBank数据库中的DNA序列数据就有十万亿碱基对,所有高通量测序下的DNA短读序列数据大小达到上千PB。随着测序技术的不断改善和测序成本的持续降低,每天都会有海量的DNA序列产生,使得生物数据量呈指数规模增长,平均约每14个月增加一倍。图1对高通量测序平台下的短读(short reads,以下简称reads)序列数据和其他大数据领域的原始数据增长方式进行了比较,阴影区预报了未来的增长趋势,从图1可以看出,高通量测序下的基因组序列数据即短读序列数据的增长远大于摩尔定律的增长速度。计算机是存储和处理DNA数据的主要工具,其微处理器性能和存储设备容量平均18~24个月翻一番,而DNA测序数据平均4~5个月就翻一番,DNA测序数据的增长速度已经远远超过了计算机微处理器和存储设备的增长速度。面对如此迅速增长的庞大的短读序列数据集,如何有效管理、分析、充分利用这些信息,已成为生物信息学发展亟需解决的问题[4]。

图 1 不同种类数据的近似增长趋势

深度研究丨高通量DNA测序数据的生物信息学方法

2 生物大数据带来的新挑战

随着高通量测序技术的发展,各种生物学数据呈现爆炸式增长,并且这一趋势将随着生物测序技术的发展而进一步增强。面对生命科学领域的大数据分析任务,多种不同维度的数据整合、多学科交叉的数据分析以及经典的数据挖掘算法都面临新的挑战。

2.1 多学科交叉的挑战

自从1990年人类基因组计划正式启动以来,20余年间,各种基因组、蛋白质组、转录组、宏基因组等国际生物学研究合作计划开始启动或已完成,目前国际上已经成立了多个大的跨国科研合作机构,生物信息领域的国际合作与交流也不断加强(见表1)。各种组学和生物信息学领域的国际化和跨学科间的专家合作使得团队成员在该领域取得了突出的成果,不仅发表了很多有影响力的文章,而且开发出许多新的数据集成和分析工具,以便资源和信息共享[5]。然而,面对飞速增长的生物学大数据和日渐增多的生物信息学研究任务,跨学科的国际合作仍面临巨大的挑战,例如不同的实验室和平台产生的大数据如何实现无障碍的共享和协作分析,不同组学产生的数据如何有效地进行集成、管理、维护和更新,如何开发新型的面向生物学大数据分析的算法和工具等。