深度研究丨高通量DNA测序数据的生物信息学方法

针对宏基因组序列的研究,研究人员开发了一系列宏基因组预测算法(见表3)。宏基因组预测算法借鉴了传统的基于单基因组的基因预测方法,只是对原始数据增加了预处理的步骤。例如,MetaGUN算法基于序列组成的统计特征对输入序列进行分类,对同一类中的序列使用相同的统计模型刻画,然后分别独立地进行基因预测,在模拟宏基因序列测试集和在两个人体肠道微生物的真实数据上的测试表明,MetaGUN在发现新基因方面更具潜力。MetaGeneMark同时使用细菌—古细菌和嗜温细菌—嗜热细菌两套模型进行预测。FragGeneScan适用于有测序错误的宏基因组序列。

表 3 宏基因组基因预测算法

深度研究丨高通量DNA测序数据的生物信息学方法

近年来,专门针对宏基因组序列的基因预测方法目前面临着新的挑战,基于序列相似性比较的方法,使用BLAST系统工具对已知数据库进行相似性搜索,依赖性强,无法发现新基因。基于统计建模的预测算法运行速度快,在保证高特异性的条件下能获得更高的敏感性。宏基因组序列来源于繁杂且大多为未知的物种,微生物中已知的细菌和古细菌只占全世界存在量的10%;同时高通量测序的宏基因组DNA序列很短,存在大量不完整基因,无法在单个序列片断上完成自学习,为统计建模所能提供的信息有限;另外,如何把分析结果和已知的数据库(Greengenes[55]、SILVA[56]等)结合起来、如何进一步研究生物体之间以及生物体和环境之间的相互作用等,都成为亟待解决的问题。

4 结束语

高通量测序技术奠定了生物信息学的“大数据”基础,面对如潮水般的基因序列数据,给后续基因组分析方法的研究和工具的发展带来了巨大挑战。本文总结讨论了高通量测序数据的基因组分析及生物信息学方法。目前,基因组生物信息学研究正面临从传统的全基因组序列分析到当前基于短读的序列片段(含contigs)分析;从传统的单个物种的全基因组序列分析到当前多个物种混杂的序列片段数据集的分析;从本地计算机运算分析到未来适应“云计算”模式的远程、快速运算分析这几方面发展。面对如此快速的发展,现有的生物信息学方法和工具已经不能满足如此大量的数据资料的需求,只有进一步发展出优秀的生物信息学方法和工具,才能更好地利用高通量测序技术的优势和应用价值。

作者简介:

詹晓娟(1978-),女,黑龙江工程学院讲师,主要研究方向为数据挖掘、机器学习、生物信息。

姚登举(1980-),男,哈尔滨理工大学副教授,主要研究方向为数据挖掘、机器学习、生物信息。

朱怀球(1970-),男,北京大学教授,主要研究方向为生物医学信息学和计算系统生物学。

参考文献:

[1] SCHUSTER S C. Next-generation sequencing transforms today’ s biology[J]. Nature Methods, 2008, 5(1): 16-18.

[2] SANGER F, NICKLEN S, COULSON A R. DNA sequencing with chain-terminating inhibitors[J]. Proceeding of the National Academy of Sciences, 1977, B7(12): 5463-5467.

[3] SHENDURE J, JI H. Next-generation DNA sequencing[J]. Nature Biotechnology, 2008, 26(10): 1135-1145.

[4] HIGGINS G. Human Genomes and Big Data Challenges[R]. Mason: AssureRx Health Inc, 2013.

[5] WARD R M, SCHMIEDER R, HIGHNAM G, et al. Big data challenges and opportunities in highthrough-put sequencing[J]. Systems Biomedicine, 2013, 1(1): 29-34.

[6] DUNHAM I, BIRNEY E, LAJOIE B R, et al. An integrated encyclopedia of DNA elements in the human genome[J]. Nature, 2012, 489(7414): 57-74.

[7] COLLINS F S, BARKER A D. Mapping the cancer genome[J]. Scientific American, 2007, 296(3): 50-57.

[8] HAYDEN E C. International genome project launched[J]. Nature, 2008, 451(7177): 378-389.

[9] GEVERS D, KNIGHT R, PETROSINO J F, et al. The human microbiome project: a community resource for the healthy human microbiome[J]. PLoS Biology, 2012, 10(8): e1001377.

[10] HAUSSLER D, O’BRIEN S J, RYDER O A, et al. Genome 10K: a proposal to obtain whole-genome sequence for 10 000 vertebrate species[J]. The Journal of Heredity, 2008, 100(6): 659-674.

[11] O’ ROAK B J, VIVES L, GIRIRAJAN S, et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations[J]. Nature, 2012, 485(7397): 246-250.

[12] EHRLICH S D. MetaHIT: the European union project on metagenomics of the human intestinal tract[M]// Metagenomics of the Human Body. New York: Springer, 2011: 307-316.