测序错误也给重复片段问题的解决增加了难度。因为拼接算法必须因为测序错误而接受不完全一致的重叠,以免错漏了真实的重叠。然而对测序错误的容忍又增加了拼接的假阳性。更多不完全一致的重复片段会对算法造成麻烦。另外,序列拼接需要考虑的一个问题是计算时间上的复杂度问题,尤其对于reads数量越来越多的大规模测序数据。例如,为了提高拼接效率,所有的拼接软件都在不同程度地以不同方式使用k-mer的概念。很直观的一个结论是,reads之间的重叠区域必然共同享有k-mer。而对共享k-mer的搜索显然要比计算序列比对简单得多。因此,几乎所有的拼接算法都涉及对k-mer的计算。
理论上,序列拼接属于一个NP难的问题,尚无一个盖棺定论的解答方法。现有的拼接算法只能通过一系列复杂的推断性质的步骤来获得近似的“解答”。这些算法仍有局限性,例如拼接结果错误、拼接序列连续性差、计算时间长、内存消耗量大等。因此,序列拼接算法仍有很大的改进空间。另外,测序技术的不断变化和改进,使得新数据对序列拼接不断提出新的要求,以更好地适应新数据的特点。
3.3 高通量测序下宏基因组的基因预测方法
基于高通量测序的宏基因组学研究给环境相关微生物的研究带来了新的机遇。随着越来越多的各种生态环境中宏基因组序列被测定并公开,有效的宏基因组数据分析和功能预测软件被开发与应用,这些都大大推动了宏基因组学的发展。目前研究基因预测的方法主要有两类:一类是基于序列相似性的预测方法,基于已知的基因序列通过搜索相似度较高的序列进行预测;另一类是基于统计学模型的预测方法,即利用数学统计模型进行基因预测,从已知的DNA序列中训练出统计学模型,应用到宏基因组的测序结果上进行预测。
(1)基于序列相似性比较的方法
序列比对是生物信息学的基础,其基本问题是比较两个或两个以上序列之间的相似性。两个序列比对已有发展成熟的动态规划(dynamic programming)算法和在此基础上发展起来的工具包BLAST[34]和FASTA[35]。事实上,在基于比对的方法中,高通量测序所得的序列较短,而这种短序列直接进行比对的效果往往不理想,并且大量的原始数据进行比对会耗费很多时间,因此需要在比对前进行序列拼接,将其拼接成较长的序列,提高分析效率和分析效果[36]。由于必须与已知基因序列进行相似性比较,故这种方法很难发现新基因。
基于序列相似性比较的高通量测序的宏基因组数据的应用非常多。2010年,华大基因在Nature发表文章,对人体肠道微生物基因组研究计划(MetaHIT)进行了总结[37]。该计划为研究人体肠道微生物群落与人类健康之间的关系,采集了124个欧洲人的粪便样本,其中包括25个炎症性肠病(inflammatory bowel disease,IBD)患者和99个健康志愿者的样本,并用Illumina测序平台进行测序,产生了567.7GB的测序数据,并对序列拼接、注释、功能基因的分类、多态性分析等进行了研究。2012年,华大基因在Nature发表了一篇研究人体肠道微生物与Ⅱ型糖尿病之间关系的文章[38]。该研究收集了345个中国人的肠道微生物样本,用Illumina测序平台对其进行了深度测序,并在基因组关联研究(genome wide association studies,GWAS)的基础上开发了一种全基因组相关联研究(meta genome wide association studies,MGWAS)的方法,对Ⅱ型糖尿病与肠道微生物失调之间的关系进行了深入研究。人体肠道中绝大多数种类的微生物是难以培养的,只有运用宏基因组学技术才能研究人类肠道中的所有微生物群落,进而了解人类肠道中细菌的物种分布。
(2)基于序列内容统计特征的方法
基于序列内容统计特征的基因预测方法一般是建立在密码子的编码区和非编码区有不同相对出现频率的基础上的。除了一个区域碱基组成的特征外,基因长度分布、CG含量、基因重叠区域的特征等因素也常被用于基因预测中。根据DNA序列中编码蛋白质区域和非编码区域内容统计特征的差别,建立其学习模型,可以有效地进行基因预测。在单个基因组上具有代表性的方法包括采用马尔科夫模型的GeneMark[39-41]系列、Glimmer[42,43]系列、FGENESB[44]和MED[45,46]系列。GeneMark对原核生物、真核生物和病毒均能进行基因预测。Glimmer被广泛应用于微生物的基因预测。FGENESB主要用于细菌基因组的基因自动预测和注释。MED是笔者所在课题组开发的一款基于多元熵距离法的原核生物基因预测算法,该算法的基础为开放阅读框(ORF)和翻译起始位点(TIS)的综合统计模型。MED2.0在对DNA的GC核苷酸含量高的细菌基因组和古细菌基因组的基因预测上具有明显优势,之后又推出了MED2.1,提高了预测精度,达到了国际水平。