深度研究丨高通量DNA测序数据的生物信息学方法

3.1 高通量DNA测序数据的压缩算法

NGS测序下的短读序列的数据量呈爆炸性增长,如果不对其进行压缩而直接存储或传输会消耗巨大的硬件存储设备,同时也会给网络传输带来很大的负担。NGS测序数据有其自身的特点和规律,存在大量的信息冗余,传统的数据压缩算法并不能够很好地压缩DNA序列,这就需要开发专门针对DNA序列的数据压缩算法和工具。

近几年,已经研发了许多专门针对NGS数据的压缩算法和工具,大多数是针对FASTQ格式的数据。根据DNA序列是否有参考基因组,压缩方法分为有参考基因组的压缩和无参考基因组的压缩。有参考基因组的数据压缩是利用参考基因组和短读序列的差异信息来进行压缩。这种方法第一步先把短读映射到参考基因组,记录每条短读在参考基因组上的位置以及与参考基因组的差异信息,然后再采用高效编码方式存储这些记录,实现数据压缩。其代表算法有DNAzip[18]、BWB[19]、SlimGene[20]、GRS[21]、mZIP[22]、NGC[23]、samcomp[24]等。由于同源物种基因组之间具有高度相似性,这种压缩通常能达到很高的压缩比,但这种方法有明显的局限性,有些测序数据(如宏基因数据、从头测序数据)并不存在现成的参考基因组,因此无法使用此算法;另外,该方法对于参考基因组依赖性太强,压缩和解压缩都需要相同参考基因组,这样参考基因组必须事先保存在本地,如果参考基因组缺失将直接影响压缩数据的使用。

无参考基因组的数据压缩方法通常采用两步法,首先最大限度地识别冗余DNA序列,然后再利用通用的压缩方法(如gzip、bzip2)进行处理。其代表算法工具有Beetl[25]、SCALCE[26]、SRComp[27]和ORCOM[28]。Beetl采用BurrowsWheeler变换算法,识别冗余;SCALCE采用局部一致性技术方法排序短读序列,识别关键子串;SRComp采用burstsort排序的方法,使相同的字符串聚集在一起,然后再采用不同的编码方式对其进行编码。ORCOM采用并行的Minimizers算法压缩reads中的重叠区域(overlap)。另一种新颖的无参考基因组的数据压缩方法是基于拼接的方法,代表算法有Quip[29]。Quip方法采用拼接的方式,用一小部分短读拼接成叠连群作为临时参考基因组,然后利用基于参考基因组的压缩方法进行压缩。

尽管高通量测序数据的压缩研究已取得一定成果,但其在计算资源、压缩算法方面仍面临巨大挑战。随着DNA测序数据量的增大,对计算资源的要求也越来越大,处理时间过长是DNA测序数据分析最重要的问题。另外,如何利用高通量测序技术产生有意义的冗余信息、采用并行化策略和基于索引的压缩方法、建立统一的数据质量评价标准等,都是重要的研究方向。

3.2 高通量DNA测序的序列拼接

由于测序技术的限制,新一代测序的读长较短(30~500bp)[30],测序所得序列无法满足大多数序列分析的需要[31],因此序列拼接成为基因组学研究中一个重要的环节。所谓序列拼接,是指将测序得到的短序列片段利用计算的方法拼接成较长的连续序列片段(contig)或者中间带有空隙的长序列片段(scaffold)乃至整段基因组序列的方法。

序列拼接包括两种不同的策略:从头(DeNovo)拼接的方法和对照(comparative)拼接的方法[32]。从头拼接是指在没有任何基因组序列参照的前提下,构建全新基因组序列的策略,而对照拼接是指在参照基因组序列的指导下进行的基因组序列的拼接。对照拼接适用于存在参照基因组序列的拼接,比如重测序项目中的序列拼接,而对于全新物种的大规模全基因组测序以及宏基因组测序项目主要使用从头拼接。

拼接算法的主要挑战来源于基因组中的重复序列片段。在不同区域的两个完全一致的重复片段无法通过计算的方式来辨别。对于相似但不完全一致的重复片段,可以通过提高序列比对的相似度阈值区分不同的复本,这种方法一般还涉及对reads中测序错误的估计[33]。重复片段的区分一般需要借助于reads或是mate-pair的跨越。所谓的mate-pair是指测序时从一段长度已知的片段两端测得的一对reads。对于reads来说,如果reads的中间是重复序列,而两端都有足够长的唯一片段,则可以区分中间的重复片段,这种方法针对短的重复片段有效,一般在k-mer图算法中使用。对于mate-pair来说,如果mate-pair分别处于重复序列的两端,也可以指导正确的拼接路径,而且mate-pair比reads更长,因此可以区分更长的重复片段。高的测序深度有利于重复片段的区分,因为高的测序深度可能提供更多的reads或者mate-pair跨越重复片段。对于新一代测序中短序列的拼接,重复片段的区分更加困难,因为reads更短,更多的重复片段无法通过reads来区分,因此提高测序深度和使用mate-pair尤为重要。