真菌近完成图即对真菌基因组采用PacBio第三代单分子实时测序技术进行从头测序及拼接、组装,从而获得全基因组序列图谱,组装效果达到Contig N50>1Mb 的接近完成图级别。通过测序组装可以预测真菌的重要基因和蛋白以了解其功能和可能机制;在研究病原菌的致病性与宿主相互作用方面,可以鉴定致病相关基因、开发和研究疫苗以及新型抗菌药物等。
三代测序+optical map组装完成真菌基因组
Single-Molecule Real-Time Sequencing Combined with Optical Mapping Yields Completely Finished Fungal Genome
期刊:mBio 发表时间:2015.07 影响因子:6.975
1、二三代组装结果比较
研究者之前通过Illumina小片段(500bp)和大片段文库(5kb)测序对V. dahliae strain JR2基因组进行了拼接组装,称为VerdaJR2v1.5版本,通过optical map来连接scaffold,最终获得约4500个contigs,N50约17 kb(见表1)。为了减少该版本的contig数目和gap的长度,研究者使用了PacBio的长读长测序数据进行补洞和scaffolding。4个SMRT cells共产出2.4 Gb的数据,结果显示显著改善了组装的效果:300多个contigs>1 kb,最长的contig>2.1 Mb(见表1),contig N50增大到650 kb。
2、使用纯三代长reads进行基因组组装
虽然使用三代数据进行补洞可以明显改善基因组的组装效果,但仍然还有很多gap的存在。为了评估纯三代测序数据组装基因组的效果,研究者对V. dahliae strain JR2基因组进行了14个SMRT cells的测序,得到约6Gb的数据量,~167X的基因组覆盖度。随机挑选4/6/8/10/12和全部的14个SMRT cells数据进行组装,当只使用4个SMRT cells的数据进行组装时,组装结果包括246个contigs,N50<0.3 Mb,最大的contigs<1 Mb(见表2)。当数据量增加到6个cells时,组装结果显著改善,contigs数目减少至45个,N50>3.0 Mb,最大的contigs为8.5 Mb(见表2)。Contigs数目最少的是利用14个SMRT cells测序数据组装出来的结果为34个(见表2)。
3、V. dahliae strain JR2基因组的组装
为了组装出无gap的基因组,研究者采用了18个SMRT cells的测序数据,约8.9 Gb(~248 X的基因组覆盖度)。组装结果包括35个contigs,N50>3.4 Mb,最大的contig为9 Mb。随后将这些contigs与optical map进行比对,发现其中5个contigs代表完整的5条染色体(1、3、6、7、8)。基于optical map将12条contigs定位为其余的3条染色体,再用PBJelly (version14.9.9)进行补洞。
35条contigs中的17条覆盖了基因组的98.1%区域,并且代表了8条连续的DNA序列(见表1),与optical map比对的很好,除了第一、六条染色体的末端,第七条染色体的双末端,见图1A。使用BLASR将PacBio的reads比对到组装的基因组上,发现这些染色体的末端有特别高的reads覆盖度,预示着重复序列的“坍塌”(collapse)。为了阐释这个问题,研究者进行了重复序列注释(见表3),发现这些区域确实存在着很多的重复序列。另外,染色体1末端的高覆盖度是由于组装软件把optical map分析的300 kb的rDNA区域组装到了约50 kb的区域范围内引起的,这种组装结果和optical map分析结果的分歧很可能是因为重复序列的“坍塌”引起的,如图1B。因此,本研究最终获得了V. dahliae strain JR2完整的无gap的基因组序列。
4、组装基因组的质量校正
基因组组装的质量与用于组装的reads密切相关。为了评估三代测序单碱基错误是否影响基因组组装效果,研究者将V. dahliae strain JR2基因组的Illumina测序数据比对到组装好的基因组上进行分析,分析结果表明SMRT.18是组装错误最少的基因组。有趣的是,除了SMRT.4,其它所有HGAP软件拼接的基因组错误率都低于之前采用MHAP(version 1.5b1)方法组装的基因组(见表4)。因此,三代测序单碱基的测序错误不会影响HGAP(version 2.0)组装出来的基因组效果,只要测序深度足够高,通过校正,依然能够获得高质量的基因组。
5、通过三代数据和optical map数据组装黄萎病真菌VdLs17的基因组
不同的黄萎病真菌菌株有大量的结构重组和染色体大小变化,之前的研究表明尽管序列相似度很高,但黄萎病真菌VdLs17的基因组相对于JR2有结构重组现象。为了说明本研究方法的有效性,利用三代数据和optical map数据组装黄萎病真菌VdLs17的基因组,测序数据量:4个SMRT cells,1.6 Gb(~44 X测序深度),组装结果为119个contigs,最长的contigs为2.5 Mb,N50约711 kb。随后将contigs与之前得到的optical map数据结合起来,发现组装的基因组区域有98%的区域被覆盖到。意外的是,拼接软件没有将存在overlap的contigs连接起来,进一步通过手动将基因组拼接起来,得到8个没有gap的DNA序列,并且与optical map匹配完好。与JR2类似,在染色体1的末端存在着由于核糖体DNA重复序列造成的坍塌(collapse)。此外在8条染色体末端上都发现了端粒重复序列,因此可以判断这八条染色体是端粒-端粒的染色体。
本研究进一步将组装的VdLs17的基因组与之前报道的一代测序组装的基因组进行比较分析。令人意外的是,全基因组比对结果显示出现了很多序列倒置,为了解决这个问题,将之前的组装结果与optical map比对,发现了大量的组装错误,而这些染色体上的scaffold位置虽已经确定,但方向却没有确定,因此造成了倒置现象。因此,通过三代数据和optical map数据组装出了黄萎病真菌VdLs17的无gap基因组。
6、进化分析
对于基因组组装来说,最大的挑战是对重复序列的正确组装,一般的,通过短reads不容易获得长的重复序列如转座元件(transposable elements,TEs),但研究表明TEs是基因组进化的重要推动力,并且与多种生物学过程相关。通过对2个无gap的基因组组分分析,共发现了约20个TE家族,其中14个为逆转录转座子和其它一些的DNA转位子家族,相对于之前的基因组来说,至少有7个TE是缺少ORF,并且数量明显增多,特别是VdLs17菌株。最后,研究者评估了重复序列占基因组的比例约为12%,是之前估计的3倍。
本研究通过对2个黄萎病真菌JR2和VdLs17的完整基因组组装深入说明了三代测序长读长在基因组组装上的优势,并且本研究建立了单倍体真菌基因组组装的方法流程。研究者认为~50 X的PacBio测序深度对于组装高质量的基因组是足够的。但对于像黄萎病真菌基因组组装需要约72 X的数据量。结合三代测序的de novo组装和optical map技术,研究者构建出了无gap的基因组,随着技术的发展以及测序试剂的不断更新,将使得复杂真菌基因组的无gap组装变得更加容易。此外,基因组完整图谱的获得将对生物体内基因功能的研究提供强大的支持。
Faino L, Seidl M F, Datema E, et al. Single-molecule real-time sequencing combined with optical mapping yields completely finished fungal genome[J]. MBio, 2015, 6(4): e00936-15.