应用PacBio对Fosmid文库实现高通量长双末端测序
High-throughput long paired-end sequencing of a Fosmid library by PacBio
一种新开发的Fosmid载体-pHZAUFOS3,具有以下特征:(1)在克隆位点两侧有18-bp的非回文的I-SceI位点,还有两个I-SceI位点分布在载体的其他位置;(2)菌落生长必须具有的筛选标记氯霉素(Cm)抗性基因和复制子(oriV)靠近克隆位点两侧。
期刊:PLANT METHODS
时间:2019.11.26
IF: 3.170
DOI: https://doi.org/10.1186/s13007-019-0525-6
长的双末端测序技术对于基因组的组装、建立断点间的联系以及检测结构重排来说是一种十分重要的工具。为了方便检测组装结果中染色体内部及染色体间的结构重排或是结构变异(SVs),同时也是为了促进对于具有长重复和片段重复的复杂基因组的组装,该研究基于单分子实时合成测序技术开发出了一种能够产生长双末端大插入片段的DNA文库测序策略。
该研究所设计的这种测序策略,可以有效提高基因组的组装质量,同时也可以更好地定位大的或小的结构重组,另外也可以定位错误的组装位点。
材料和方法
材料:
载体:pcc2FOS
基因组:酵母 S. cerevisiae 品系 S288C 和 S. italica Yugu1
方法:
1.利用pcc2FOS制得pHZAUFOS2和pHZAUFOS3载体;
2.利用制得的载体构建酵母S. cerevisiae strain S288C和S. italica Yugu1的基因组文库,使用PacBio Sequel测序得到长的双末端序列信息;
3.对酵母S. cerevisiae strain S288C和S. italica Yugu1的基因组PacBio测序数据进行组装得到contig,结合上一步得到的长双末端序列信息进一步组装出Scaffold;
4.利用长双末端测序数据检测基因组上大的结构重排和小的结构变异。
结果和讨论
1.构建一个长的双末端测序文库流程
如图1所示,红色的区域代表载体,蓝色的区域代表大的插入基因组片段,黄色区域代表氨苄青霉素抗性基因标签。将携带有基因组信息的质粒混合在一起,使用g-TUBE将这些质粒打断成约15kb的片段。然后会产生三种片段类型,即只含有基因组信息的片段、含有单端的基因组和载体序列的片段,以及含有双端的基因组和完整载体的片段。然后对这些片段进行末端修复和凝胶纯化,再将其与氨苄青霉素抗性基因连接。虽然所有片段都可以连接上氨苄青霉素抗性基因,但是只有同时存在氨苄青霉素抗性基因(Amp)和氯霉素抗性基因(Cm)及oriV (复制子)的质粒(Cm和oriV在插入位点紧邻的两侧)可以在转染后被筛选出来。最后通过I-SceI酶切位点将载体片段切除,末端修复后进行PacBio测序。
图1 构建一个长的双末端测序文库流程
2.基于pcc2FOS制得pHZAUFOS2和pHZAUFOS3
如图2所示NotI是pcc2FOS酶切位点,用来引入插入片段。但是Cm和oriV片段在插入位点一侧,这样构建的文库测序会得到很大比例的单端序列,因此通过酶切、设计引物PCR和连接的方式将插入片段位点移动到Cm和oriV的中间,以提高结果中的双末端测序结果,同时酶切位点也变成了I-SceI。pHZAUFOS3又在pHZAUFOS2的基础上添加了两个I-SceI酶切位点,是为了将酶切掉的载体进一步酶切成更短的片段(2–3 kb)。
图2 质粒载体
3.初步测试长双末端测序策略
使用pHZAUFOS2载体构建15×的Y1 文库 (Saccharomyces cerevisiae S288C) 和10×的S1 文库(Setaria italica Yugu1),将测序结果比对到参考基因组上,进行统计如表1。统计测序结果时发现载体片段的污染度很高,分析是由于酶切后待测序的携带有双端序列的片段与酶切产生的质粒片段长短相似(7.5 kb)。因此,使用pHZAUFOS3载体再次构建10×文库Y2和20×文库S2,进行测序,目的是为了减少质粒污染度,提高有效双端测序数据比例。
表1 文库测序结果统计
4.优化长双末端测序策略
在初步测试流程时显示结果中含有很多嵌合体片段,小的DNA片段是产生嵌合体的主要原因,因此在Fosmid文库构建和长双末端文库构建时引入脉冲场凝胶电泳来筛选片段大小,同时使用磷酸化处理保证连接的Amp标签的准确性。图3显示的是优化前后文库测得的片段的长度分布情况,横轴是去重后的双末端序列间的距离,纵轴是Reads对的长度约在1kb时占所有该长度的Reads的百分比含量。灰色线是优化前,黑色线是优化后。
图3 Fosmid文库长度分布图
5.长双末端测序数据对PacBio测序数据组装的影响
模拟出S. cerevisiae S288C测序深度分别为10×, 20×, 30×, 40×和50× 的PacBio测序数据集Pb10, Pb20, Pb30, Pb40和Pb50,同时模拟出10×, 20×, 30×, 40×和50×的长双末端测序数据集Fos10, Fos20, Fos30, Fos40 和 Fos50。利用长双末端数据协助组装PacBio数据集,并对结果进行分析。分析可得组装结果质量随着PacBio测序深度和Fosmid文库测序深度的增加而得到改善。
图4a显示的是使用30×PacBio测序数据和Y1文库的长双末端测序数据组装得到的基因组与参考基因组S. cerevisiae S288C的共线性比对结果,图4b显示的是使用30×PacBio测序数据和Y2文库的长双末端测序数据组装得到的基因组与参考基因组S. cerevisiae S288C的共线性比对结果。
图4 组装结果与参考基因组共线性比对
表2中Yugu18_contigs是仅使用PacBio测序数据的组装结果统计,Yugu18_scaffold是使用长双末端文库S1和S2协助PacBio组装的结果统计。
表2 Setaria italica Yugu18组装结果统计
6.结构变异和组装错误检测
使用长双末端测序数据集S2去检测S. italica Yugu1参考基因组中的结构变异或是组装错误,表3是统计结果,包含结构变异(SV)类型和长度,及染色体上的位置信息。
表3 Yugu1结构重排统计(S2双端序列)
使用S2文库中较长的单端序列可以检测较小的结构变异和组装错误,表4是统计结果。
表4 Yugu1结构重排统计(S2单端序列)
小结
该研究开发出了一种可以获得跨越较长距离的长双端测序技术。该技术方法操作简单,在对复杂基因组进行组装时,该技术可作为辅助手段。同时该技术也可以用来检测结构变异和组装错误,还可以用来评估组装结果质量。
菲沙基因拥有多种测序平台和强大的计算机资源,提供最佳的测序解决方案和快速的分析平台。可提供微生物多样性研究,细菌基因组(细菌扫描图,细菌完成图,细菌重测序)全套测序分析服务。从样品提取、建库测序、数据分析、结果交付到售后服务为您提供一站式服务,为您助力高分文章。
配图来源于网络/侵删
参考文献:
Dai, Z., Li, T., Li, J. et al. High-throughput long paired-end sequencing of a Fosmid library by PacBio. Plant Methods 15, 142 (2019) doi:10.1186/s13007-019-0525-6.