首页 > 全基因组De novo
全基因组De novo

动植物全基因组De novo

基因组de novo,又称为基因组从头测序,就是对某一物种进行全基因组测序,然后进行拼装,从而得到该物种的全基因组序列,为后续功能基因挖掘、调控代谢网络构建、物种进化分析等奠定基础。

1、动植物全基因组概述

高通量测序技术的迅猛发展,极大地推动了全基因组测序工作。但是目前发表的大部分基因组仍是通过Illumina测序组装而成,其完整度和精确性还有待提高。PacBio单分子实时(SMRT)测序技术(第三代DNA测序技术)的突破,解决了二代测序高GC区域无法准确测定、高重复序列无法跨越、海量短序列组装困难等几大困扰。超长的序列不仅给GC含量异常和高重复序列基因组组装提供了很好的契机,并大幅提高已有基因组的组装指标。

菲沙基因针对物种特点及客户要求,灵活采用纯三代、二代+三代、三代+物理图谱等不同测序策略,为客户提供满意的测序服务和信息分析服务。

组装策略:

2、组装新方法——动植物基因组纯三代组装

随着PacBio测序技术优势日益突出、成本迅速下降,纯PacBio组装的技术思路受到越来越多的关注。Sequel平台的应用,将进一步推动基因组纯三代组装的发展。

l  技术路线

l  技术参数

l  案例解析

案例一  长片段测序组装大猩猩基因组

 

中文名:大猩猩

拉丁名Gorilla gorilla gorilla

基因组大小3.1 Gb

样品选择:外周血DNA

测序策略PacBio RS II平台,构建>20Kb文库,测序深度74.8×

组装结果Contig N50    9.6Mb;Scaffold N50   23.1Mb

 

研究背景:

猩猩是在基因水平上和人类最接近的动物,它们不仅和人类一样都属于人科动物,其基因组与人类基因组的相同程度达到了99%20164月发表文章中的大猩猩是西部低地大猩猩(Susie),和2012年的大猩猩(Kamilah)为同一种,关于Kamilah进行的分析主要是基于和人类基因组的比较以及起源进化的研究,其结果发表于顶级期刊《Nature 4年之后,研究人员利用PacBio SMRT测序,对另外一只大猩猩进行测序组装,获得了更为完整的基因组,其成果再次登上顶级期刊《Science》。

研究结果:

1. 组装效果明显提升

组装得到将近3.1G的基因组,其中Contig N50高达9.6MbScaffold N50达到23.1Mbcontig数目仅为16,073。与之前的大猩猩相比,Susie3的组装结果有了极显著的提升。

2. 显著提升基因注释

基因组gap closing

新的组装发现了之前参考基因组丢失87%的外显子,填补了gorGor3基因组94%gap,和其他非人类灵长类动物基因组相比,Susie3的组装错误非常少,使其成为仅次于人类的最完整的灵长类基因组

3. 找到更多之前未被发现的基因组变异

比较大猩猩和人类基因组,发现了117,512InDels697Variants,其中86%是之前未被检测到的。另外,更完整的基因组组装有助于发现更大的结构变异,通过基因组比较发现了长达125 Kb倒位,16 Kb的缺失和8 Kb的插入。

参考文献:

Gordon D, Huddleston J, Chaisson M J, et al. Long-read sequence assembly of the gorilla genome.[J]. Science, 2016, 352(6281).

案例二  耐旱植物复活草基因组组装

中文名:复活草

拉丁名Oropetium thomaeum

基因组大小:约245Mb

测序策略PacBio RS II平台, 15-20Kb文库,测序深度72×

组装结果Contig N50  2.38Mbcontigs数量仅625

研究结果

复活草(Oropetium thomaeum)是一种极端耐旱的草类植物,在草类中它具有最小的基因组。被称作为复活植物,是因为它能够在沙漠样的条件下存活,在遭受极端干旱后当获得水分之时会再度生长。Donald Danforth植物科学中心的研究人员及合作者,采用PacBio RS II测序系统以72×覆盖度分析了这一植物245 Mb的基因组。序列组装达到99.99995%的精度,包括了端粒和着丝粒序列、长末端重复序列反转录转座子、串联重复基因,和其他难于组装的基因组元件。进一步研究表明,Oropetium thomaeum基因组是接近完成级的序列图谱,包括gene space都是无gap的。基因组中43.8%的序列为重复序列,30%多的紧缩在常染色质区域的;另外其基因组包含28,466个蛋白编码基因。

不同平台复活草组装数据统计

参考文献:

Vanburen R, Bryant D, Edger P P, et al. Single-molecμLe sequencing of the desiccation-tolerant grass Oropetium thomaeum.[J]. Nature, 2015, 527(7579):508-11.

单分子实时(SMRT)测序可以帮助客户获得有关研究生物体的全新研究发现,拥有高质量的基因组序列装配,靶向测序极其复杂的区域,及研究全长亚型及表观遗传学的能力,PacBio技术描绘出了其他测序技术无法提供的真正全面的生物学视图。

3、PacBio+BioNano/Hi-C——基因组组装新技术

l  BioNano简介

BioNano Irys光学系统基于单酶酶切和荧光标记对长达数百kb的单链DNA分子进行成像,利用高质量图像使基因组结构通过酶切图谱呈现。Irys的超长序列读长能够大大简化基因组组装,基于已有的测序数据,对全基因组组装进行优化,大片段文库能够跨越重复区域,展示出片段之间的位置关系,对已测序基因组进一步优化,辅助高通量测序数据进行再拼接和分析,使基因组信息更加完整。

应用举例

(1)玉米基因组组装新提升:PacBio+BioNano

不同平台玉米基因组(B73)组装情况

来自冷泉港实验室的Doreen Ware教授及其团队通过PacBio SMRT测序与BioNano光学图谱分析结合得到了目前最完整版本的玉米基因组参考序列。

在此之前,玉米基因组一直没有得到非常理想的组装结果,主要原因其2.3Gb的基因组当中存在大量转座元件及高重复序列,对de novo组装而言非常具有挑战性。

PacBio SMRT测序的出现给了Ware教授一个新的选择,通过PacBio测序和组装,得到了3,303 contigsContigN50超过1MbPacBio测序结果弥补了之前版本的大量gap,涵盖了几乎全部10条染色体的着丝粒和部分端粒序列。通过结合BioNano图谱进行Scaffolding,结果得到了更大的提升:Contig数量降至768,同时ContigN50超过9.5Mb

参考文献:

PacBio Case StudyFirst Comprehensive View of Maize Genome Reveals RegμLatory and Structural Mechanisms.

l  Hi-C辅助组装原理

Hi-C技术(High-throμghput Chromatin conformation caputure)是利用高通量技术研究全基因组范围内染色体间互作的一种三维基因组技术。近年来Hi-C研究揭示了大量基因组特征,其中包括:(1)基因组中互作以顺式互作为主,即同一染色体内的互作;(2)大部分基因互作出现在同种单体型中。因此,基于Hi-C数据中染色质区域间的互作强度呈现的随距离增加而减弱的规律,以此规律可以用来判断scaffolds 的分类及相邻关系,从而应用于辅助基因组组装,将基因序列组装到染色体水平。

Hi-C辅助基因组组装原理(Burton JN, et al. Nat Biotechnol, 2013)

应用举例

Hi-C辅助拟南芥基因组组装

菲沙根据拟南芥文章中数据(Xie T, et al. Mol Plant, 2015.),利用Hi-C技术对拟南芥基因组进行提升,通过Hi-C数据得到的互作信息(包含大量的远程互作),将测序组装得到的scaffolds成功聚类并定位到拟南芥5条染染色体上,最终得到了染色体水平 组装结果。

4、小数据大升级——已有动植物参考基因组升级

已发表的大型基因组都存在gap和其他缺陷,碱基偏好性、重复序列、杂合性和其他未知的复杂因素使基因组的一些区域使用二代测序很难组装。传统基因组精细图的升级使用的Sanger测序耗时且价格昂贵。PacBio读长长、无碱基偏好性,可快速高效的优化组装结果。三代数据优化二代组装结果(Gap较小),使用PBJelly2,能减少89%gapsContigN50能达到500Kb,还能提升转录本的比对率;Hybrid assembly(混合组装),即利通过二代数据进行纠错,然后混合二三代数据来组装,利用三代长片段跨过高重复区域。

l  技术路线

l  技术参数

l  案例解析

PBJelly 提升基因组组装效果

提升物种:黑腹果蝇、拟暗果蝇、虎皮鹦鹉、白眉猴

拉丁名:Drosophila melanogaster (Dmel)Drosophila pseudoobscura (Dpse)Melopsittacus undμLates (Mund)Cercocebus atys (Caty)

测序策略PacBio RS平台,构建8Kb文库

升级策略PBJelly升级算法

研究结果:

贝勒医学院的研究人员利用PacBio对果蝇、白眉猴、虎皮鹦鹉等物种的基因组进行升级,证明了基于PacBio测序数据的基因组升级的可行性,PBJelly升级算法在对基因组提升效果明显。

1. 黑腹果蝇基因组,使用18×PacBio测序数据后,能够填补93%Gap

2. 拟暗果蝇基因组,使用24×PacBio测序数据后,能够填补69%Gap

3. 虎皮鹦鹉基因组,使用6.8×PacBio测序数据后,能够填补64%Gap

4. 白眉猴基因组,使用4.2×PacBio测序数据后,能够填补20%Gap

基因组组装升级结果

参考文献:

English A C, Richards S, Han Y, et al. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology.[J]. Plos One, 2012, 7(11):e47768-e47768.