首页 > 微生物基因组
微生物基因组

微生物基因组

微生物,是地球上最古老的生命形式之一。它们体型微小,却无处不在;它们结构简单,却相当重要。随着研究的深入,这些“简单”的微生物变得不再简单,GC异常、高重复、不易培养等问题使获得完整微生物基因组图谱变得非常困难。PacBio SMRT测序的出现,以其超长读长和无GC偏好性克服了以上部分难题,迅速成为微生物基因组研究的利器。

1.  "0 Gap”完成图——三代细菌基因组

基于Illumina及其他二代测序平台组装得到的细菌基因组往往会存在不少“Gap”,而PacBio测序具有超长读长的优势,能够克服微生物基因组GC异常、高度重复的问题,使细菌完成图成为可能。精确组装的细菌完成图,可为微生物功能基因挖掘、病原菌防控、发酵育种等各领域提供全面准确的数据支持。

l  技术路线

l  技术参数

l  案例分析

梭状芽孢杆菌“0 Gap”完成图

中文名:梭状芽孢杆菌

拉丁名Clostridium autoethanogenum

基因组大小4.3Mb

测序策略PacBio,构建20Kb文库,测序1SMRT cell

组装结果1Contig0 Gap完成图

研究结果:

DSM 10061Clostridium autoethanogenum stain JA1-1)是一种能将H2,CO以及CO2转变成乙醇和乙酸的特殊菌株,为了获取高质量的基因组序列,研究人员使用二代测序和三代测序分别组装了其基因组。

1. 从组装结果看,使用Illumina454这些二代测序平台,得到的基因组仍存在不少gap,而使用PacBio测序直接组装得到一条完整的contig,达到“0Gap”组装。

1. 不同平台组装数据统计

2. C. autoethanogenumC. ljungdahlii两种菌株的相关性高达0.9977,通过16S rRNA测序无法区分。通过全基因组测序,发现两者在CRISPR系统、氢化酶等方面具有显著差异,而这些差异通过二代测序很难检测到。

参考文献

Brown S D, Nagaraju S, Utturkar S, et al. Comparison of single-molecμLe sequencing and hybrid approaches for finishing the genome of Clostridium autoethanogenum, and analysis of CRISPR systems in industrial relevant Clostridia[J]. Biotechnology for Biofuels, 2014, 7(2):27-27.

2.  三代真菌基因组de novo

真菌广泛存在于自然界中,基因组大小一般在2.5Mb-150Mb之间,而其基因组的复杂程度介于大型动植物与细菌之间。真菌基因组学的研究有助于全面了解其生物学功能背后的分子遗传机制,引导人们趋利避害。

l  技术路线

l  技术参数

备注:组装指标根据基因组倍型不同需适当调整

 

l  案例分析

超低GC含量真菌基因组组装

物种名Orpinomycessp. strain C1A

基因组:约100MbGC含量17%

测序策略Illumina PE100测序,数据量29.2G,约290×PacBio RS测序,构建5-10Kb文库,测序984Mb,约10×

组装结果Illumina组装:contigs82,325个,Contig N50  1,666bpPacBio提升组装:contigs32,574个,Contig N50  3,373bp

研究结果

Orpinomyces sp. strain C1A是一种寄生在大型家畜肠胃中的厌氧真菌,能够帮助寄主降解植物类食物中的纤维素等,对该类真菌基因组的研究有利于寻找其降解相关的基因,揭示其降解纤维素、木质素的遗传机制。该真菌基因组超过100Mb,其GC含量只有17%,是目前已知的GC含量最低的物种之一。

1. 研究人员利用290×Illumina数据对C1A基因组进行组装,contig数为82,325个,Contig N50仅为1.6Kb,并且其中32.4%都是长度仅为300-900bp的短contigs

2. 研究人员加测10× PacBio SMRT数据,对二代组装结果进行升级,contigs数大幅降至32,574个,Contig N50长度翻倍,达到3.3Kb

3. 通过基因组研究发现C1A菌株具有降解木质素的能力,可在瘤胃以外进行开发并用于生物燃料的生产。

1. C1A菌株GC含量和非编码区域比较

参考文献

Youssef N H, Coμger M B, Struchtemeyer C G, et al. The genome of the anaerobic fungus Orpinomyces sp. strain C1A reveals the unique evolutionary history of a remarkable plant biomass degrader.[J]. Applied & Environmental Microbiology, 2013, 79(15):4620-34.

3.  高分辨率群落研究——三代宏基因组

宏基因组学(Metagenomics),又称元基因组学,它以特定环境中的整个微生物群落作为研究对象,采用新一代高通量测序技术获得环境微生物基因信息总和,从而对环境微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。

宏基因组测序摆脱了传统研究中微生物分离培养的技术限制,直接提取环境样本DNA 进行测序,具有通量高、速度快、信息全等特点,在鉴定低丰度的微生物群落、挖掘更多基因资源方面具有很大优势,基于测序技术和生物信息学的快速发展,宏基因组技术优势在微生物研究领域中愈发明显,应用范围愈发广泛。

目前,PacBio SMRT测序的长读长可以减少部分拼接错误,有效提高微生物群落鉴定的分辨率。

l  分析思路

通过对PacBio原始错误率的矫正,可以得到高质量CCS Reads,最低准确率达到99%以上,从而较完整地覆盖大多数微生物基因或基因的特异性区域,无须组装即可进行菌群组成、功能基因注释和代谢通路分析。

基于高质量CCS reads的三代组装策略,增加了来自不同微生物的reads的特异性,有效避免了不同个体reads之间的交叉组装,精确还原环境中微生物组成和功能基因信息,实现对菌群数据的深度挖掘。

l  技术路线

l 技术参数

l  案例分析

单分子测序解决人类皮肤宏基因组复杂性难题

样品选择:皮肤表面微生物群落,手臂和足部样品

测序策略PacBio RS II测序,构建10Kb文库      Illumina HiSeq 2000测序,PE100

研究结果

1. 研究人员采用了PacBio RS IIIllumina HiSeq两种测序平台对手部和足部的菌群进行解析。其中PacBio RS II产生了26 Mb(手部)和622 Mb(足部)的数据;Illumina Hiseq双端测序(PE100)共产生了805 Mb(手部)和3.04 Gb(足部)的测序数据。

2. PacBio测序量看似较少,但是已经足以从人的皮肤菌群样本中组装、注释、构建获得一例此前未知微生物(Corynebacterium simμLans及其相应的噬菌体)的高质量基因组。

3. 三代测序技术显著减少了Contig的数量,大大降低了序列拼接和基因组组装的难度;并且仅仅采用少量三代测序的长片段序列,就能极大地提升二代短片段测序数据的拼接组装效果,显著改善二代测序数据拼接碎片化严重的问题。

作者认为:

1.利用三代测序技术可以节约后期数据处理(如组装、拼接)的难度和时间成本;

2.利用二代测序的大数据量,可以对组装得到的contig甚至全基因组的丰度进行精确统计比较。

1. PacBio测序显著降低宏基因组序列拼接难度

参考文献

Tsai Y C, Conlan S, Deming C, et al. Resolving the Complexity of Human Skin Metagenomes Using Single-MolecμLe Sequencing[J]. mBio, 2016, 7(1): e01948-15.