您好,欢迎光临武汉菲沙基因信息有限公司
027-87224696 | marketing@frasergen.com | 中文|English 咨询客服
MARKET DYNAMICS—— 市场动态 ——
首页 > 市场与支持 > 市场动态
市场动态MARKET DYNAMICS

Genome Biology:利用Hi-C提升宏基因组组装(bin3C)

发布时间:2019-3-18 10:16:55阅读次数: 分享到:


       由于大多数微生物的不可培养性,宏基因组学现已成为研究微生物群落最有效的手段,而利用宏基因组组装基因组(MAGs)的有效性主要取决于微生物群体的复杂性、目标菌群的丰度以及测序的深度。目前利用Hi-C技术开展宏基因组研究已成为宏基因组组装的新利器。今天小编就带大家一起来看看Hi-C和宏基因组是如何完美结合的吧!





实验设计与方法

      数据来源: 从基因组分类数据库(GTDB)中随机选择63个高质量的细菌基因组,设计了一个模拟的人类肠道微生物组。选择标准:contig count<200,完整性>98%,总gap<500bp,共有223个满足此标准的候选基因组;

真实肠道微生物样本采用Illumina HiSeqX Ten PE150测序,宏基因组数据量为74.6G,两个Hi-C文库数据量分别为1.3G (SRR6131122)和1.2G(SRR6131124)。


      数据分析:宏基因组数据使用宏基因组散弹枪模拟器MetaART产生18.2M pairs(250X);MetaART包含短读数模拟器art-illumina(V2.5.1) Hi-C数据由两种不同的四碱基酶(NEB:MluCI 和 Sau3Al)共产生200M read pairs。



 数据处理

        FastANI (v1.0)计算223个候选基因组序列之间的成对平均核苷酸一致性(ANI) ;采用BBTools (v37.25)对初始读集按因子进行连续缩减采样,初始的Hi-C读集减少了4次,共5个不同深度(200M,100M,50M,25M,12.5M pairs)。Hi-C亚采样的最大还原因子覆盖深度为3.5x ~ 171x;对整个微生物群落的全基因组,使用last(v941)将SPADES集合产生的scaffolds与“封闭”的参考基因组对齐,构建出真实情况。


        采用调整交互信息(AMI)(sklearnv0.19.2)和加权Bcubed(B3)两种方法验证基因组的分型,结果显示B3更准确;由于bin3C不针对组装校正,文章选择使用scaffolds而不是contigs做基因组拼接。使用BWA MEM (v0.7.17 r1188)将模拟的和真实的Hi-C读图映射到各自的scaffolds上。使用samtools (v1.9) 处理生成的BAM文件,以删除未映射的reads和补充及辅助对齐,然后按名称排序并合并。


01

模拟菌群分析

        所选63个基因组的ANI范围为74.8-95.8%(中位数77.1%),GC含量范围为28.3-73.8%(中位数44.1%)没有两个基因组的相似性超过96%, ANI限制了深度测序物种的过度表达(图1)。 




图1 GTDB分类


        那么在宏基因组测序深度不变的情况下,不同的Hi-C覆盖范围如何影响bin3C正确检索MAGs呢?

        为了检验了bin3C的质量,Hi-C覆盖深度从12.5 M至200 M 互作(图2)。Hi-C覆盖范围从12.5 M增加到100 M互作时,AMI、B3和B3 F评分明显增加,而100 M和200 M对之间的增加变缓慢。而随着Hi-C覆盖度增加,B3精度降低,但是下降较少。


        在200 M 互作时AMI、B3和B3 F达到最大值(0.848、0.839、0.873)。在此深度下大于1,000 bp的数据中,22,279个通过了bin3C过滤,占95.4%。共有62个基因组库大于50kbp,总大小为229,473,556bp,占整个宏基因组数据的95.6%,占参考基因组范围的91.1%。其余小于50kb范围的小集群总数为1,413,596 bp,占装配范围的0.6%,而低于1,000 bp未分析的为8,103,486 bp,占3.4%。



图2 对5个模拟实验进行bin3C方案验证


        B3作为一种软聚类度量,既考虑了预测聚类内的重叠,又考虑了数据的真实性。在我们的模拟群体中,共享序列的区域为4.4%,意味着4.4%的序列分配是不明确的,由两个或多个源基因组共享。尽管如此,bin3C解决方案是硬集群,将重叠contigs放在一个bin中。即使没有错误,这也会使基本事实和最好的bin3C解决方案之间留下一个很小但无法逾越的鸿沟。


        相反,AMI是一个硬聚类的方法,它需要通过抛硬币的过程将基本事实中的每个共享contigs分配给一个源基因组。然而,当bin3C为此类contigs选择一个bin时,任何一个源都同样有效。由于这个原因,AMI的分数在有重叠基因组的情况下不太可能实现统一。


        尽管存在这些技术上的问题,但是当考虑到整个宏基因组组装的重复序列分配时,使用B3查全率和精密度对总体完整性和污染进行定量评估是可靠的。这与基于标记基因的完整性和污染的检测方法不同,只有那些包含标记基因的重叠基因组才会对检测结果产生影响。


        随着Hi-C覆盖深度从12.5 M增加到200 M互作,bin3C的整体完备性从0.189增加到0.839。与此同时,用B3精密度推断的总体污染从0.977略微下降到0.909。因此,bin3C在保持总体低污染程度的同时,对Hi-C覆盖深度的增加做出了积极的响应。


        接着,使用标记基因工具CheckM验证了模拟菌群数据(图3)。对于相对较大的Hi-C深度覆盖范围的增加,检索到的MAGs数量的少量增加,为了解释这一点,我们参考了bin3C提供的聚类报告,其中对于接近完整的MAGs,我们发现平均数量的contigs从77对12.5 M pairs增加到179对200 M pairs,而contigs的总数从2,550对增加到6,968对。因此,尽管标记基因相关的叠盖层可以在较低的Hi-C覆盖深度有效地找到,但要获得每个MAG更完整的表达,需要更大的深度。



图3 使用CheckM验证使用bin3C检索的MAGs



02

文库的建议

        由于bin3C既依赖于所提供数据的质量,又依赖于数据的数量,因此在Hi-C覆盖深度之外的这两个影响结果的因素进行处理是非常重要的。宏基因组测序数据是形成Hi-C关联的基础,因此,对一个群落的采样越彻底,效果就越好。


        为了演示宏基因组数据对bin3C的影响,将模拟群落宏基因组测序深度降低了一半(至125x),并重新组装了宏基因组。这此深度下,组装数据为N50 6,289 bp和L50 4,353。长度超过1,000 bp的contigs共有43,712个,长度为187,388,993 bp,总数量为113,754个,长度为22,252,774 bp。这与全深度(250x)组装形成对比,全深度(250x)装配有N50 30,402 bp和L50 1,105, 23,364个contigs超过1,000 bp,总长度为232,030,334 bp,41,704个contigs,长度为240,133,820 bp。很明显,测序深度的降低导致了组装效果的下降。


        然后,在宏基因组125X与250X时,分析了在相同的Hi-C覆盖深度范围内使用bin3C的效果,进行AMI验证得分的比对(图4)。二分之一深度集和全深度进行AMI验证得分的比对表明,对于采样更深入的群落bin3C对数据的组装提升更大。完整性和污染的CheckM遵循类似的趋势。



图4 两个不同宏基因组深度下bin 3C调整后的相互信息(AM)得分


        在半深度的最佳结果生成了25个接近、4个基本和6个完全的MAGs模型,而在全深度的情况下生成了39个接近、4个基本和5个中等完整的MAGs。近年来,在制备宏基因组Hi-C文库的过程中,使用了两种不同的限制性酶。酶选择的再生位点有不同的GC偏差。对于一个物种多样的微生物群落,GC范围很广,这种策略的目的是更均匀地分离提取的DNA,从而覆盖整个宏基因组的Hi-C。


        当基于Hi-C的进行基因组组装时,更均匀的覆盖会带来更好的结果。模拟一个双酶库,为了最接近真实实验。重新利用这个数据,以确定使用两个酶而不是单独使用一个酶获得了什么好处。模拟文库中使用的两种酶是Sau3Al和MluCL。虽然Sau3Al的限制位点^GATC是GC平衡的,但是MluCl的^AATT限制位点是AT富集的。模拟群落中,源基因组GC含量范围为28.3 ~ 73.8%,其丰度随机分布。对于Sau3AI,这些极端的GC含量转化为预期的每338个bp中有1个(28.3%)和每427个bp中有1个(73.8%)的剪切位点频率。对于不太平衡的MluCI,预期的切割频率为每61个bp中有1个,为28.3%,每3,396个bp中有1个,为73.8%。因此,MluCI的位点密度在低GC范围会非常高,而在高GC范围会非常稀疏。



图5 三种酶系统在同一模拟菌群的性能评估


        对于模拟的群落全深度组装,使用bin3C分析了三个Hi-C场景:使用Sau3Al或Sau3Al生成的两个单酶库和使用Sau3Al和MluCI的双酶文库。对相同Hi-C覆盖深度的库进行了性能评估。AMI而言,单一酶bin3C库的性能低于Sau3Al + MluCI相结合的文库(图5)。两种酶模型的优势增长随着深度的增加而增长,在Hi-C 100 M对互作时,AMI分数MluCI 0.63,Sau3Al 0.71而Sau3Al + MluCI 0.78。


       使用与模拟群落相同的参数,用bin3C分析了真实的人类肠道微生物组。在95,521个长度大于1,000 bp的contigs中,29,653个具有足够的信号被纳入聚类。大于1,000 bp的contigs的总长度为517,309,710 bp,而Hi-C足够的则为517,309,710 bp总观测值为339,181,288个基点,占总观测值的65.6%。超过50 kbp的296个簇的总长度为290,643,239 bp。聚类长度在10 kbp以上的为324,223,887 bp,占总聚类长度的45.1%。



图6 bin 3C从真实人体肠道菌群中检索MAGs,按完整性递减估计(黑色圆圈)排序


        使用CheckM分析了这296个基因组(图6)。bin3C检索了近55个、基本29个和中等完整的12个MAGs。就整个范围而言。MAGs排名接近完成的范围为1.68 Mbp到4.97 Mbp,而基本完成的范围为1.56到5.46 Mbp,中等完成的范围为1.22到3.40 Mbp。在宏基因组覆盖范围方面,MAGs排名接近完整,从5.9x到447.5x,大致从4.3倍到416.4倍,适度从3.7倍到83.4倍。bin3C解决方案得到17个高质量、78个中等质量和105个低质量的MAGs。



03

与之前的工作比较

        使用bin3C分析的真实微生物组在之前的研究中首次被报道,是以演示一种称为ProxiMeta的宏基因组Hi-C分析服务。基于Hi-C的宏基因组组装,ProxiMeta是唯一的另一个完整的解决方案。由于ProxiMeta是一种专有服务,而不是开源软件,所以通过重新分析他们工作中使用的相同数据集进行了比较。


        据报道ProxiMeta检索到35个接近、29个基本和13个中等完整的MAGs,而MaxBin检索到20个接近、22个基本和17个近似完整的MAGs。在相同的元基因组Hi-C数据集上,我们发现bin3C检索到55个接近、29个基本,和12个中等完成的MAGs(图7a)。




图7 MaxBin、ProxiMeta、bin3C在相同数据中检索到的MAGs


        相对于MaxBin, bin3C检索到较少的中等完整的MAGs,但在其他方面显示它更高的性能。相对于ProxiMeta,bin3C在相当程度上和中等程度完成的序列中具有相同的性能,同时检索了另外20个接近完整的基因组,结果显示改进了57%。


        结果表明,与MaxBin、ProxiMeta 相比,bin3C具有更高的组装精度,从而大大降低了污染率。当bin3C提升最高质量级别的MAGs时,主要是由于减少了对过量污染的回收。对于所有超过1 Mbp的基因组bin, bin3C的中位污染率为0.8%,而ProxiMeta中位污染为3.5%,MaxBin为9.5%。


        结论

        ① bin3C这种公开的通用算法,可重复有效地检索模拟和真实宏基因组数据中的MAGs;

        ② 更高深度的宏基因组测序对MAGs检索的精确度和完整性有很强影响;

        ③ 与之前的MaxBin、ProxiMeta 相比,bin3C大大降低了污染率;

        ④ bin3C与MaxBin、ProxiMeta相比在人类肠道微生物组装中获得了更多完整的基因组;

        ⑤ 为获得最佳的结果,建议使用双酶消化模型构建Hi-C宏基因组文库;

        ⑥ bin3C可以分析小于1,000bp的序列,但它们进入分析并不能改善MAG检索。


配图来源网络/侵删




        参考文献:

        Matthew ZD , Aaron ED . bin3C: exploiting Hi-C sequencing data to accurately resolve metagenome-assembled genomes. Genome Biology. 2019.02. 















农学科研
表观遗传
基因组
重测序
转录调控
微生物
生物信息学服务
医学临检
实体瘤基因检测
血液肿瘤基因检测
心血管精准用药基因检测
单基因遗传病基因检测
病原基因检测
医学科研
三代测序技术
单细胞测序技术
二代测序技术
三维基因组学技术
市场与支持
市场动态
菲沙课堂
产品速递
关于菲沙
菲沙简介
菲沙团队
菲沙成果
技术平台
合作伙伴
联系我们
加入我们
校园招聘
社会招聘
联系我们
  • 电话:027-87224696
  • 传真:027-87224785
  • Email:support@frasergen.com
  • 地址:中国湖北省武汉市东湖高新技术开发区高新大道666号光谷生物城D3-1栋三楼
微信公众号
Copyright © 2018武汉菲沙基因信息有限公司 鄂ICP备13010493号-1. All Rights Reserved Designed by Wanhu