您好,欢迎光临武汉菲沙基因信息有限公司
027-87224696 | marketing@frasergen.com | 中文|English 咨询客服
MARKET DYNAMICS—— 市场动态 ——
首页 > 市场与支持 > 市场动态
市场动态MARKET DYNAMICS

植物基因组从头组装工具和策略

发布时间:2019-7-5 17:05:00阅读次数: 分享到:

        一系列新兴的测序平台和分析工具,让如今的基因组组装有了更多的选择:PacBio/ONT、10xGC、Hi-C、BioNano,是不是让你选花了眼,到底选择什么样的测序策略?CANU、Falcon、Flye、DBG2OLC、MaSuRCA、Minimap……是不是挑扎了心,选择什么样的组装工具?更别说还有高质量的DNA提取问题,gap补洞,计算资源消耗等等一大堆的问题。那么今天,我们就以植物基因组组装为例,好好梳理下基因组组装的那些事儿。


DNA提取

        每种植物都有自己的特点,我们根据自己的经验,就提取方法提供一般性的建议:提取的DNA除了不含蛋白质、碳水化合物和多酚类污染物的明显要求外,还应该寻求产生高分子量DNA的方法。鉴于基于柱状结构的DNA提取方法具有剪切DNA的倾向,因此建议避免使用柱状结构的DNA提取方法,推荐磁珠吸附的方式提取纯化DNA。附上我们准备的提取protocol-您还在为高质量基因组DNA的提取而烦恼吗?


测序平台

        对于那些二倍体(基因组大小500Mb左右)且不那么复杂的植物,现如今的测序策略已经很模式化,通常选择100X二代survey数据用于评估和纠错,80X左右三代数据组装。但对于较大的植物基因组,使用这种方法进行从头组装通常会得到不理想的结果。这在很大程度上是由于测序过程本身碱基识别错误导致的,其中一些问题可以通过增加测序覆盖深度来解决。可是针对植物基因组中跨越1 Mb以上的长重复序列区,例如端粒和着丝粒区,即使PacBio或ONT的最长读取长度也常常无法跨越这些区域。作为补充解决方案,可以选择10xGC增加读长的连续性和准确性,Hi-C、BioNano促进重复区基因组的连接来减少scaffold数量,并将scaffold的大小增加三到十倍,完成基因组装配。


表1 长读长测序平台比较


        通过汇总最近发表的植物基因组测序策略的选择,不难看出二代+三代是标配,BioNano、Hi-C已经普及应用,而10xGC还没推广开来。


表2 植物基因组测序策略的选择汇总


计算资源

        一般来说成功地组装一个中等大小的二倍体植物基因组(1Gb),使用组装软件Canu或Falcon将需要至少96物理CPU内核,1 TB内存,3 TB的本地存储,10 TB的共享存储。多倍体、高重复、大基因组(每增加1Gb基因组大小)可能需要比其多50%的计算资源。增加计算资源虽然会减少组装时间,但需要平衡时间成本和费用成本关系。与选择构建自己的内部计算集群系统相比,基于云平台的租赁,不仅可以满足对大基因组增长的计算资源的需求,还可以提供了灵活性、有竞争力的价格以及不断更新的硬件和软件。比如华为云(mark一下推广费)。


组 装

图1 组装策略汇总


        组装是整个基因组De novo过程中最关键的环节,承上启下。但植物物种的差异性,组装工具的千差万别,使得我们需要苦苦摸索最佳的组装工具搭配。在过去的十年中,de Bruijn Graph (DBG)算法已经成为二代测序数据组装植物和动物基因组的首选方法。同时配合10xGC数据,可使scaffold N50的提高3倍以上,成本也比单独使用二代数据组装低了20倍,但这种方法通常在最终装配中会留下许多gap和组装错误或未组装的区域,特别在针对重复区域和/或组装多倍体物种的基因组时。三代数据都有很高的随机和系统错误率(PacBio为5% 10%,ONT为5% 15%),因此需要大量的覆盖深度来进行自我纠错,随着PacBio和ONT测序费用的降低,选择三代数据进行组装相对越来越划算,表3汇总了用于长读和相关程序的最常用的从头组装工具及其功能特性。


表3 组装工具汇总


纠 错

        处理ONT数据纠错上,Minimap是计算效率最高、最敏感的工具(包括时间和内存)。然而对于PacBio数据,Minimap不像GraphMap、DALIGNER或MHAP那样敏感或特定。GraphMap和DALIGNER是PacBio数据处理上最特异、最敏感的两种方法,DALIGNER的计算规模更大。校准工具的选择很大程度上是基于基因组特征等因素,能够提高误差校正和修正一致性的整体精度。另外将Illumina paiend (PE)和/或mate pair (MP)数据合并用于额外的修正,通常可以获得更好的准精度。


表4 校正工具说明


辅助组装

         BioNano和Hi-C两种方法可以通过验证初始装配的完整性、纠正错误的排列方向和排列支架来提高装配质量。一般Hi-C数据比BioNano更能有效解决染色体的长片段排列问题,这使得染色体水平的装配更快、更便宜、更准确。Hi-C方法结合PE、MP或三代数据,通过检测和量化基因组中成对染色质相互作用,可以有效提高染色体空间排列的分辨率。特别是,如果有可用的遗传图谱,则应该考虑利用Hi-C数据创建远距离染色质相互作用图谱,以完成更详细的3D基因组染色体结构装配。


图2 辅助组装工具


评 估

         评估组装质量需要几个统计和生物验证:组装大小(确定与估计基因组大小的匹配)、组装连续性(N50;number of contigs; contig length; and contig mean length))、组装完整性(BUSCO评分和/或RNA-Seq映射);定量性状位点(QTL)、荧光原位杂交(FISH)实验(利用细菌人工染色体(BAC)克隆)、基因组组装与染色体水平遗传图谱的接近性,这些是评估组装质量的有力指标。如果组装尝试不满意,通常是最好的补测更多三代数据或10xGC数据。


图3 评估指标


小 结

        当开始一个新的基因组组装项目时,首要考虑四个问题:

        ①基因组有多大?

        ②它是二倍体、多倍体和/或高度杂合的杂交物种吗?

        ③基因组序列重复度多少?

        ④采用怎样测序策略和组装方案呢?

        这样我们才能从整体层面把控项目的风险和成本。总的来说采用混合测序方法(10xGC/BioNano + ONT/PacBio + Hi-C)与合适的基因组组装工具相匹配时,在成本和准确性方面往往是最优的。



图4 混合组装策略


        菲沙集成先进的三代测序技术平台和三维技术平台,全方位从基因组组装、分型,基因功能和进化研究为您助力基因组学研究,期望与各领域的专家合作,制定最优的解决方案,提供快速、准确、专业的服务,共同迎接生命科学研究中的挑战。


配图来源网络/侵删


参考文献:

        Jung H,  Winefield C, et al. Tools and Strategies for Long-Read Sequencing and De Novo Assembly of Plant Genomes. Trends Plant Sci. 2019 Jun 14.



农学科研
表观遗传
基因组
重测序
转录调控
微生物
生物信息学服务
医学临检
实体瘤基因检测
血液肿瘤基因检测
心血管精准用药基因检测
单基因遗传病基因检测
病原基因检测
医学科研
三代测序技术
单细胞测序技术
二代测序技术
三维基因组学技术
市场与支持
市场动态
菲沙课堂
产品速递
关于菲沙
菲沙简介
菲沙团队
菲沙成果
技术平台
合作伙伴
联系我们
加入我们
校园招聘
社会招聘
联系我们
  • 电话:027-87224696
  • 传真:027-87224785
  • Email:support@frasergen.com
  • 地址:中国湖北省武汉市东湖高新技术开发区高新大道666号光谷生物城D3-1栋三楼
微信公众号
Copyright © 2018武汉菲沙基因信息有限公司 鄂ICP备13010493号-1. All Rights Reserved Designed by Wanhu