意见与建议
首页市场动态市场资讯 > 三代基因组de novo组装软件
详细信息

三代基因组de novo组装软件

作者:frasergen浏览次数: 日期:2017年3月20日 11:27

1. HGAP(hierarchical genome-assembly process)

主要用于小的基因组,如常见的细菌完成图

https://github.com/PacificBiosciences/Bioinformatics-Training/wiki/HGAP)。

HGAP组装主要分为以下四步:

a. 选择最长的测序reads作为“种子序列”;

b. 每条“种子序列”作为参照查找短reads,预组装;

c. 采用软件拼接预组装的reads;

d. 采用最初的长reads优化拼接,生成基因组组装序列。

图1、HGAP组装示意图

2.FALCON

主要用于相对较大的动植物基因组组装(https://github.com/PacificBiosciences/FALCON)。

该软件支持PBS,SLURM,SGE,TORQE, LSF作业调度系统;大体原理是将长reads分隔成指定大小模块,这些模块彼此间再相互比对,进行自我纠错以及查找重叠信息,然后再用De Bruijn算法进一步拼接生成contigs。主要分为以下六步:

a.使用Raw sub-reads 构建重叠,准备进行错误校正 

b.预组装和错误校正 

c.错误校正后的重叠信息群的构建

d.重叠信息过滤 

e.通过重叠信息构图 

f.通过图信息构建contigs

除去以上三代组装软件,还有以下几款比较有特色的工具:Canu专门用于高噪音单分子测序;Celera Assembler提供直接组装subreads的一种方式;Sprai preassembly-based的组装工具,目标是generate longer contigs。在此就不一一介绍原理。

3.组装结果评估

动植物基因组de novo测序,其组装指标的好坏直接影响着整个基因组的质量。除了常见的组装指数contig N50和scaffold N50,其它指标有哪些呢?通过查阅多篇基因组文献,总结主要包括以下四点:

(1)序列一致性评估;主要基于mapping rate和coverage来衡量;

(2)序列完整性评估:一般借用RNA-seq或EST数据来评估基因区覆盖度;

(3)准确性评估:通过全长BAC与组装结果比对,进行正确性验证;

(4)核心基因评估:根据真核生物保守蛋白家族基因(248 core gene库),评估基因组中核心基因的准确性和完整性。

所属类别: 市场资讯

该资讯的关键词为: