软件千千万,质量需保障。
软件选得对,高分心不累。
随着三代测序技术的发展,越来越多物种的基因组被公布,三代组装软件也来越来多。那面对这么多组装软件,我们该怎么选择?今天小编就三代最常见的两个组装软件——Canu和Falcon给大家详细介绍一下。
Canu
Canu的组装主要分为3个阶段:
1. 矫正(correction):
将原始数据使用MHAP算法进行比对,根据比对结果将Reads进行聚类,然后根据聚类结果生成一致性(consensus)序列,从而对测序数据进行自我矫正。
2. 修剪(trim):
采用CABOG中的重叠修剪(overlap-based trim)方法,将测序数据中不产生重叠的部分切除。
3. 组装(assemble):
使用矫正与修剪后的Reads进行基于OLC算法的组装,生成Contig,从而完成组装。
图一 Canu组装流程图
Falcon
Falcon的组装主要也分为3个阶段:
1. 矫正(correction):
使用Raw sub-reads 构建重叠,从而进行错误校正,然后进行预组装和错误校正,最后得到错误校正后的reads。
2. 过滤(filtering):
对第一步得到的reads进行重叠检测,对测序数据中产生重叠的部分切除。
3. 组装(assemble):
基于overlapping 数据,string graph 由 fc_ovlp_to_graph.py来创建图,最后用图来构造contig。
Falcon-Unzip:利用 falcon 产出的 primary&associated contigs, 通过鉴别SNP位点进行初步组装, 最终获得二倍体的两个同源区段(haplotigs)。
图二 Falcon组装流程图
两种组装技术的比较
下面,我们通过一些文献中的数据来比较两款软件。
表一 两种软件在PacBio的比较
表二 拟南芥不同平台不同软件的组装比较
从以上两个表可以看出,Canu和Falcon这两个组装软件在不同的物种上各有优势。一般情况下,简单基因组可以优先考虑Canu。一般复杂的基因组会优先考虑Falcon,因为Falcon可以与Falcon-Unzip实现无缝对接,适用于杂合度较高或者远亲繁殖或者是多倍体的物种。
如果想要用Canu来解决高杂合或多倍基因组组装,解决思路有两个:
(1)保留单倍型组装,再去掉或合并同源区段,然后通过“Purge Haplotigs”方法去除杂合或者多倍部分,这种情况下可能会去除掉部分基因组重复。
(2) 尽可能在组装时合并杂合或多倍部分,但有可能造成组装错误。
好了,我们今天的学习就到此结束。相信通过今天的学习,大家对Canu和Falcon这两个组装软件有了更深的认识。下次我们再来学习其他的一些组装软件。
参考文献:
1.Koren S , Walenz B P , Berlin K , et al. Canu: scalable and accurate long-read assembly via adaptive\r, k\r, -mer weighting and repeat separation[J]. Genome Research, 2017:genome;gr.215087.116v2.
2.Ruan, J. and Li, H. Fast and accurate long-read assembly with wtdbg2. (2019),bioRxiv
3.Michael T P , Jupe F , Bemm F , et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. Nature Communications, 2018, 9(1):541.