您好,欢迎光临武汉菲沙基因信息有限公司
027-87224696 | marketing@frasergen.com | 中文|English 咨询客服
MARKET DYNAMICS—— 市场动态 ——
首页 > 市场与支持 > 市场动态
市场动态MARKET DYNAMICS

干货:最全面的三代基因组之组装篇(上)

发布时间:2019-7-19 9:02:44阅读次数: 分享到:

软件千千万,质量需保障。

软件选得对,高分心不累。


        随着三代测序技术的发展,越来越多物种的基因组被公布,三代组装软件也来越来多。那面对这么多组装软件,我们该怎么选择?今天小编就三代最常见的两个组装软件——Canu和Falcon给大家详细介绍一下。


Canu

        Canu的组装主要分为3个阶段:

        1. 矫正(correction):

        将原始数据使用MHAP算法进行比对,根据比对结果将Reads进行聚类,然后根据聚类结果生成一致性(consensus)序列,从而对测序数据进行自我矫正。

        2. 修剪(trim):

        采用CABOG中的重叠修剪(overlap-based trim)方法,将测序数据中不产生重叠的部分切除。

        3. 组装(assemble):

       使用矫正与修剪后的Reads进行基于OLC算法的组装,生成Contig,从而完成组装。



图一 Canu组装流程图


Falcon

        Falcon的组装主要也分为3个阶段:

        1. 矫正(correction):

        使用Raw sub-reads 构建重叠,从而进行错误校正,然后进行预组装和错误校正,最后得到错误校正后的reads。

        2. 过滤(filtering):

        对第一步得到的reads进行重叠检测,对测序数据中产生重叠的部分切除。

        3. 组装(assemble):

       基于overlapping 数据,string graph 由 fc_ovlp_to_graph.py来创建图,最后用图来构造contig。

       Falcon-Unzip:利用 falcon 产出的 primary&associated contigs, 通过鉴别SNP位点进行初步组装, 最终获得二倍体的两个同源区段(haplotigs)。



图二 Falcon组装流程图


两种组装技术的比较

       下面,我们通过一些文献中的数据来比较两款软件。

表一 两种软件在PacBio的比较


表二 拟南芥不同平台不同软件的组装比较


        从以上两个表可以看出,Canu和Falcon这两个组装软件在不同的物种上各有优势。一般情况下,简单基因组可以优先考虑Canu。一般复杂的基因组会优先考虑Falcon,因为Falcon可以与Falcon-Unzip实现无缝对接,适用于杂合度较高或者远亲繁殖或者是多倍体的物种。


       如果想要用Canu来解决高杂合或多倍基因组组装,解决思路有两个:

       (1)保留单倍型组装,再去掉或合并同源区段,然后通过“Purge Haplotigs”方法去除杂合或者多倍部分,这种情况下可能会去除掉部分基因组重复。

       (2) 尽可能在组装时合并杂合或多倍部分,但有可能造成组装错误。


       好了,我们今天的学习就到此结束。相信通过今天的学习,大家对Canu和Falcon这两个组装软件有了更深的认识。下次我们再来学习其他的一些组装软件。


       菲沙基因作为国内三代测序的领跑者,有着丰富的组装经验。现在有Sequel II的引入,三代测序的价格实现了大跳水,将基因组组装变得更平民化。各位老师,菲沙基因会为您提供高质量的基因组组装版本。



参考文献:

       1.Koren S , Walenz B P , Berlin K , et al. Canu: scalable and accurate long-read assembly via adaptive\r, k\r, -mer weighting and repeat separation[J]. Genome Research, 2017:genome;gr.215087.116v2.

       2.Ruan, J. and Li, H. Fast and accurate long-read assembly with wtdbg2. (2019),bioRxiv

       3.Michael T P , Jupe F , Bemm F , et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. Nature Communications, 2018, 9(1):541.




农学科研
表观遗传
基因组
重测序
转录调控
微生物
生物信息学服务
医学临检
实体瘤基因检测
血液肿瘤基因检测
心血管精准用药基因检测
单基因遗传病基因检测
病原基因检测
医学科研
三代测序技术
单细胞测序技术
二代测序技术
三维基因组学技术
市场与支持
市场动态
菲沙课堂
产品速递
关于菲沙
菲沙简介
菲沙团队
菲沙成果
技术平台
合作伙伴
联系我们
加入我们
校园招聘
社会招聘
联系我们
  • 电话:027-87224696
  • 传真:027-87224785
  • Email:support@frasergen.com
  • 地址:中国湖北省武汉市东湖高新技术开发区高新大道666号光谷生物城D3-1栋三楼
微信公众号
Copyright © 2018武汉菲沙基因信息有限公司 鄂ICP备13010493号-1. All Rights Reserved Designed by Wanhu