自Science六连发人类T2T基因组后,T2T基因组已然成为“reference”的新标配,仅2023年已发表的T2T基因组就达15篇!一方面,科研学者基于HiFi+Utra long正在完成越来越多模式物种的T2T组装;而另一方面,复杂、大基因组、高杂合物种的T2T组装依然需要消耗巨大资源和超长分析周期。基于此,开发适用性广、兼容性强的T2T组装软件,显得尤为重要。
Hifiasm软件起初是针对HiFi reads开发的,超快的运算速度、极强的组装连续性,使其迅速成为组装软件中的新宠。但在早期的T2T组装中,针对HiFi、Utra long reads,需要分别使用至少两款共计4个软件去进行初步组装,这不仅会增加组装周期,还受软件组装偏好性的影响。
2022年11月,hifiasm软件进行了更新,其支持同时输入HiFi、Utra long reads,然后输出更长、更连续的接近T2T级别的组装结果,这极大提升了T2T的组装效率!
历时4个月,经过数十个项目的研发测试,菲沙成功搭建了基于hifiasm软件的T2T 2.0组装流程,整体周期缩短了50%,成本降低了60%。接下来,我们用实际项目经验,向您展示T2T 2.0组装的“快上加快”!
项目1
某植物的T2T组装(基于hifiasm)
基因组信息:
基因组大小1.5G,杂合率1%,核型为2n=50
测序策略:
HiFi (50×)、ONT超长-100Kb(40×)、Hi-C(100×)
组装策略:
HiFi-hifiasm、ONT超长-Next denovo、Mecat 2
HiFi+ONT超长-hifiasm
表1 某植物的T2T组装结果分析
从表1可看出,基于hifiasm组装的T2T 2.0,与hifiasm(HiFi)、Nextdenovo、Mecat2相比,其运行的周期整体缩短了80%,而基因组的连续性提升了5-8倍,达到了45.3Mb,组装的基因组也是最完整的。更重要的是,将hifiasm组装的T2T 2.0结果与已发表的该物种基因组进行共线性分析,结果显示有多条contig已接近染色体级别!后续基于该结果的Hi-C挂载周期也缩短了60%。
图1 共线性分析
综上,基于hifiasm组装的T2T 2.0,可以快速构建该物种的T2T水平基因组。
项目2
某动物的T2T组装(基于hifiasm)
基因组信息:
基因组大小3.2G,杂合率0.7%,核型为2n=60
测序策略:
HiFi (50×)、ONT超长-100Kb(30×)、Hi-C(100×)
组装策略:
HiFi-hifiasm、ONT超长-Next denovo、Mecat 2
HiFi+ONT超长-hifiasm
表2 某动物的T2T组装结果分析
从表2可看出,当同时输入HiFi+Ultralong数据后,hifiasm将组装连续性提升了8倍(contig N50达到了87.5Mb),将运行周期缩短了5倍(仅需4天),这充分说明基于hifiasm组装的T2T 2.0流程表现极佳!随后,将上述的组装结果与已发表基因组进行共线性分析,结果表明除性染色体外,其余染色体均展现了良好的共线性,且多条contig达到染色体级别。
图2 共线性分析
项目3
高杂合物种的单体型T2T组装
(基于hifiasm)
基因组信息:
基因组大小600Mb,杂合率1.3%,核型为2n=18
测序策略:
HiFi (50×)、ONT超长-100Kb(30×)、Hi-C(100×)
组装策略:
HiFi+ONT超长+Hi-C-hifiasm
表3 基于hifiasm的单体型T2T组装
Hifiasm组装,可以直接输出两套单体型,再结合超长数据和Hi-C挂载,可轻松实现单体型T2T基因组的构建。本项目中,我们基于HiFi、ONT超长、Hi-C数据,最终构建了两套单体型T2T基因组,其大小为600Mb,其中单套的BUSCO评估完整性达到了98.6%。综上,基于hifiasm组装,可实现单体型的T2T组装。
总 结
随着三代测序技术的快速发展,快速准确地构建T2T基因组显得尤为重要。Hifiasm软件基于reads的overlap关系,不仅可快速完成hifi reads的组装,而且还可兼容ONT超长数据与HiFi数据,已成为T2T组装必备软件之一。
菲沙基因目前已完成近50+物种的T2T组装,基于hifiasm搭建的T2T 2.0组装流程,最快可在1个月内完成物种T2T基因组的组装。如您想在T2T基因组研究中快上加快,菲沙基因是您的首选之一!