2019年8月19日,中国疾病预防控制中心寄生虫病研究所与菲沙基因合作项目,A chromosomal-level genome assembly for the insect vector for Chagas disease, Triatoma rubrofasciata,在Giga Science期刊上发表(IF=4.7)。研究者利用PacBio+Hi-C技术,将红带锥蝽的基因组组装到染色体水平,为后续红带锥蝽的比较基因组学分析及南美锥虫病的发病机制研究提供新见解。
图1 项目文章发表信息
研究背景
红带锥蝽(Triatoma rubrofasciata)隶属于半翅目猎蝽科,是南美锥虫病(又名恰加斯病)的主要载体。南美锥虫病影响着全世界大约700万人的健康,随着人口流动的不断增加,南美锥虫病传播范围也会随之增加。而作为南美锥虫病传播的主要载体,红带锥蝽尚无参考基因组,这制约了对南美锥虫病发病机制和防控手段的研究。因此,构建高质量的红带锥蝽参考基因组,对红带锥蝽的比较基因组学分析及南美锥虫病的发病机制研究具有重要意义。
研究思路
研究者对红带锥蝽基因组研究的技术路线如下所示:
图2 研究技术路线
研究结果
(1)基因组组装
通过Survey分析,研究者预估红带锥蝽基因组大小为757Mb,杂合度为1.01%,重复序列为55.49%。随后利用PacBio测序,共获得69.38Gb数据,同时结合Hi-C技术辅助组装(测序数据103.61Gb),研究者最终构建的红带锥蝽基因组大小为680.73Mb,contig N50=2.72Mb,scaffold N50=50.70Mb。此外,研究者还将获得的contig挂载到13条染色体上,其挂载率为92.51%。通过BUSCO评估,红带锥蝽基因组完整性为98.2%,并且超过95.1%的BUSCO基因是单拷贝的,这表明研究者组装得到了高质量的红带锥蝽基因组。
表1 红带锥蝽基因组组装结果
(2)基因组注释
通过从头注释、同源注释和转录组注释,研究者在红带锥蝽基因组中共注释得到12691个蛋白编码基因。又通过GO、KEGG数据库对基因功能进行注释,共有12063个基因得到功能注释。此外,研究者还比较了红带锥蝽与其近缘物种之间基因长度、CDS长度、外显子和内含子长度等分布的差异。
表2 红带锥蝽基因组注释结果
(3)红带锥蝽的系统发育分析
通过BLASTP软件,研究者将红带锥蝽与长红锥蝽、乳草臭虫、茶翅蝽等12个红带锥蝽的近缘物种进行蛋白序列比对,共得到21850个基因家族,其中330个为单拷贝基因。基于单拷贝同源序列,研究者随后构建了红带锥蝽的系统发育关系。在12个近缘物种中,红带锥蝽与长红锥蝽(Rhodnius prolixus)的亲缘关系最近,他们从共同祖先中产生分歧的时间大约在60~95 Mya。
图3 红带锥蝽的系统发育分析
总 结
正如研究者在文章中所指出的,昆虫的基因组杂合性使得其基因组组装存在诸多障碍。而利用PacBio+Hi-C技术,不仅解决了昆虫基因组杂合性问题,而且还使得昆虫基因组组装变得便捷高效。在此文章中,研究者构建的高质量红带锥蝽基因组可为后续红带锥蝽比较基因组学的研究提供新思路。
红带锥蝽是继高原鳅、棘头梅童鱼、黄颡鱼和中国鱚鱼后,菲沙基因利用PacBio+Hi-C策略组装的又一个高质量参考基因组,这些例子充分表明了菲沙基因在动植物基因组组装方面具有丰富的经验。目前,菲沙基因PacBio Sequel 3.0试剂产出数据的平均Subread N50达到25Kb,PacBio Sequel Ⅱ单张芯片的产出更高达140Gb,再结合Hi-C技术可轻松打造染色体水平高质量基因组。选择菲沙,我们将助力您冲击高分文章!