■ 作为同时兼顾读长(20Kb)与准确性(99%)的测序技术,HiFi一经问世便引起了科研学者的极大关注。而在过去的一年中,基于HiFi reads组装发表的基因组文章也已达20多篇,包括多篇Nature、NG、NC等,涉及到的物种包括动植物、真菌等。基于此,同时结合基因组学的热点研究方向,小编将从“复杂基因组组装、基因组完成图、泛基因组、基因分型”等四个方面,向您系统阐述HiFi测序带来的突破性进展。
图1 三代测序读长与准确性的比较
一、复杂基因组组装
基于高度的准确性与较长的读长,HiFi能轻松解决基因组中的重复与杂合区域,这使得可以利用HiFi reads来完成复杂基因组的组装。目前基于HiFi已组装的复杂基因组包括红杉、玫瑰、燕麦、茶树、红豆杉、鸡蛋果等,我们重点介绍茶树与红豆杉基因组。
红豆杉基因组
文章题目:The Taxus genome provides insights into paclitaxel biosynthesis
发表期刊:bioRxiv
发表时间:2021年5月
HiFi测序深度:31×
主要结果:
基于HiFi和Hi-C测序,研究者构建的红豆杉基因组大小为10.23 Gb,Contig N50为2.44 Mb,并将96.38%的序列锚定在12条染色体上。比较基因组分析表明,红豆杉经历了一次WGD事件,并且其基因组中的重复序列经历了长期而连续的插入过程。在漫长的进化过程中,红豆杉不仅形成了独特的Gypsy和Copia转座子家族,而且进化出独有的紫杉醇生物合成相关基因家族。该研究系统绘制了多个紫杉醇相关基因家族的基因组位置图谱,并揭示了细胞色素P450家族的基因组分布和调控规律。此外,该研究发现紫杉醇合成相关基因聚集在9号染色体上,并鉴定了首个紫杉醇生物合成基因簇(六个基因串联),该基因簇主要负责催化紫杉醇生物合成的前两步。综上,该研究对红豆杉基因组进化及人工紫杉醇合成研究提供了新见解。
图2 红豆杉基因组
2
乌龙茶“黄棪”基因组
文章题目:Genetic basis of high aroma and stress tolerance in the oolong tea cultivar genome
发表期刊:Horticulture Research
发表时间:2021年5月
HiFi测序深度:18.67×
主要结果:
茶树在60多个国家广泛种植,茶树的鲜叶被加工成茶,成为世界上消费最广泛的饮料之一。虽然目前已经发表了多个茶树的基因组,但组装的连续性不够好,且都未进行基因组分型(忽略大量等位基因变异)。基于HiFi测序,研究者组装得到2.94Gb的茶树基因组(contig N50=2.61Mb);随后利用ALLHiC进行分型,获得了两组单体型基因组HA和HB,总共包含30条假染色体,其中HA长度为2.90Gb,HB为2.97Gb;进一步分析发现HA与HB之间存在大量遗传变异。结合SV、转录组和代谢组分析,研究者发现TPS家族基因的结构变异、广泛且特异地高表达是黄棪品种高香特性的分子基础。此外,研究者通过比较基因组学观察到CBF(低温调控核心因子)在茶树染色体上的串联进化模式。
图3 茶树单体型A与单体型B之间的比较
二、组装基因组完成图
最近,随着HiFi reads+ ONT ultra-long reads的双剑合璧, 0 gap 、端粒到端粒、one contig ,one chromosome等与基因组完成图相关的概念刷爆了科研圈,而水稻、香蕉、人类等物种完成图的发表,更是将“基因组完成图”推向了高潮。在此,我们重点介绍水稻和人类基因组完成图。
水稻基因组完成图
文章题目:Assembly and Validation of Two Gap-free Reference Genomes for Xian/indica Rice Reveals Insights into Plant Centromere Architecture
发表期刊:bioRxiv
发表时间:2020年12月
HiFi测序深度:ZS97(23×HiFi)、MH63(103×HiFi)
主要结果:
研究者采用高深度的HiFi和CLR测序,组装出0 gap的ZS97和MH63 R3版本参考基因组(基因组大小分别为391.56Mb和395.77Mb),从而构建了首个植物基因组完成图。随后,研究者通过多方面证据验证了R3版本的准确性和完整性,并对新的ZS97和MH63 参考基因组进行了精确的注释。基于Gap free的参考基因组,研究者对水稻12条染色体上着丝粒区域的结构和功能进行了详细研究,发现着丝粒区域虽然都共享保守的特异性motif,但其拷贝数变异和结构存在差异;更重要的是研究者还发现水稻着丝粒区域包含1500个以上的基因,且其中16%的基因都处于活跃表达状态。此外,以0 gap的MH63为参考基因组,结合已发表的79个水稻参考基因组,研究者构建了水稻的图形泛基因组(Os-GPG),并揭示了MH63含有最多的抗性基因。
图4 ZS97和MH63基因组完成图及其染色体结构比较
2
三篇人类基因组完成图
随着测序与分析技术的突破,T2T联盟的科研人员先后组装发表了首个人类X染色体完成图、常染色体完成图、人类基因组完成图等,相关成果刊登在Nature期刊上。
在X染色体的完成图上,研究人员重建了近3.1 Mb的着丝粒卫星DNA阵列(DXZ1),并填补了GRCh38参考基因组上存在的29个缺口,其中包括来自人类假常染色体区域和癌症-睾丸两性基因家族(CT-X和GAGE)的新序列。
在8号染色体的完成图上,研究人员填补了5个空白区域,包含2.08 Mb的着丝粒α卫星阵列、β-防御素基因簇、染色体8q21.2位点上863 kb的可变数目串联重复序列(可作为新的着丝粒区域)。
在最终的首个人类基因组完成图中,研究者新增加或修正了238Mb的序列(该序列的大部分是由着丝粒卫星序列(180Mb)、重复片段(68Mb)和rDNAs(10Mb)组成),其中182Mb是全新的序列,并注释到2226个新基因。
图5 HiFi组装人类基因组完成图步骤
三、泛基因组
泛基因组能体现物种全面的基因组特征,已成为动植物基因组研究不可缺少的一部分。而基于HiFi测序完成的泛基因组研究包括玉米泛基因组、苹果泛基因组等,我们着重介绍苹果泛基因组。
苹果泛基因组
文章题目:Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication
发表期刊:Nature Genetics
发表时间:2020年11月
HiFi测序深度:37-81×
主要结果:
苹果是世界上最受欢迎、产量最高的水果,关于苹果的起源驯化目前尚未完全搞清楚。基于此,研究者通过高深度的HiFi测序,构建了高质量的栽培种、两个祖先种苹果参考基因组,Contig N50最高达到18.87Mb。通过结构变异分析,研究者推断栽培苹果基因组中大约有28~40%的部分来源于M. sieversii,有25~37%的部分源自M. sylvestris,栽培苹果Gala的杂合基因组中同时源自于两个祖先种的部分占23%。随后对91个苹果进行测序组装,构建泛基因组,揭示了苹果驯化的过程中通过杂交的方式导入新基因或新的等位基因具有非常关键的作用。通过对13个不同时期的转录组分析,研究者发现大约有19%的基因表现为等位基因特异性表达,许多ASE基因与果实的发育和品质相关。总之,本研究为苹果起源驯化的研究提供了新见解。
图6 野生苹果对栽培苹果基因组的贡献度
四、基因组分型
基因组分型可以体现出同源染色体间等位基因的差异,能更真实体现出物种的基因组特征,目前在动植物基因组研究中已得到广泛应用。基于HiFi分型的物种包括同源四倍体玫瑰、同源四倍体紫花苜蓿、二倍体/四倍体马铃薯等,我们着重介绍四倍体紫花苜蓿和马铃薯分型文章。
四倍体紫花苜蓿分型
文章题目:Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa
发表期刊:Nature Communications
发表时间:2020年5月
HiFi测序深度:23×
主要结果:
利用高准确性的HiFi Reads,同时结合ALLHi-C算法,研究者构建的紫花苜蓿基因组大小为3.15Gb,Contig N50=459 Kb,并最终将四倍体基因组组装到了32条染色体上。对四套染色体进行系统比较,表明四套等位染色体的大小、基因数据、重复元件均高度相似,共线性关系和Ka/Ks比例都高度保守,这说明研究者构建了超高质量的紫花苜蓿分型图谱。随后,研究者进一步开发了基于CRISPR/Cas9的基因编辑技术体系,培育了一批多叶型紫花苜蓿材料,其杂交后代表现出稳定的多叶型性状且不含转基因标记,从而证实了栽培苜蓿基因编辑体系高效且易于实施,可大大加速紫花苜蓿的育种速度。
图7 紫花苜蓿同源染色体间的比较
2
二倍体马铃薯分型
文章题目:Haplotype-resolved genome analyses of a heterozygous diploid potato
发表期刊:Nature Genetics
发表时间:2020年9月
HiFi测序深度:17.36×
主要结果:
在尝试了多种测序技术和分型方法后,研究者最后利用HiFi测序和遗传图谱将二倍体马铃薯进行了单倍体分型(contig N50=2M),两套单体型序列比较分析发现二倍体马铃薯存在2万多个有害突变,16.6%的等位基因存在表达差异,30.8%的等位基因存在甲基化差异。随后,研究人员重点分析了1号染色体上两个连锁的基因,幼苗白化基因(WS1/ws1)和株型基因(PA1/pa1)。这两个基因的有害基因型(ws1和pa1)位于两个单体型上且与正常基因型(WS1和PA1)紧密连锁,子代分离概率极低。综上,本研究为培育优良自交系提供了新的知识基础。
图8 利用HiFi进行二倍体马铃薯分型
3
四倍体马铃薯分型
文章题目:Chromosome-scale and haplotype-resolved genome assembly of a tetraploid potato cultivar
发表期刊:bioRxiv
发表时间:2021年5月
HiFi测序深度:每套30×
主要结果:
马铃薯是世界第三大粮食作物。尽管具有社会和经济重要性,但栽培马铃薯的同源四倍体基因组尚未组装,对四倍体马铃薯进行基因组分型仍然是一个未解决的挑战。本研究中,利用HiFi测序结合花粉单细胞测序,对近亲繁殖的同源四倍体进行了分型,进一步发现几乎 50% 的四倍体基因组与至少一种其他单倍型在片段上是相同的。这种高水平的近亲繁殖与包含近 20% 基因组的极端结构重排形成鲜明对比。此外,研究者注释了 148,577 个基因模型,其中只有 54% 的基因存在于所有四种单倍型中,每个基因平均有 3.2 个拷贝。
图9 四倍体马铃薯的分型流程图
总 结
从最初的人类基因组研究,到后续越来越多的动植物基因组发表,HiFi测序为基因组学的发展提供了新机遇,正在引领基因组学朝着完成图、基因组分型、泛基因组等方向发展。此外,随着PacBio发布可以直接生成HiFi reads的PacBio Sequel Ⅱe,我们有理由相信未来HiFi将会助力更多高精度、高准确性的基因组发表。
最后,我们汇总了基于HiFi组装已发表的动植物基因组文章,以期能为科研学者提供些许帮助。
表1 基于HiFi组装发表的动植物基因组(部分)
参考文献:
[1] Xiong X, Gou J, Liao Q, et al. The Taxus genome provides insights into paclitaxel biosynthesis[J]. bioRxiv, 2021.
[2] Wang P, Yu J, Jin S, et al. Genetic basis of high aroma and stress tolerance in the oolong tea cultivar genome[J]. Horticulture Research, 2021, 8(1): 1-15.
[3] Song J M, Xie W Z, Wang S, et al. Assembly and Validation of Two Gap-free Reference Genomes for Xian/indica Rice Reveals Insights into Plant Centromere Architecture[J]. bioRxiv, 2021: 2020.12. 24.424073.
[4] Logsdon G A, Vollger M R, Hsieh P H, et al. The structure, function and evolution of a complete human chromosome 8[J]. Nature, 2021, 593(7857): 101-107.
[5] Sun X, Jiao C, Schwaninger H, et al. Phased diploid genome assemblies and pan-genomes provide insights into the genetic history of apple domestication[J]. Nature genetics, 2020, 52(12): 1423-1432.
[6] Chen H, Zeng Y, Yang Y, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa[J]. Nature communications, 2020, 11(1): 1-11.
[7] Zhou Q, Tang D, Huang W, et al. Haplotype-resolved genome analyses of a heterozygous diploid potato[J]. Nature genetics, 2020: 1-6.
[8] Sun H, Jiao W B, Krause K, et al. Chromosome-scale and haplotype-resolved genome assembly of a tetraploid potato cultivar[J]. bioRxiv, 2021.