随着测序技术的发展和测序成本的大幅度降低,研究人员发表了越来越多的植物基因组,众多基因组间的相互比较揭示了大量的遗传变异。然而,单一的参考基因组不能代表物种所有的遗传多样性。因此,泛基因组的概念应运而生。泛基因组是一个物种可用的所有序列的集合,包括大量共有序列、结构变异(SV)和小的变异(SNP、InDels)。线性泛基因组不能直观描述SV,图形泛基因组可以基于节点和路径形式储存序列和SV信息,是目前泛基因组研究的热点和聚焦点。
图1 图形泛基因组的技术原理
近日,知名期刊Journal of Experimental Botany(IF=7.298)在线发表了题为Graph-based pan-genome: increased opportunities in plant genomics的综述文章,该综述回顾了图形泛基因组的起源和发展,探讨了图形泛基因组在植物研究中的应用,并进一步强调了图形泛基因组在未来植物育种中的应用。
图2 文章发表信息
#1
图形泛基因组的构建方法
在目前的研究中,构建图形泛基因组通常有两种方式:一种是基于参考基因组识别基因组变异,然后将变异信息添加到线性基因组中,这种方式以VG和Seven Bridges为主,其缺点在于不能正确描述嵌套或复杂的变异;另一种是基于比对的方法,通过将基因组与参考基因组进行比对后直接构建图形泛基因组,这种方式以Minigraph为主,其缺点在于无法识别SNP,这可能会导致偏差。此外,综合各种软件构建图形泛基因组正成为新潮流,但注意为每条染色体单独构建图形泛基因组。
图3 图形泛基因组的构建方式
图形泛基因组构建过程中,需要注意PAV的识别与整合,需要关注图形泛基因组的储存、与线性参考基因组坐标系的对齐以及可视化过程。该综述中,研究者介绍了基于参考基因组比对和基因组间比对的PAV鉴定软件,并指出过滤“冗余PAV”是各分析软件需要重点关注的问题;泛基因组的存储格式主要包括从GFA格式到rGFA格式,以及vg和odgi的二进制格式;在与线性参考基因组坐标对齐方面,图形泛基因组需要展示出更好的扩展性,并需要随线性参考基因组的更新而更新(节点、边和坐标);图形泛基因组的可视化有宏观(macro level)水平展示和基部水平(base level)展示,两种方式各有优缺点,将其结合起来对图形泛基因组的可视化更有利。
图4 图形泛基因组的存储格式
#2
图形泛基因组的注释和基于图形泛基因组的SV检测
基于同源、从头和转录组等方法,线性参考基因组的注释已经非常成熟。目前图形泛基因组的注释主要依靠于线性基因组的映射,但这只能映射已知存在物种的基因,无法预测新基因,未来需要开发致力于图形泛基因组的注释。变异信息的注释需要确定其位置和类型,方便后续分析,这需要重点关注新的SV、TE的注释等。
图形泛基因组可以作为reference,来识别更多和更广泛的SV。目前Giraffe是基于图形泛基因组识别SV的最佳工具,但由于短读长的特点,很难处理重复片段。因此,为了获得更好的结果,还需要使用长读长数据进行进一步测试。此外,在使用图形泛基因组作为参考基因组时,可以得到更佳的比对结果和更多的SNP、INDEL和SV,但需要注意重测序数据的比对结果是否足够准确。
表1 基于图形泛基因组的比对工具
#3
图形泛基因组的应用
基因组学一直围绕参考基因组展开,图形泛基因组可以将参考基因组和群体之间的SV信息联系起来,这可以在新功能元件鉴定、扩展现有泛基因组的尺度、GWAS等方面得到广泛应用。例如,图形泛基因组可以帮助识别更多的顺式调控元件和对HOT区域更充分的挖掘,这会发现很多新基因,并且与抗性基因更为相关;图形泛基因组通过GWAS分析和其他方法来挖掘和整合物种中的遗传变异,并关联表型数据以识别控制物种表型的变异,从而指导改良育种,这在大豆和水稻中得到了广泛的验证。
后续研究中,研究者应开发更多的图形泛基因组生信工具,建立更广泛的图形泛基因组应用场景(与其它组学数据相结合),并将QTL直接映射到图形泛基因组上,这可以更直观地指导育种。
#4
图形泛基因组的未来挑战与机遇
图形泛基因组目前还存在一定的局限性。首先,目前没有办法评估由多个线性基因组构建的基于图的泛基因组的质量,这不仅限制了物种基因组特征的分析,也限制了图形泛基因组的比较分析;此外,目前可用的工具普遍性较差;每种类型的软件都有自己的优点和缺点,它们不能相互补充。因此,很难完成所有上游和下游分析。另一个问题是基于图形的泛基因组的清晰可视化,特别是关于图形结构的可视化,以便通过可视化更容易理解图形的拓扑结构和变异信息。
但无论如何,应用基于图的泛基因组是参考基因组的新趋势。这些基因组比线性基因组更大、更完整,几乎包含一个物种的所有基因和变异信息。显然,使用基于图的泛基因组作为参考更为合适。此外,基于T2T的图形泛基因组有助于研究复杂区域和重复元件(如着丝粒区域)的遗传多态性。