汉族是世界上最大的民族,约有14亿人口,是世界民族文化的重要组成成分。作为东亚最大的人口群体,汉族群体在了解古代人类迁徙方面发挥着重要的作用。在中国人群基因组资源中,已陆续发表了YH、南方汉族HX1、北方汉族NH1.0、单倍型汉族基因组HJ-H1、HJ-H2、藏族ZF1、土家族TJ等资源,但这些基因组资源仍然包含许多缺口。近期公布的第一个人类T2T基因组CHM13,为构建其它人类T2T基因组提供了参考依据。因此,基于CHM13,构建第一个中国人的T2T基因组,对于中国精准医疗的发展具有重要推动作用。
近日,预印版期刊bioRxiv在线发表了题为“The first gapless, reference-quality, fully annotated genome from a Southern Han Chinese individual”的研究论文,该研究选取汉人Han1为研究对象,基于多种测序技术、并以T2T- CHM13作为参考基因组,构建了首个汉人无间隙基因组,并第一次从T2T水平上比较了CHM13与汉人之间的基因含量差异,从而为汉族人群的基因组研究提供了新见解。
图1 文章发表信息
已发表的Han1初版基因组包括22条常染色体,X和Y染色体以及线粒体序列。基于T2T- CHM13,研究者修补了Han1近120Mb的Gap,其中9号染色体和Y染色体补得gap数目最多。9号染色体填补了近35Mb的着丝粒区域,Y染色体填补了近27%的区域(包括性特异性区域P7-9kb到P1-1.45Mb)。进一步,研究者在Han 1中鉴定到了两个核线粒体序列(NuMTs),包括13号染色体上的866 bp的序列和20号染色体上的13781bp序列,其中20号染色体上的序列为Han 1特有的,共包括26个基因(其中8个蛋白编码基因),16个tRNAs和2个rRNAs。此外,从整体水平看,Han1与T2T- CHM13染色体呈高度共线性;在8号染色体上发现了一个反转的SV,是人类基因组中结构最动态的区域之一。
图2 Han1 T2T基因组的染色体特征(粉红色区域为填补的gap区域)
构建的两个基因组完成图,使得研究者可以从T2T水平上比较Han1与CHM13间的基因含量差异。比较发现,Han1的基因含量略少于CHM13。研究者鉴定了46个不同的蛋白编码基因,其在基因的拷贝中都有破坏性突变,这包括27个移码,14个3'截短,3个丢失起始密码子,2个增加早期终止密码子。
表1 Han1、CHM13、GRCh38基因含量的比较
可能存在编码差异的13个基因中,MUC19和AQP12A,包含过早终止密码子,在Han1中似乎被严重截断,蛋白质长度远短于CHM13和GRCh38中的相应蛋白质。与GRCh38相比,五个基因,RETNLB、TCP11X1、DEFB126、TPSB2和PBOV1,具有高度保守的蛋白质序列,破坏性突变发生在CHM13基因组中,而不是在Han1中。对于其他六个基因,GOLGA6L10、KLHDC7B、NBPF19、RP1L1、TMEM82和KIR2DL3,尽管发生了突变,其CDS区域的翻译仍然很保守,所有氨基酸同一性得分均高于92%,蛋白质长度比接近1。
表2 Han1和CHM13基因组之间的蛋白质水平比较
最后,研究者对Han1和CHM13的基因家族扩张进行了分析,结果发现CHM13中的一个TSPY3拷贝虽然被注释为蛋白质编码基因,但有一个过早的终止密码子,而Han1上的相同基因在308aa处全长。因此,CHM13似乎丢失了TSPY基因家族的一个拷贝。
综上,本研究构建了来自中国南方汉族个体的第一个T2T基因组Han1。该基因组的总长度为3099707698bp,所有22个常染色体、性染色体X和Y以及线粒体基因组都是端粒到端粒组装的,没有gap。除一个新的线粒体插入和一些小规模序列重复外,Han1与CHM13和GRCh38基因组共线性非常好。Han1的注释产生了60708个基因,其中20003个是蛋白质编码基因。最后,研究者首次对两个完整的人类基因组Han1和CHM13的基因含量进行了直接比较,结果表明,Han1中的两个蛋白编码基因和CHM13中的五个基因与该蛋白的全长版本相比似乎被严重截断。