详细信息

时隔5年,大麦基因组再次回归Nature

作者:frasergen日期:2017年5月5日 17:34

发表杂志:Nature

发表时间:2017年4月26日

发表单位:德国莱布尼兹植物遗传研究所

导言:

大麦是世界上最重要的粮食作物之一,对不同环境条件具有广泛的适应性,并且较其近缘物种小麦具有更强的胁迫耐受性。大麦的基因组大小几乎是人类或玉米基因组的两倍,其基因组的高度复杂性和大量重复区域(>80%)给基因组的有序组装带来了巨大挑战。2012年Nature刊文发表了大麦基因组草图,时隔5年,研究人员利用染色质构象捕获技术将大麦的线性基因组序列重构至三维结构水平,成功跨越了着丝粒重复区域,成果再登Nature。基因家族分析揭示出家系特异的基因复制事件与种子发育的营养运输和糖类代谢相关,通过检测序列变异对大麦进行了基因分型,并挖掘出大麦中容易受遗传侵入的热点区域。

一、大麦基因组染色体水平组装

采用分级策略组装出高质量的大麦参考基因组序列。

首先,利用Illumina PE和MP测序手段测序了87,075个BACs,分别组装;

第二步,利用物理图谱、遗传图谱和光学图谱检测并验证重叠序列,由众多单个的BACs构建出super-scaffolds;

第三步,利用群体遗传图谱将super-scaffolds分组到不同染色体;

最后,利用Hi-C技术将这些super-scaffolds进行定向和排序。

通过6,347个super-scaffolds排序组装出4.79Gb的基因组序列(95%),其中4.54Gb序列能够精确定位到Hi-C图谱上。各级组装结果如表1所示:

表1. 各级组装及注释结果

二、染色质构象捕获分析

Hi-C的互作频率随着基因序列线性距离的增大而减弱,然而研究人员观察到大麦中染色体互作频率在200Mb处有显著的提升(图1a),在染色体内Hi-C互作矩阵中出现明显的反对角图案(图1b),人们推测这种模式反映出了所谓的染色体Rabl构象:所有染色单体向后折叠将长臂和断臂并排,着丝粒和端粒则呈极性对称(图1c)。荧光原位杂交实验结果证实了这一假设(图1d),并且不同染色体间的互作模型(显著交叉)也表现类似(图1e)。染色体内邻近矩阵的主成份分析(PCA)表明,前三个主成份累积解释了70%的变异和分化(图1f)。

图1. 染色质构象捕获分析

三、基因组重复序列特征

采用这种分级测序策略能够减化以短片段组装出高重复序列的算法复杂性。研究人员发现大麦中的转座子元件在插入位点选择上表现出了显著的多样性,在全基因组范围内,大部分反向重复转座元件和长散在元件出现在基因丰富的末端区域,与其它报道作物的特征一致。相反,Gypsyretrotransposons在zone 3区域显著富集,而Copiaelements在zone 1和zone 2中富集(图2)。

图2. 基因组重复序列特征

 

四、基因家族分析

发芽的大麦具有很高的糖化能力,能够动员一系列的酶将淀粉糖化,其中包括重要的α淀粉酶(amy)。大麦中含有12个amy家族,可以分为4个亚家族。研究人员发现amy1和amy2亚家族发生了基因复制事件,分别位于大麦的6H和7H染色体上(图3)。高质量的参考基因组序列能够深入分析物种基因复制的进化历史。

图3. 68个全长α淀粉酶蛋白序列的系统树

此外,作者还将大麦的转录组数据与其它植物的参考蛋白序列进行比对,鉴定出83,105个潜在基因座,包括蛋白编码基因、非编码RNA、假基因和可转录转座子,并预测出19,908 lncRNAs和792个microRNA前体位点。对96个欧洲大麦品系的外显子数据进行分析,鉴定出71,285个SNPs,揭示出了不同品系间的分子变异水平多样性。

此次研究人员利用BAC + Illumina + Genetic Map + BioNano + HiC对大麦基因组进行分级组装,组装质量与2012年大麦基因组草图相比有了很大提升,但其contigN50只有79Kb,super-scaffold N50也只有1.9Mb,仍会导致许多基因可能无法被预测出,后续如果能结合三代测序数据,大麦基因组质量还可能有进一步的提升。

参考文献:

[1]Mascher M,Gundlach H,et al., A chromosome conformation capture ordered sequence of the barley genome.Nature.2017, 544(7651): 427-433.doi: 10.1038/nature22043.

所属类别: 市场资讯

该资讯的关键词为:大麦基因组