意见与建议
首页市场动态市场资讯 > Hi-C组装新算法提升埃及伊蚊基因组至染色体水平
详细信息

Hi-C组装新算法提升埃及伊蚊基因组至染色体水平

浏览次数: 日期:2017年4月10日 14:30

摘要:

研究人员开发出了一种Hi-C数据的新算法,用这一改良的Hi-C数据分析技术来组装人类基因组,发现99%的基因序列符合人类基因组的标准参照,93%的scaffolds定向均是正确的。利用Hi-C数据联合已有的埃及伊蚊和致倦库蚊基因组数据,对其进行升级产生染色体级别的scaffold,3个scaffolds分别对应到三条染色体。埃及伊蚊和致倦库蚊分别是寨卡病毒和西尼罗病毒的传播媒介。进化分析显示这两种蚊子有着共同的祖先,为科学家在将来更好地了解控制这些传播媒介的途径提供了新线索。

发表杂志:Science

发表时间:2017年3月23日

发表单位:美国休斯顿贝勒医学院

 

一、利用Hi-C数据修正序列错误

首先,确定某scaffold长距离互作模式突然改变的位置,标记此scaffold的定位存在错误;

然后,以一对序列在三维基因组内的互作频率作为指示,对基因序列进行锚定、排序和定向;

最后,鉴定同时具有较高的序列同源性和较类似的长距离互作模式的一对scaffolds,根据其重叠区来融合contigs和scaffolds。

图1. 计算路线流程图

图2. 利用Hi-C数据修正序列错误,提升基因组至染色体水平

 

二、Hi-C组装算法验证

利用原位Hi-C实验数据(6.7X)对以上组装数据进行升级。先分离出短于15kb的scaffolds(这些序列较短,具有的Hi-C互作数目较少,包括43,231个scaffolds,占比5.4%)。然后对剩下的30,539个scaffolds进行锚定、排序和定向。

与人类参考基因组进行比较(hg38),组装出的23个scaffolds均分别对应到人类的23条染色体上,占hg38基因组的97.3%,剩下的序列是高度重复未组装出的短序列。

同样的方法,利用原位Hi-C实验数据(40X)对埃及伊蚊的基因组进行升级,组装出3个染色体级别的scaffolds,大小分别为307Mb,472Mb和404Mb,占输入序列的93.6%。利用原位Hi-C实验数据(100X)对致倦库蚊的基因组进行升级,组装出3个染色体级别的scaffolds,占输入序列的94%。

 

表1. 人、埃及伊蚊、致倦库蚊组装结果比较

 

三、蚊属间进化分析

基于染色体水平的组装结果,研究人员分析发现不同蚊属间染色体臂存在保守性。伊蚊、库蚊、疟蚊在150-200 million years之前起源于单一的共同蚊祖先,并且蚊属内染色体臂间的重组倾向比在哺乳动物中观察到的重组倾向更加强烈。

 

图3. 不同蚊属间的染色体臂存在保守性

 

参考文献

Dudchenko O, Batra SS, Omer AD, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds.[J]. Science (New York, N.Y.), 2017.

所属类别: 市场资讯

该资讯的关键词为: