基因组结构性变异(Structure Variantions,简称SVs),包括长度在50 bp以上的长片段序列插入(insertions)或者删除(deletions)、重复(duplications)、染色体倒位(Inversions)、染色体内部或染色体之间的序列易位(Translocation)。越来越多的研究表明,SV不仅破坏基因,影响基因的表达,还会通过破坏调控元件从而影响基因表达的调控。目前常用二代重测序进行结构变异检测,但因读长短,无法准确的检测出不同类型的大型复杂结构变异 。
Hi-C技术在结构变异检测中大有可为
Hi-C技术创立之初主要是用于研究染色质的空间结构(【Nature】菲沙基因助力中科院上海植生所发表Hi-C重磅成果!),后面逐渐发展出新的应用方向,如辅助染色体水平基因组组装(菲沙PacBio和Hi-C技术助力黄颡鱼基因组达到染色体水平),基因组单体型分型(分之有道,型有所妙,HaploSeq之Hi-C分型),目前研究也将Hi-C应用到结构变异检测中,染色体重排会导致相同或不同染色体上远距离的区域连接在一起,因此在Hi-C互作热图上可看到block上出现强烈的顺式或反式互作信号(Figure 1)[1]。
Figure 1 正常和发生染色体重排的互作示意图
来自宾夕法尼亚州立大学医学中心岳峰课题组于2018年首次提出了基于Hi-C数据的算法,用于全基因组上的结构变异检测[2],在研究中阐述了不同结构变异对应Hi-C图谱上的不同信号(Figure 2),并用该方法检测了30多个常用肿瘤细胞系的多种结构突变,且通过荧光原位杂交法验证了算法的高度可靠性(Figure 3),证实了Hi-C对于检测1 M以上的结构变异具有非常高的可信度。
Figure 2 通过Hi-C图谱不同信号确定结构变异中的插入、缺失和重复
Figure 3 经Hi-C检测到的染色体间(a)和染色体内重排 (b) FISH验证K562中易位(chr6-chr16-chr6)(c)
Figure 4 测试数据结果及验证数据结果
在研究SVs影响的区域时,研究者发现了远端增强子大量缺失,这些增强子位于已知的癌症突变基因附近,对癌症生物学中的通路非常重要。通过分析SVs周围的三维基因组结构,发现由于癌症基因组SV,导致产生新TADs。
Hi-C解析非编码区SV致病性
Hi-C数据不仅可用于检测基因组SV和CNV,还可用于继续解析非编码区结构变异(倒位、重复和缺失)或CNV的致病性,如非编码区SV和CNV通过改变三维结构变化,改变TAD边界,将会使enhancer与致癌基因发生异常互作,致使致癌基因发生异常表达(左图)。如右图,非编码区CTCF结合位点发生结构变异导致基因组三维结构TAD边界破坏,使得相邻TAD中调控元件与致癌基因发生异常互作,激活致癌基因的表达。
同时,研究者们也提出了一种Hi-C研究SV致病性策略:
①确定SV是否破坏编码基因,是否是剂量敏感或与表型相关;
②如果不是上述情况,此时可基于三维基因组学Hi-C数据来分析SV致病性,判断SV处于TAD内部还是边界处;
③结合多组学数据识别可能驱动疾病基因异常表达的潜在增强子;
④最后对调控元件和潜在靶基因进行功能验证[3]。
参考文献
1.Harewood L, Kishore K, Eldridge M D, et al. Hi-C as a tool for precise detection and characterisation of chromosomal rearrangements and copy number variation in human tumours[J]. Genome biology, 2017, 18(1): 125.
2.Dixon J R, Xu J, Dileep V, et al. Integrative detection and analysis of structural variation in cancer genomes[J]. Nature genetics, 2018, 50(10): 1388.
3.Spielmann M, Lupiáñez D G, Mundlos S. Structural variation in the 3D genome[J]. Nature Reviews Genetics, 2018, 19(7): 453.