在疾病和肿瘤研究中,GWAS 已被成功用于定位关联 SNP,但大量研究发现GWAS 得到的SNP 绝大多数都位于基因组中的非编码区,如何确定这些非编码区域SNP对应的靶基因以及推断这些变异区域致病性都是非常具有挑战性的。
GWAS SNPs位于非编码区的调控元件区域
在人类349种细胞和组织样本的全基因组DNase I图谱与GWAS SNPs数据联合分析的研究中发现,约93%疾病关联的SNPs位于非编码序列内,且集中在DNase I高敏感位点区域(DHSs),同时发现与含有SNP的DHSs密切相关的远距离靶基因不仅功能与该SNP关联的疾病表型相类似,且发生互作[1]。
如与血小板计数相关的SNP (rs385893)位于的DHSs与222kb外的JAK2(与血小板生成和骨髓异型性疾病有关的细胞因子激活信号传感基因) 启动子DHSs紧密相关(r = 0.97) ,同时直接的染色质互作证据也验证了两者空间靠近发生互作(Figure 1)。
Figure 1 与血小板计数相关的GWAS SNPs与222kb外的JAK2关联
位于调控元件区域的GWAS SNPs调控远程靶基因
生物体内染色体的存在形式并不是线性的,而通过折叠和卷曲存在于微米级别的细胞核中,并实现复杂的调控作用,因此位于调控区域的GWAS SNPs 可以通过基因组三维结构调控线性距离较远的与表型性状相关的靶基因。
如在神经退行性变表型GWAS联合Hi-C技术的研究中提出了一种研究模型:候选致病变异(rs1990620)的风险等位基因增加了TMEM106B下游的染色质结构蛋白CTCF的募集;CTCF位点与TMEM106B位点其他远端调控元件形成的远程染色质loop互作对风险单倍型影响增加,TMEM106B表达量增加,进而增加细胞毒性(Figure 2)[2]。
Figure 2 解析神经退行性变表型与遗传变异7p21内在分子机制模型
不仅在人类疾病中,在棉花GWAS研究中,研究者发现人类对其优良农艺性状的选择不仅影响功能基因,也可能会重塑基因调控区域,与基因区域相比,在基因间区,如启动子和增强子区域发现了更多的变异(Table 1)[3]。
这些调控区域的SNP会远程调控性状相关靶基因,从而改变这些功能基因的表达,如在TUBULIN ALPHA-3 (TUA3)上游120kb区域的增强子受到强烈选择,通过Hi-C互作数据发现该受选择的增强子与TUA3发现互作,同时也发现相对野生材料YUC而言,栽培材料TM-1中相应的TUA3表达量增高(Figure 3)。
Figure 3 TUA3所在区域的互作、染色质开放性、组蛋白修饰和RNA-Seq结果展示
如何关联调控区域GWAS SNPs与远程靶基因?
如何确定这些非编码变异区域对应的靶基因以及推断这些变异区域致病性?联合 Hi-C在内三维基因组学技术的多组学信息,可全面解析这些难题。
在已知GWAS SNPs情况下,菲沙基因推荐采用成本相对较低,分辨率高的Capture Hi-C技术手段,对Hi-C文库连接产物中的SNPs所在区域进行捕获及高深度测序,从而捕获SNP所在区域与全基因组互作信息,解析变异位点的潜在靶基因和致病性。
相对Hi-C,Capture Hi-C中靶序列位点互作信息富集,总测序量少,成本低。
如在Hi-C数据中,可获得LPHN2启动子互作的信息少(Figure 4上图,紫色),背景中其他互作信息较多(Figure 4上图,灰色),而在Promotor capture Hi-C中数据中,可以看到LPHN2启动子互作的信息富集较多(Figure 4下图,紫色)。
Figure 4 Hi-C和Promotor CHi-C数据中LPHN2启动子互作数据比较
参考文献
1.Maurano M T, Humbert R, Rynes E, et al. Systematic localization of common disease-associated variation in regulatory DNA[J]. Science, 2012, 337(6099): 1190-1195.
2.Gallagher M D, Posavi M, Huang P, et al. A dementia-associated risk variant near TMEM106B alters chromatin architecture and gene expression[J]. The American Journal of Human Genetics, 2017, 101(5): 643-663.
3. Wang M, Tu L, Lin M, et al. Asymmetric subgenome selection and cis-regulatory divergence during cotton domestication[J]. Nature Genetics, 2017, 49(4): 579.