罕见病
世界卫生组织将罕见疾病定义为“罹病人数占总人口的0.65‰到1‰之间的疾病或病变”。我国将罕见病定义为患病率低于五十万分之一的疾病,另外,在新生儿中发病率低于万分之一的遗传病定义为罕见遗传病。目前,世界上已知的罕见病有六千到七千种,我国有上百种,较为常见的有几十种。大部分的罕见疾病是由突变或遗传的基因缺陷而导致的先天性疾病,也有部分的罕见疾病至今尚未发现确实的致病原因。若父母双方恰巧拥有相同的隐性致病基因、某一方家族有病史,或基因偶发地产生突变,出生的下一代即有可能出现基因异常的罕见疾病。
HiFi测序技术
HiFi测序(又称长读长测序)提供了最全面的基因组变异视图,能够识别通过短读长测序遗漏的更大和更复杂的结构变异(SV),同时能够检测短读长测序能够检测的单碱基变异(SNVs)。HiFi测序的长读长和高准确度 (>99.9%) 特性提供了非常完整的基因组组装、具有单碱基分辨率的全面变异检测以及代表母本和父本单倍型的定相。菲沙基因致力于“以生物信息学助推生命科学的研究,以基因组医学促进人类健康的发展”,利用长读长测序技术(HiFi 测序技术)在内的多种检测技术的综合应用,为研究致病变异等提供了一套全新的研究思路及科研工具。
HiFi测序技术在罕见病中的应用
01
WGS可诊断罕见病基因组编码区和非编码区域未知的变异
文章题目:
Whole-genome sequencing of patients with rare diseases in a national health system
文章简介:
大多数罕见病患者未接受过分子诊断,超过半数罕见病的病因变异和致病基因仍有待发现。文章提到国家卫生系统中使用全基因组测序(WGS)来简化诊断并发现基因组编码和非编码区域中的未知病因学变异。作者为13,037名参与者生成了WGS数据,其中9,802人患有罕见疾病,并为7,065名广泛表型参与者中的1,138人提供了基因诊断。确定了基因与罕见疾病之间的95种孟德尔关联,其中11种是2015年以来发现的,至少79种被证实是病因。通过生成英国生物样本库参与者的WGS数据,发现稀有的等位基因可以解释某些个体中红细胞的异常。最后,作者鉴定了四种新的非编码变异,它们通过破坏ARPC1B、GATA1、LRBA和MPL的转录而导致疾病。研究证明了在常规医疗中使用WGS进行诊断与病因发现的协同作用。
结果展示:
1、罕见病患者中存在未知的突变并且这些突变主要集中在次等位基因突变上
在生物信息学分析之后,考虑了10259个不相关参与者(MSUP)的最大集合,其中我们鉴定出172,005,610个短变异。这些变异包括157,411,228个(91.5%)单核苷酸变异(SNVs)和14,594,382个(8.5%)50个碱基对的小插入或缺失(indels)。在这些snv和indels中,分别有48.6%和40.8%的snv和indels没有出现在主要的公共变体数据库中和54.8%的小等位基因数为1。在这些单变异中,82.6%是新的。仅有9.08%的新变异具有小等位基因计数>1;在这些情况下,小等位基因通常只由具有相似人群血统的个体携带。如果snv和indel在我们的数据集中很常见,那么它们在主要的变体数据库中都有很好的表现;然而,与理论一致的是,大多数变异都非常罕见,其中大多数都没有被编目。通过综合两种算法的推论,在13037名参与者中调用了177,550个不同的大删除(>50 bp)。也称更复杂类型的结构变体,如反转;然而,这是不可靠的,无法协调个人之间的呼叫。只有13个(0.1%)个体具有非标准的WGS测定性染色体核型。我们从遗传资料推断家族关系。由于招生策略的原因,大多数家庭都是独生子女。
图1 研究概述
2、罕见病群组中收集遗传和表型数据是发现相关基因的有力方法
对于这15个罕见疾病领域,回顾了科学文献,建立了诊断级基因(DGGs)列表,并鉴定了相应的转录本。列表长度从妊娠肝内胆汁淤积领域的2个到神经和发育障碍领域的1423个。这些列表并不是相互排斥的,因为某些基因突变导致的病理与多个结构域的入选标准兼容。12个具有领域特异性专家的多学科团队(mdt)在hpo表型的背景下检查了dggs中观察到的变异。他们根据标准指南将这些变异分为“致病性”或可能致病性,并评估了它们的等位基因对疾病的“完全”或部分贡献。评估了一个变异的贡献,认为它是唯一的变异,因为从受孕开始的孤立的拷贝数减少将消除疾病表型,否则,该贡献被认为是部分贡献。在7065例(16.1%)患者中,有1138例患者发表了临床报告,其中包含影响329dggs的1,103个不同因果变异731 SNVs,264个缺失,102个大缺失和6个复杂结构变异。
图2 变异报告和与罕见疾病的遗传关联
3、对健康的人群样本中的定量极端值进行分析可能会确定医学上相关的基因座
来自红细胞全血计数GWAS的表型多基因预测因子的分布与各自尾部的种群分布呈左右移。然而,这些变化不如高斯方差分量模型预测的要强,这种差异可能部分解释为罕见等位基因产生尾部过量密度(表型峰度= 6.9)。一个顺序结果(左尾,未选择尾,右尾)的WGS GWAS没有产生新的关联。因此,在BeviMed分析中,我们将每个尾部组作为一组病例进行处理,并确定了12个基因的后验关联概率>为0.4,这是一个自由的阈值。HBB和TFRC可以被认为是因果关系,因为已知的突变会导致小细胞贫血。其他基因,包括CUX1和ALG1,也是可能的候选基因。这些结果表明,对明显健康人群样本的定量极端值的分析可以确定与医学相关的位点。
图3 与红细胞性状尾部的遗传关联
4、在调控元件罕见的变体可以通过干扰转录或翻译引起疾病
自闭症谱系障碍男孩携带的x-连锁变异删除了HDAC6的一个GATA1增强子和外显子1-4。他的血小板计数持续较低(52×109l−1),平均血小板体积升高(15.1 fl),红细胞参数正常,除了轻度血细胞生成障碍。电镜分析显示血小板α-颗粒含量低于常规水平。干细胞培养显示巨核细胞的血小板形成不良。这些症状是具有致病性编码GATA1 allele的典型患者。他的血小板中含有异常低的GATA1,这与由于增强子的缺失而导致的弱转录相一致。HDAC6去乙酰化酶α-微管蛋白的Lys40,它定位于聚合的微管。HDAC6的缺失伴随着血小板中乙酰化的α-微管蛋白的增加。敲除小鼠同源物Hdac6,会导致α-微管蛋白的异常乙酰化,从而导致出血和异常行为。因此,GATA1表达的减少和HDAC6的缺失共同导致了一种先前未描述的大血小板减少综合征,并伴有神经发育问题。LRBA第一个内含子中CTCF结合位点纯合子缺失的患者,由于对多种自身抗原失去耐受性,出现自身抗体介导的全血细胞减少,这是LRBA功能受损的特征。
图4 监管要素中的因果变异
研究结论:
已经启动了英国生物样本库参与者的WGS,以鉴定定量表型极端尾部与罕见变异的关联。还表明,介导病因的细胞类型表观遗传学数据结合WGS可以识别包含致病性非编码突变的调控元件。调控变异的探索是未来研究和临床干预的一个有前途的焦点。
02
三代测序技术在罕见病诊断领域的应用
文章题目:
Long-read sequencing for rare human genetic diseases
文章简介:
在过去的十年里,研究人员为了在罕见的人类遗传疾病中寻找致病性突变,需要大规模使用短读长测序仪对编码区域或整个基因组进行测序。然而,使用这些方法,诊断率不足50%,目前仍然存在许多原因不明的罕见的遗传疾病。造成这一现象有很多原因,其中一个合理的解释是,这些对应的突变位于基因组中难以测序的区域,如随机重复排布(tandem-repeat expansion)或者复杂的染色体结构畸变(complex chromosomal structural aberrations)。尽管存在成本高和缺乏标准分析方法的缺点,一些研究已经使用长读长测序仪分析了基因组的致病性变化。这些研究的结果为进一步应用长读长测序仪来识别未解决的遗传疾病的致病突变提供了希望,这可能会扩大我们对人类基因组和疾病的理解。这些方法也可应用于未来遗传性疾病患者的分子诊断和治疗策略。
结果展示:
1、利用基因组DNA测序介绍人类罕见疾病的遗传诊断
长长读测序仪Pac Bio和牛津纳米孔技术测序仪(以下简称纳米孔),最近被引入诊断遗传疾病,希望识别出使用传统技术尚未发现的致病突变。最近的几份报告表明,长读长测序可以识别已知或新的致病基因中的致病突变。在此,作者概述了长读长测序在罕见病中的应用,并讨论了适合当前长读长测序技术的突变类型。
表1 长读长测序在遗传疾病中的应用综述
2、长读长测序在串联重复疾病中的应用
Mitsuhashi & Frith et al.开发了一种基于长读串联基因型的重复拷贝数预测工具,该工具使用基于概率的精确比对方法,并精确地检测整个基因组中注释串联重复序列的变化。该方法利用PacBio和高通量纳米孔测序仪PromethION发现多个神经元核内包涵病(NIID)患者的人类特异性基因NOTCH2NLC中新的致病性GGC重复扩增。该位点不仅富含GC,而且还存在于一个片段基因组重复中,而且先前的短读测序仪研究无法确定NIID患者的病因重复变化。对于在使用短读测序仪进行评估时没有发现因果突变的孟德尔病,应考虑使用长读序列进行串联重复序列的研究。
图5 串联重复序列和人类疾病
3、长读长测序在其他的结构变化和复杂的重排中的应用
结果表明,使用长读长测序可以有效地发现svv。考虑到短读长测序在检测svv中的局限性,最好考虑使用长读测序。生物信息学方法有效地选择罕见的sv并与对照进行比较,对于排除良性/多态sv非常重要。
图6 结构变化的多样性
4、使用长读长测序仪进行目标测序
所讨论的靶向测序方法仍处于早期阶段,尚未得到广泛应用。PacBio CCS似乎比纳米孔测序更准确,但纳米孔比PacBio能够读取更长的序列。某些重复序列可能导致系统错误,这在纳米孔和PacBio读取中都有观察到。测试更多种类的重复序列将是很重要的。然而,目前的证据显示出了很有希望的结果。一旦这些方法变得更加可靠和广泛应用于重复序列测序,临床上将可以应用在“重复疾病诊断模板”可以确定重复拷贝数和重复结构这将只是时间问题。
图7 cas9介导的富集
研究结论:
尽管长读长测序在人类遗传疾病中SV和串联重复序列的分析方面已接近实际水平,但目前的长读长测序仪在碱基测量的准确性和成本方面有改进的空间。然而,这些技术的准确性和可承受性正在迅速提高。2018年,纳米孔发布了原甲基离子高通量测序仪。它产生的数据是MinION的大十倍。PromethION在一次使用1 μg模板DNA就可以产生超过100 Gb,并且这个输出正在增加。PacBio CCS高精度长读长测序,很有前途。2019年,PacBio发布了Sequel II测序平台,它可以在一个流单元和CCS中输出8倍大的序列。使用这两种产品进行测序成本是合理的,预计小突变也将通过长读长测序进行分析。同时作者提出了目前人类罕见疾病遗传诊断的战略流程。当怀疑有重复的疾病或复杂的染色体重排(例如,存在预期或复杂的拷贝数变化)时,特别强烈推荐长读长测序。在这篇综述中,作者介绍了利用长读长测序技术检测遗传性疾病患者的例子。
图8 罕见病诊断战略工作流程
原文链接:
1.https://www.nature.com/articles/s41586-020-2434-2
2.https://www.nature.com/articles/s10038-019-0671-8