01
融合基因:融合基因是指两个基因的全部或一部分序列相互融合为一个新的基因的过程,是染色体易位、中间缺失或染色体倒置所致的结果,通常具有致瘤性,在各种不同的肿瘤中普遍存在。基因融合是肿瘤的普遍特征,可促进肿瘤的发生和发展,并可作为肿瘤的分子诊断和治疗靶标。
02
易感基因:易感基因(Predisposinggene),在适宜的环境刺激下能够编码遗传性疾病或获得疾病易感性的基因。
03
驱动基因:肿瘤的发生发展是一个复杂的生物学过程,是许多突变基因共同作用的结果。其中有些基因起到主要的作用,主导了肿瘤的发生,有利于肿瘤的生长扩散,称之为驱动基因。驱动基因的检测有利于我们了解肿瘤形成发展的分子机理,为个体化用药治疗提供重要依据。
04
肿瘤纯度和倍性分析:肿瘤样本中癌细胞总是混合一定未知比例的正常细胞,我们称肿瘤样本中癌细胞所占的比例为肿瘤纯度(Tumorpurity),称由染色体结构和数目异常导致的肿瘤样本中癌细胞的真正含量为倍性(Tumorploidy)。估计肿瘤的纯度和倍性有利于癌症基因组进化和肿瘤内的异质性研究。
05
肿瘤异质性/克隆结构分析:肿瘤的异质性是指肿瘤组织内部不同的肿瘤细胞或者亚群中体细胞突变不完全相同,而克隆结构分析有利于揭示肿瘤组织的异质性。肿瘤异质性和克隆结构与肿瘤的发展、进化、侵袭转移、复发预后以及药物反应等密切相关。因此从高通量测序数据中破译肿瘤组织细胞中存在的有作用的驱动突变有利于未来的肿瘤药物研发和精准治疗。
06
高频突变基因互斥和协同性分析:肿瘤的发生是多种不同功能基因协同突变作用的结果。虽然基因突变的发生具有很强的随机性,但经过克隆进化后最终发生肿瘤时,保留下来的突变基因组合应具有一定的协同作用。同时,在不同亚克隆的特异突变基因具有一定的互斥作用。通过突变基因互斥和协同性分析,我们可以分辨出协同性的突变基因及互斥性的突变基因。基因的协同互斥性分析能够帮助识别肿瘤亚克隆特异性的突变基因,还可以帮助定义肿瘤亚型,并且能够揭示相似肿瘤产生的重要功能性体细胞突变,为定位驱动基因提供重要参考。
突变类型
生殖细胞突变:生殖细胞突变,是指来源于精子或卵子的细胞的突变,会传递给后代。
体细胞突变(somaticmutation):体细胞突变是指除生殖细胞外的体细胞所发生的变异,如发生在器官和组织的变异。这些变异是肿瘤样品所特有的,其并不来源于父母,也不会传递给后代,往往跟肿瘤的发生和发展有着密切关系,是肿瘤研究中的重点,对于揭示肿瘤发生发展机制有着重要作用。
基因突变形式
点突变:是指DNA分子中一个碱基对被另一个碱基对所取代,点突变又分为同义突变、错义突变和无义突变。
同义突变:是指碱基置换后,编码的氨基酸并未改变。
错义突变:是指碱基置换后,蛋白质中原来的氨基酸被另一种氨基酸所取代。
无义突变:是指碱基置换后三联体密码子变为终止密码子,导致翻译提前终止而使蛋白功能失活。
移码突变:是指DNA分子中增加或减少了一个或几个碱基对,使得编码区该位点后的三联体密码子阅读框改变, 导致后续氨基酸编码都发生错误,如出现终止密码子,则翻译提前终止。
遗传模式
常染色体显性遗传(autosomaldominantinheritance):简称常显或AD。一种性状或遗传病基因位于常染色体上, 其性质是显性的,所引起的疾病称为常染色体显性遗传病。杂合状态下即可表现出相应症状,其特征是双亲之一是患者,就会遗传给他们子女,男女发病机会均等。因显性表现方式的不同,可分为完全显性、不完全显性、共显性、 延迟显性、不规则显性与外显不全、从性显性、限性显性等。
常染色体隐性遗传 (autosomalrecessiveinheritance):简称常隐或AR。一种性状或遗传病基因位于常染色体上, 其性质是隐性的,所引起的疾病称为常染色体隐性遗传病。在杂合状态下不能表现出相应症状,纯合状态才致病,杂合状态为携带者,其特征是双亲正常,但子女出现发病症状时,说明父母双方都是致病基因的携带者,男女发病机会均等。
X连锁显性遗传(X-linked dominant inheritance):简称XD。致病基因位于X染色体上,且为显性,杂合时即发病。
检测模式
家系模式:当一个家系中有多名类似临床表现的患者时,可以对多个患者以及家系中的多个正常个体同时进行全外显子组测序。应用这种模式,我们可以假定遗传共分离,最高效地分析基因变异。
数据库
KEGG:KEGG是Kyoto Encyclopedia of Genes and Genomes 的简称,是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型 (KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等。详见http://www.genome.jp/kegg/;
GO:(Gene Ontology)是一套国际标准化的基因功能描述的分类系统。GO分为三大类 ontology:生物过程(Biological Process)、分子功能(Molecular Function)和细胞组分(Cellular Component),分别用来描述基因编码的产物所参与的生物过程、所具有的分子功能及所处的细胞环境。GO的基本单元是term, 每个 term 有一个唯一的标示符(由“GO:”加上 7 个数字组成,例如GO:0072669);每类ontology 的 term 通过它们之间的联系(is_a, part_of, regulate)构成一 个有向无环的拓扑结构。详见http://www.geneontology.org/;
NR数据库:NR (NCBI non-redundant protein sequences) 是 NCBI 官方的蛋白序列数据库,它包括了 GenBank 基因的蛋白编码序列,PDB(Protein DataBank)蛋白数据库、SwissProt 蛋白序列及来自PIR(Protein Information Resource)和 PRF(Protein Research Foundation)等数据库的蛋白序列。
NT数据库:NT(NCBI nucleotide sequences) 是 NCBI 官方的核酸序列数据库,包括了 GenBank,EMBL 和 DDBJ(但不包括 EST,STS,GSS,WGS,TSA,PAT,HTG 序列)的核酸序列。
PFAM数据库:Pfam (Protein family)是最全面的蛋白结构域注释的分类系统。蛋白质是由一个个结构域组成的,而每个特定结构域的蛋白序列具有一定保守性。
KOG/COG: COG 是Clusters of Orthologous Groups of proteins 的简称,KOG 为 euKaryotic Ortholog Groups。这两个注释系统都是 NCBI 的基于基因直系 同源关系,其中 COG 针对原核生物,KOG 针对真核生物。
Swiss-Prot:(A manually annotated and reviewed protein sequence database)搜集了经过有经验的生物学家整理及研究的蛋白序列。详见 http://www.ebi.ac.uk/uniprot/;