首页 > 转录组测序
转录组测序

三代全长转录组

转录组研究是理解生物机体功能的一个重要途径,然而传统二代转录组测序无法直接获得单个RNA分子由5’3’的全部序列。基于PacBio三代测序平台的转录组研究,无需打断扩增,直接读取反转录的全长cDNA,能够有效的获取高质量的单个RNA分子的全部序列,准确辨别二代测序无法识别的同源异构体 (isoform)、同源基因、超家族基因或等位基因表达的转录本,进一步结合二代测序数据还可以进行时期或组织特异性转录本分析,获得更加全面的注释信息。

l  技术路线

l  技术参数

l  案例分析

案例一  小麦全长转录组注释升级

物种:普通小麦(六倍体)

拉丁名:Triticum aestivum

样品选择:四个籽粒发育时期样本,包括颍果和开花后第5天、10天、25天收集的籽粒。

测序策略:提取四个时期样本的total RNA进行混合,构建了<2Kb>2Kb的两个文库,每个文库进行4SMRT Cell测序。

研究结果:

1、全长转录组测序获得197,709条全长转录本序列(FLNC, Full-length non-chimeric),其中74.6%包含了完整的ORF。进一步将高质量的91,881FLNC序列与中国春小麦基因组序列比对,获得22,768条具有高可信度特异剪切位点信息的isoform,其中9,591isoforms为新发现的。共注释16,188个基因,包含13,162个已知基因和3,026个新基因。

图1. 对小麦基因注释进行修复

2、新的注释结果中发现了180个转录本序列跨越了2~3CS基因组注释的基因,进一步与B. distachyon rice基因组比对,验证了这些转录本确实对应单个注释基因,原有的CS基因组注释将单个基因注释成了多个分离的基因。

3、结合PacBio三代转录组测序数据和Illumina二代转录组测序数据,研究人员针对颍果发育不同时期特异性表达的基因和转录本进行分析,发现了不同发育时期得到的基因和全长转录本,其中6,030个基因在颍果发育不同阶段呈现同源异构体表达差异,利用RT-PCR进一步验证了这个结果。

图2. RT-PCR验证TRAES_1DS_114C78BF4基因的isoform表达差异

A. TRAES_1DS_114C78BF4基因检测到了ab两种isoformBRT-PCR验证结果显示S4时期aisoform未表达

参考文献

Dong L, Liu H, Zhang J, et al. Single-molecμLe real-time transcript sequencing facilitates common wheat genome annotation and grain transcriptome research[J]. BMC genomics, 2015, 16(1): 1039.

案例二  单分子长片段测序揭示玉米转录组复杂性

物种:玉米

拉丁名:Zea mays

样品选择:玉米自交品系B73不同发育时期的6个组织,分别为根、花粉、胚、胚乳、幼穗和幼雄花穗。

测序策略:

A6种组织分别提取RNA,加入不同的Barcode

B、引入Barcode后的样品混合进行片段选择,构建6个文库(<1, 1–2, 2–3, 3–5, 4–6 >5 Kb);

CPacBio RS II平台,共测序47SMRT Cell

研究结果:

1isoform检测与鉴定

通过全长转录本基因组比对得到111,151条非冗余转录本同源异构体,这些转录本对应26,946个基因。分析isoforms,研究人员发现其中829个属于转座子元件,剩下的覆盖了玉米RefGen_v3参考基因组70%的基因。本研究从已知基因中发现62,547个新isoforms,占全部的57%;从2,253个新基因中发现2,8033%)个新isoforms。统计最终的数据结果,SMRT测序产生的转录本长度明显超过当前B73基因注释结果。

2)组织特异性isoform和可变剪切模型

分别统计分析6种不同组织的isoform,发现花粉拥有比例最高的组织特异性isoform61.3%),其次是胚(49.2%)和胚乳(46.7%)。GO分析表明这些组织特异性的isoform与各组织特定的分子功能相关。针对目前5种主要的可变剪切模型(内含子保留、外显子跳跃、3’受体选择、5’供体选择和外显子互斥)对各组织isoform进行分类,可以发现不同组织其可变剪切类型所占比例具有较大差别。

1.玉米六个组织中isoform和可变剪切表达差异

3LncRNA鉴定

为了从PacBio数据中鉴定出LncRNA,研究人员构建了PLEK模型,最终鉴定出878个候选LncRNA。其中11个属于已发现LncRNA,剩余867个属于新发现的高置信度LncRNA,其平均长度达到1.1Kb,该结果明显优于二代测序结果(平均长度463bp)。

4)融合基因鉴定

在本研究中,共鉴定1,430个融合转录本,其中134个融合能够在Illumina测序数据中找到。融合基因也具有组织特异性,并且更倾向于发生在染色体间,尤其是靠近染色体末端的位置。随机抽取7个可能的融合基因进行RT-PCRSanger测序,其中5个(71%)可以得到确认。

参考文献:

Wang B, Tseng E, RegμLski M, et al. Unveiling the complexity of the maize transcriptome by single-molecμLe long-read sequencing[J]. Nature Communications, 2016, 7.

案例三  利用SMRT测序长读长片段鉴定融合基因

样品选择:前列腺上皮细胞LNCaP细胞

测序策略:

LNCaP细胞中提取全长cDNA,利用罗氏NimbleGen定制NF1探针进行捕获,捕获得到的cDNA构建2Kb文库,利用PacBio RSII测序平台,每个文库进行2SMRT Cell测序;

研究结果

利用cDNA-CapPacBio SMRT测序技术对前列腺癌细胞LNCaP进行测序,研究RLN1RLN2基因表达及变异情况。

1. 将测序得到的CCS序列与RLN1RLN2参考序列进行比对,发现了RLN1RLN2间基因融合情况,编码产生两个新的融合转录本:RLN1-RLN2-1RLN1-RLN2-2

1. 利用SMRT测序检测到RLN1-RLN2融合基因

2. 在转录本RLN1-RLN2-2中发现了一个新的外显子结构,生成一种新的isoform,其编码产生的RLN2蛋白包含了完整的功能结构域,但是缺乏了整个信号肽,影响蛋白的分泌。结合RNA-seq测序分析,验证了该融合isform在正常和癌变组织中均有表达,且在LNCaP细胞中与RLN1共表达。

2. RLN1-RLN2融合转录本编码的新isoform

参考文献:

Tevz G, McGrath S, Demeter R, et al. Identification of a novel fusion transcript between human relaxin-1 (RLN1) and human relaxin-2 (RLN2) in prostate cancer[J]. MolecμLar and cellμLar endocrinology, 2016, 420: 159-168.