2500年前,老子在《道德经》中写道“一生二,二生三,三生万物”,他用朴素的哲学阐明了一个重要的生物学事件:生命的起源来自一个简单的细胞,复杂的万物来源于简单的生物组成。正是先人对生命起源的好奇及思考,推动了人类生命意识的觉醒和对于生存空间中万事万物的探索。
随着技术的发展,人类开始利用更加精密的工具来观察事物,1665年罗伯特·胡克发表了《显微图集》,他利用显微镜用于观察昆虫、植物和高等动物的组织结构,并用“cell”来形容看到的区室结构。同时代的荷兰科学家列文虎克通过自制的显微镜,首先观察并描绘了单细胞生物,并将其称为“animalcules”,他对微观世界的发现直接推动了细菌学的研究。
1838年
德国科学家施莱登和施旺提出了细胞学说,指出细胞是动植物结构和生命的基本单元。德国科学家罗伯特·雷马克通过观察鸡胚不同分裂阶段的红细胞证明了新细胞来源于细胞的分裂,并在受精的青蛙卵中观察到同样的现象;1858年,德国科学家魏尔肖对细胞分裂产生新的细胞这一理论进行了系统的阐述,并发表了《细胞病理学》一书,对于生物学研究产生了深远的影响。
1928年
细胞可以通过分裂实现增殖,那如何保持亲本和子代性状一致呢?为了探究遗传物质的传递规律,格里菲斯做了著名的肺炎双球菌侵染实验,他将灭活的高致病性III型肺炎双球菌和低毒的II型肺炎双球菌分别注释到小鼠体内,发现两组小鼠均存活,而当两者混合再次注入到小鼠体内时,小鼠致死,并在小鼠体内分离得到高致病性的III型肺炎双球菌。他们推出导致小鼠致病的是染色质中存在的蛋白质。
1944年
艾弗里及其合作者在格里菲斯的研究基础上,在致病菌的浸出物中分离到高纯度DNA和蛋白质及多糖,并将其分别和R型(非致病型)浸出物混合注射到小鼠体内,发现只有DNA组的小鼠肺炎双球菌发生了转化并导致了小鼠致死,从而证实了DNA是遗传物质。
1951年
富兰克林通过提取高纯度的DNA结晶并用X衍射拍摄到及其精美的X射线衍射图片,她的同事威尔金斯私自将这一结果展示给了年轻的科学家沃森和克里克。次年,美国科学家查伽夫E.chargaff测定了DNA分子中4种碱基的含量,发现其中腺嘌呤和胸腺嘧啶的数量相等,鸟嘌呤和胞嘧啶的相等。
1953年
沃森和克里克根据以上的信息推测出A-C配对,C-G配对的DNA双螺旋模型,这一结果暗示了DNA在复制过程中存在及其精确的机制,该结果一经发表立刻产生了轰动效应,开启了分子生物学的大门。在此基础上,克里克进一步分析了DNA-RNA-蛋白质的生命活动中的重要信息传递规律,提出了著名的中心法则。
存储生物体的遗传信息的DNA如同一把开启认识生命的钥匙,使得科学界对之趋之若鹜,如何认识DNA这把钥匙本身则成为了重要的科学问题。
1975年
英国生化学家弗雷德里克·桑格发明了双脱氧链终止法来测定DNA序列,并利用这一技术,耗时两年的时间检定了φ-X174噬菌体的基因组序列。这一技术开启了测序技术发展的时代序幕。
1983年
Kary Mullis发明了PCR技术,该技术可以在体外扩增DNA,使得痕量的DNA可以指数级放大。
1990年
由多国合作的人类基因组计划正式启动,该计划旨在测定人类染色体中所包含的所有的序列组成,并绘制人类基因组图谱,并鉴定其存在的基因序列,从而达到破译人类遗传信息的的最终目的,2001年人类基因组工作草图发表,并在2003年完成了人类基因组精细图谱。
人类基因组图谱的破译彻底改变了科学界对真核生物基因组和表达谱的认识,科学家最早估计人类基因组中可能包含8-10万个基因,最终却只鉴定得到约22000个基因,可编码区域只占整个基因组的1.5%。而随着认识的深入,发现80.4%的人类基因组可能包含以下的作用:1:结合转录因子;2:具有编码前程;3具有组蛋白修饰。同时发现整个基因组中有399124个增强子相关序列和70292个启动子相似序列。这充分表明了基因组的复杂性。
通过对基因的结构研究发现,一个基因可以通过不同的剪切模式形成不同的转录本,基因可表现出随机的单等位基因表达,每次只表达母本或父本的等位基因。由于内在的随机过程和外部刺激,细胞会表现出极大的异质性,即使是同种器官的不同细胞的表达模式也不相同。此外,由于某些确定性源于或随机因素,在同一微环境先的相邻细胞可在不同的水平上表达同一转录本。这种随机性导致了所谓的转录噪音,会在表达水平上的一种随机的、突发性的波动,这种波动在细胞的命运决定中起着关键作用。所以准确地了解每个细胞的表达模式就显得极为重要,因此需要采用新的测序技术,来实现单细胞水平的表达分析,在这种情形下单细胞测序技术应运而生。
1990年,Norman Iscove课题组首次发明了一种单细胞cDNA指数级扩增的方法[1]。实现了在单个细胞分辨率水平研究基因表达的差异。该方法的主要步骤包含:
1.细胞裂解。将近100个细胞进行细胞裂解;
2.cDNA第一链合成。利用携带oligo(dT)的引物进行反转录;
3.cDNA末端加ployA。利用末端转移酶terminal transferase和高浓度的dATP在DNA链的3`端添加ployA;
4.文库扩增。最后利用Tag聚合酶对cDNA进行扩增从而获得全基因组级别的转录组文库。
图一:Norman Iscove et.,al单细胞转录组文库构建示意图
利用PCR扩增的方法可以快速获得大量的cDNA,但是它也存在致命的弱点,对于丰度较高及转录本较短的片段具有明显的偏好性,因此无法检测到较低丰度及长片段的cDNA;与此同时PCR扩增也会引入大量无法避免的扩增副产物。1992年Paul Coleman课题组开发了一种利用反转录和体外线性扩增的方法[2]。该方法避免了Norman Iscove方法对长mRNA的偏好性,可以获得更长的mRNA分子,用于后续的分析。
该方法的主要步骤有:
1.单细胞分离及裂解。分选得到一个神经元细胞并裂解;
2.逆转录cDNA第一链。第一步利用反转录酶和一个携带oligo(dT)-T7 primer的引物进行反转录成cDNA第一条链;
3.合成cDNA第二条链。第二步用RNAseH去除RNA,并用T4 DNA polymerase 和Klenow合成cDNA第二条链;
4.转录RNA。利用T7 RNA聚合酶进行转录反应;
5.逆转录。对转录得到的反向RNA添加逆转录酶和随机引物进行逆转录,获得cDNA文库;
6.PCR扩增。再次用oligo(dT)-T7引物合成第二条链并最终得到足够的cDNA分子。
图二:Paul Coleman et.,al单细胞转录组文库构建示意图
Norman Iscove et.,al和Paul Coleman et.,al 的检测方法更多用于研究单细胞维度中少数基因的表达差异,无法实现大规模基因的丰度鉴定。2006年Mitinori Saitou课题组报道一种新的单细胞转录组扩增的策略,该方案结合高定量高密度寡核苷酸微阵列分析,将少量定向PCR循环与随后的线性扩增相结合[3],可以实现全局转录本的研究分析。
该方案主要的步骤包含:
1.逆转录合成cDNA第一链。利用携带oligo(dT)-V1 primer进行反转录cDNA第一条链;
2.末端添加ployA。利用末端转移酶对cDNA的3`端加ployA尾;
3.cDNA第二链合成。添加聚合酶和oligo(dT)-V3及oligo(dT)-V1进行第二链合成;
4.PCR扩增。利用PCR反应进行扩增cDNA文库;
5.文库添加T7启动子。添加oligo(dT)-V1-T7对文库进行扩增,使得末端携带T7序列;
6.基因检测。纯化及利用microarray进行转录本检测。
使用这种策略,与原始方法相比,基因表达谱的表达和个体实验之间的再现性都得到了明显的改善,同时具有较高的覆盖率和准确性。
图三:Paul Coleman et.,al单细胞转录组文库构建示意图
随着二代测序技术的发展,让研究人员意识到将扩增得到的单细胞转录组数据利用测序平台直接检查其表达丰度可能得到很精确的结果。
2009年汤富酬等在《Nature Methods》首次报道了一种在单细胞中基于高通量测序对mRNA进行无偏倚检测的方法[4]。
该方法主要分为以下步骤:
1.单细胞分离及细胞裂解。在显微镜下人工吸取单个细胞并裂解;
2.逆转录cDNA第一链。使用带有UP1的ploy(dT)引物和逆转录酶对mRNA反转录成cDNA,并消化未使用的引物;
3.末端添加ployA。利用末端转移酶在cDNA的3`末端添加polyA;
4.cDNA文库扩增。利用UP1-PloyT和UP2-ployT引物对cDNA进行扩增反应;
5.文库片段化。对扩增产物进行片段化,将P1和P2连接到末端;
6.文库扩增。将文库与共价连接P1 primer的beads混合进行乳液PCR,在P1磁珠表面产生数以百万计的拷贝;
7.文库测序。裂解乳液,对片段进行测序。
该方法的开发开创了单细胞转录组测序技术的先河,使得单个细胞转录组检测成为现实。
图四:Tang et.,al 单细胞转录组文库构建示意图
Tang方法利用PCR进行扩增会引入大量扩增副产物,2012年Sten Linnarsson实验室在《Cell Report》发表了CEL-seq技术,他将线性扩增的方法替代PCR反应[5]。该方法主要分为以下步骤:
1.逆转录合成第一链。利用一段带有ployT、barcode、5`端Illumina测序接头和T7 promoter的引物对mRNA进行逆转录合成cDNA第一链;
2.线性扩增。利用T7 RNA聚合酶对cDNA进行转录反应;
3.片段化及添加接头。对RNA进行片段化,连接Illumina 3`测序接头;
4.反转录RNA形成DNA;
5.筛选文库。利用PCR反应和Illimina 3`接头及Illumina 5`接头对文库进行筛选;
6. 获得的文库进行双端测序。其中R1序列包含barcode序列,而R2包含mRNA序列。
图五:CEL-seq文库构建示意图
2016年作者 CEL-seq进行了升级,升级后的CEL-seq2[6]主要优化了反转录引物的长度,用SuperScript II Double-Strand cDNA Synthesis 进行cDNA一链和二链的合成,并且优化了后期建库方式,同时CEL-seq2建库方式与CEL-seq不同,前者通过带有接头的随机引物去反转录RNA,而后者通过连接法将3`测序接头连接到逆转录的RNA上。
2011年Sten Linnarsson课题组在Genome Research中发表了STRT-seq技术[7]。STRT-seq的主要创新在生成第一链时不是添加ployA尾,而是3-6长度的CCC序列,这使得在第二链合成时可用GGG进行配对。同时标记了一段barcode用于区分不同来演的转录本,使得阅读框成为barcode、CCC、cDNA序列。STRT技术可实现单个样本和群体水平上分析,可反映细胞群体、功能亚群及单细胞维度的信息。
该方法的步骤主要包含:
1.逆转录合成cDNA第一链。将单细胞加入到装有裂解缓冲液的96孔板中,加入逆转录酶合成第一条链,并在cDNA末端添加3-6个C碱基;
2.模板转换。利用模板转换技术将辅助寡核苷酸(helper oligo,绿色)引入到cDNA中,辅助寡核苷酸由 6bp barcode(红色方框)和引物序列组成;
3.PCR扩增。利用模板抑制作用,用单引物PCR扩增产物,然后将产物固定到beads上,片段化,加A;
4.添加测序接头。将illuminaP2接头(连接到cDNA游离端);
5.添加第二个测序接头。使用P1 序列引物(蓝色)通过PCR在文库中引入P1接头;
6.测序。使用自定义引物从P1端对文库进行测序。
图六:STRT-seq文库构建示意图
以上的方法只能实现短片段单细胞文库的构建,而无法获得全长转录组信息。2012年由美国和德国科学家开发的Smart-seq技术实现了全长转录组的研究。该技术是一项具有里程碑意义的技术,发表在《Nature Biotechnology》[8]。作为一种单细胞测序方案,它可以完整覆盖转录本的全长,实现转录本异构体分析和SNV检测。
该方法的实验步骤主要包含:
1.细胞分选。利用物理稀释或流式细胞仪对细胞进行分选;
2.细胞裂解。细胞加入到包含细胞裂解液的96孔板中;
3.第一链合成。以带接头的oligo(dT)序列为引物,在SMART逆转录酶(SMARTScribe Reverse Transcriptase)作用下,进行一链合成,当合成到模板的5·端时,由于SMART逆转录酶具有末端转移酶活性,所以会在cDNA的3·端增加几个C碱基;
4.第二链合成。利用携带3个G的引物(SMARTer Oligonucleotide)与cDNA 3·末端延伸碱基进行互补配对,而后逆转录酶以该引物为模板继续延伸,得到两端带接头的完整单链cDNA序列;
5.PCR扩增。以cDNA序列两端接头为引物进行PCR扩增,最终得到足够进行测序的双链cDNA。
图七:Smart-seq文库构建示意图
Rickard Sandberg和Gösta Winberg等在2013年对Smart-seq技术进行了升级,并命名为Smart-seq2,发表在《Nature Methods》上[9]。
该方法的主要步骤分为:
1. 单细胞分选。Smart-seq使用流式细胞仪进行细胞分选,一次最大分选细胞通量为96个;
2.细胞裂解。在细胞裂解液中进行细胞裂解;
3.cDNA第一链合成。使用Oligo(dT) primer 对RNA进行反转录。由于使用了鼠源的反转录酶( Moloney Murine Leukemia Virus )进行反转录,所以会在cDNA链3'端加上三个C;
4.模板置换(二链合成)。该步使用TSO ( template-switching oligo )引物合成了cDNA的第二链,从而置换了与一链cDNA互补的RNA。要注意的是TSO 3'端有三个G能与一链3'端的三个C互补,而最末端的+G是一个修饰过的锁核苷酸G,能增加TSO的热稳定性,以及其与一链cDNA游离的3’端的互补的能力。TSO 还带有PCR所需的引物(图中绿色的部分);
5.PCR扩增。该步进行轻度的cDNA富集,将cDNA扩增至ng级别;
6.标记。利用改造后的高活性Tn5转座酶对DNA进行打断的同时将接头添加到cDNA的两端。标记完成后的DNA片段通常在200-600bp;
7.PCR富集及上机测序。在进行最后一次PCR扩增后,即可上机测序。
新方案使用锁核苷酸(LNA)、更高浓度的MgCl2以及三甲基甘氨酸和甜菜碱。甜菜碱(N,N,N三甲基甘氨酸)是一种高效的甲基供体。在反转录体系中加入甜菜碱,其能够增加转录所需酶(蛋白质)的热稳定性,并通过破坏DNA螺旋的稳定性降低碱基对DNA热融化转变的依赖性。此外,甜菜碱还可以使cDNA的形成更加完整。一些RNA有着例如发夹结构、环形结构等二级结构,影响逆转录酶与其结合,加入甜菜碱可解决这一问题,最终得到完整的cDNA文库。此外,在加入甜菜碱的同时增加Mg2+的浓度也可在一定程度上提高cDNA产量。
TSO引物序列(5’-AAGCAGTGGTATCAACGCAGAGTACATrGrG+G-3’):在5’端带有1个通用引物序列,而在3’末端,有两个核糖鸟苷(rG)和一个锁核苷酸(Locked Nucleic Acid,LNA)修饰的鸟苷(G),可以促进模板转换,进而扩增出完整的cDNA序列。
更新后的Smart2-seq技术不需要纯化,可以极大提升样本的RNA得率。
图八:Smart-seq2文库构建示意图
随着单细胞技术的发展,研究人员逐渐意识到除了获得单个细胞的转录组或全长转录组外,大规模细胞的异质性研究对细胞发生发展及疾病的进程至关重要。因此迫切需要有新的技术来解决单细胞通量捕获的问题。
2015年,哈佛大学Steven A. McCarroll课题组开发了Drop-seq,他们首次将微流体技术与单细胞RNA-seq方法中结合,使得批量化研究单细胞成为可能[10]。 Drop-seq扩增原理基于RNA 5`端模板转换(SMART)。
该技术的主要步骤包含:
1.制备单细胞悬液。从解离组织和细胞中制备单细胞悬液;
2.生成油包水结构。通过微流控系统获得droplets;
3.裂解细胞。裂解细胞膜使得mRNA进入反应体系;
4.逆转录及模板转换(Template Switching);
5.核酸外切酶处理;
6.第一轮全长cDNA的扩增;
7.转座酶段搭建并构建文库;
8.第二轮扩增并选择cDNA3`端及添加接头。
9.上机测序。
图九:Drop-seq文库构建示意图
2015年哈佛团队的David A. Weitz 和 Marc W. Kirschner团队发明了inDrop-seq技术,该技术与Drop-seq技术一起在2015年同一期的《cell》发表,与Drop-seq技术PCR扩增方法不同的是,inDrop-seq扩增原理基于体外转录。
该技术与Drop-seq主要的差别在于:
1.其引物序列中包含一段T7 RNA promoter序列;
2.合成cDNA第一条链后可在体外进行RNA线性扩增得到文库
图十:inDrop-seq文库构建示意图
Drop-seq和inDrop-seq技术的开发是的自动化成为可能,微流体技术商业化的应用使得单细胞测序成本急剧下降,极大促进了单细胞技术普及和发展。而这一切仅仅是开始。
(未完待续)
参考文献:
[1] Brady G , Barbara M , Iscove N N . Representative in Vitro cDNA Amplification From Individual Hemopoietic Cells and Colonies[J]. Methods in Molecular and Cellular Biology, 1990, 2(1).
[2] Eberwine J , Yeh H , Miyashiro K , et al. Analysis of gene expression in single live neurons.[J]. Proceedings of the National Academy of Sciences, 1992, 89(7):3010-3014.
[3] An improved single-cell cDNA amplification method for efficient high-density oligonucleotide microarray analysis.[J]. Nucleic acids research, 2006.
[4] Tang F , Barbacioru C , Wang Y , et al. mRNA-Seq whole-transcriptome analysis of a single cell[J]. Nature Methods, 2009, 6(5):377-382.
[5] Hashimshony T , F Wagner, Sher N , et al. CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification.[J]. Cell Reports, 2012, 2(3):666-673.
[6] Hashimshony T , Senderovich N , Avital G , et al. CEL-Seq2: sensitive highly-multiplexed single-cell RNA-Seq[J]. Genome Biology, 2016, 17(1):1-7.
[7] Islam S , Kjallquist U , Moliner A , et al. Characterization of the single-cell transcriptional landscape by highly multiplex RNA-seq[J]. Genome Research, 2011, 21(7):1160.
[8] Goetz J J , Trimarchi J M . Transcriptome sequencing of single cells with Smart-Seq[J]. Nature Biotechnology, 2012, 30(8):763-765.
[9] Picelli S , ÅK Björklund, Faridani O R , et al. Smart-seq2 for sensitive full-length transcriptome profiling in single cells[J]. Nature Methods, 2013, 10(11):1096-1098.
[10] Macosko E Z , Basu A , Satija R , et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets[J]. Cell, 2015, 161(5):1202-1214.
[11] Klein A , Mazutis L , Akartuna I , et al. Droplet barcoding for single-cell transcriptomics applied to embryonic stem cells.[J]. Cell, 2015, 161(5):1187-1201.