师兄,师兄,我数据准备好了,准备开始分析了!
进展很快啊,那你参考基因组准备好了吗?
啊,参考基因组还需要准备吗?我找了三个你帮我看看
你这三个都不行啊,第一个参考基因组文件缺失、第二个参考基因组注释信息混乱、第三个基因组比对率太差了,都不能用
啊,那怎么办啊,做个生物信息分析也太难了
不怕,今天我们来聊聊参考基因组的那些事儿。
各位老师在进行各类生物信息学分析时,是否遇到过类似问题?是否有碰到参考基因组缺失、序列文件与注释文件不一致、注释信息不全或混乱甚至比对率低等情况。
参考基因组是生信分析的基础,影响着下游分析的质量,那该如何选择合适的参考基因组?今天小编就聊一聊关于参考基因组的那些事儿。
Part.1
什么是参考基因组及注释文件
参考基因组(Reference Genome)就是通过对目的物种DNA进行测序等手段后,构建的包含ATCG四个碱基的序列文件,注释文件就是对构建的序列文件进行注释说明。如果将参考基因组的序列文件比作“密码”,注释文件就是对应的“密码本”,“密码”和“密码本”一一对应,即可解析遗传信息。
Part.2
参考基因组及注释文件常见格式
(1)参考基因组
物种的基因组序列信息通常以fasta格式保存,文件扩展名一般为fa或fasta。
以fasta序列为例子,格式如下:
第一行为描述行:以“>”开头,通常包含ID等描述信息,是每条序列的唯一标识符
第二行为序列行:以核苷酸或氨基酸编码符号代表的一行或多行序列
(2)注释文件
基因组注释信息,通常以GFF和GTF格式保存,GFF和GTF都由九列构成:seqname、source、feature、start、end、score、strand、frame、attribute。
GFF:包含的信息更多更全,可以包含染色体,基因,转录本的信息;第九列以键值对的形式,键值之间用“=”连接,不同属性之间用“;”分隔,如下图:
GTF:主要用来描述基因和转录本的信息;第九列以键值对的形式,键值之间是以空格区分,值用双引号括起来,不同属性之间用“;”分隔;主要是gene_id, transcript_id两个属性,如下图:
GTF是在GFF的基础上发展而来,二者也有许多类似的地方。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息;而GTF主要用来描述基因和转录本的信息,二者也可以通过Cufflinks软件的gffread进行相互转化。
Part.3
基因组及注释文件常用数据库介绍
介绍完了基因组及注释文件,那我们就需要去获取这些内容,现在主要的参考基因组数据库有NCBI、Ensembl、UCSC Genome Browser等,我们也对常见数据库进行介绍。
(1)Ensembl(强烈推荐)
Ensembl是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的涵盖大量物种的参考基因组信息的数据库。Ensembl数据库具有基因组序列和NCBI的Genebank数据库完全对应、数据更新及时等优势,是参考基因组下载优先选择。
网站地址:https://asia.ensembl.org/
同时Ensembl根据不同物种类型划分为以下子库。
(2)NCBI
NCBI(National Center for Biotechnology Informatio),指美国国家生物技术信息中心,收录了丰富的生物信息资源,目前主要提供生物数据库和生物信息工具两种生物信息资源。
网站地址:https://www.ncbi.nlm.nih.gov/
(3)UCSC Genome Browser
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护,收录大量基因组数据,包括基因注释信息、基因组间的比对信息、重复序列、同源序列、 参考序列、表型、表达谱、调控信息、保守性、变异、重复区域等一系列信息,并提供可视化浏览工具。
网站地址:http://genome.ucsc.edu/
(4)GENCODE
GENCODE由国家人类基因组研究所(NHGRI)和欧洲分子生物学实验室共同建立,通过整合NCBI等数据库并通过实验验证,构建人类基因组和小鼠基因组的高质量注释信息的数据库。
网站地址:https://www.gencodegenes.org/
现在数据库丰富多样,除了主流的Ensembl、NCBI等数据库外,许多物种会有单独的基因组数据库,如:
水稻的参考基因组数据库
(Rice Genome Annotation Project)
http://rice.plantbiology.msu.edu/;
番茄参考基因组数据库
(The International Tomato Sequencing Project)
http://www.sgn.cornell.edu/about/tomato_sequencing.pl等等
Part.4
参考基因组下载
说了这么多,我们也来以Ensembl和NCBI数据库为例,进行实操下载。
(1)Ensembl数据库下载
看到这么多文件,大家可能会有些头晕,这么多类型的基因组和注释文件应该怎么进行选择?
参考基因组主要有2种组装形式:
toplevel:包含所有染色体序列、未组装到染色体序列和用N填充的单倍型/补丁区域,使得比对软件如STAR/hisat2/bowtie2(除了BWA)很难处理完美
primary_assembly:去除了单倍型/补丁区域,每个位置只有一个参考碱基,适合用于序列比对
参考基因组主要有3种重复序列处理方式:
dna_sm:将重复核苷酸转换为小写
dna_rm:用N代替重复区域和低复杂区,会降低比对率,不推荐使用
dna:不标记重复序列
所以重点来啦!
提供primary_assembly,选它!提供dna_sm,选它!提供dna_sm.primary_assembly,务必选它选它!
注释文件主要有GTF及GFF格式,分为三种注释文件
gff3/gtf:全部的注释信息(转录分析就选它!)
chr.gff3/gtf:只包含染色体注释信息
abinitio.gff3/gtf:增加预测基因集注释信息
(2)NCBI数据库下载
NCBI数据库大家应该更加熟悉,我们以小鼠为例,以简单图示进行展示。
总 结
参考基因组是生物学分析的重要基础,优质且合适的参考基因组会让后续研究事半功倍。在有参考基因组及注释文件的前提下,如果研究物种存在不同品种,可以优先选择最接近研究品种的参考基因组。如果只有一个品种,可以通过对基因组组装水平(chromosome级别最佳),发布时间(普遍最近最佳),注释完整性(是否有exon和CDS信息)及比对序列一致性进行选择。
当然对于没有参考基因组或参考基因组较差的物种,转录组等分析也可以无参进行。