您好,欢迎光临武汉菲沙基因信息有限公司
027-87224696 | marketing@frasergen.com | 中文|English 咨询客服
MARKET DYNAMICS—— 市场动态 ——
首页 > 市场与支持 > 市场动态
市场动态MARKET DYNAMICS

转录小白日志丨关于参考基因组的那些事儿

发布时间:2022-11-17 11:17:49阅读次数: 分享到:

师兄,师兄,我数据准备好了,准备开始分析了!

进展很快啊,那你参考基因组准备好了吗?

啊,参考基因组还需要准备吗?我找了三个你帮我看看

你这三个都不行啊,第一个参考基因组文件缺失、第二个参考基因组注释信息混乱、第三个基因组比对率太差了,都不能用

啊,那怎么办啊,做个生物信息分析也太难了

不怕,今天我们来聊聊参考基因组的那些事儿。


各位老师在进行各类生物信息学分析时,是否遇到过类似问题?是否有碰到参考基因组缺失、序列文件与注释文件不一致、注释信息不全或混乱甚至比对率低等情况。


参考基因组是生信分析的基础,影响着下游分析的质量,那该如何选择合适的参考基因组?今天小编就聊一聊关于参考基因组的那些事儿。


Part.1

什么是参考基因组及注释文件

参考基因组(Reference Genome)就是通过对目的物种DNA进行测序等手段后,构建的包含ATCG四个碱基的序列文件,注释文件就是对构建的序列文件进行注释说明。如果将参考基因组的序列文件比作“密码”,注释文件就是对应的“密码本”,“密码”和“密码本”一一对应,即可解析遗传信息。


Part.2

参考基因组及注释文件常见格式

(1)参考基因组

物种的基因组序列信息通常以fasta格式保存,文件扩展名一般为fa或fasta。

以fasta序列为例子,格式如下:


第一行为描述行:以“>”开头,通常包含ID等描述信息,是每条序列的唯一标识符

第二行为序列行:以核苷酸或氨基酸编码符号代表的一行或多行序列


(2)注释文件

基因组注释信息,通常以GFF和GTF格式保存,GFF和GTF都由九列构成:seqname、source、feature、start、end、score、strand、frame、attribute。

GFF:包含的信息更多更全,可以包含染色体,基因,转录本的信息;第九列以键值对的形式,键值之间用“=”连接,不同属性之间用“;”分隔,如下图:



GTF:主要用来描述基因和转录本的信息;第九列以键值对的形式,键值之间是以空格区分,值用双引号括起来,不同属性之间用“;”分隔;主要是gene_id, transcript_id两个属性,如下图:



GTF是在GFF的基础上发展而来,二者也有许多类似的地方。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息;而GTF主要用来描述基因和转录本的信息,二者也可以通过Cufflinks软件的gffread进行相互转化。


Part.3

基因组及注释文件常用数据库介绍

介绍完了基因组及注释文件,那我们就需要去获取这些内容,现在主要的参考基因组数据库有NCBI、Ensembl、UCSC Genome Browser等,我们也对常见数据库进行介绍。

(1)Ensembl(强烈推荐)

Ensembl是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的涵盖大量物种的参考基因组信息的数据库。Ensembl数据库具有基因组序列和NCBI的Genebank数据库完全对应、数据更新及时等优势,是参考基因组下载优先选择。


网站地址:https://asia.ensembl.org/

同时Ensembl根据不同物种类型划分为以下子库。



(2)NCBI

NCBI(National Center for Biotechnology Informatio),指美国国家生物技术信息中心,收录了丰富的生物信息资源,目前主要提供生物数据库和生物信息工具两种生物信息资源。


网站地址:https://www.ncbi.nlm.nih.gov/


(3)UCSC Genome Browser

UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护,收录大量基因组数据,包括基因注释信息、基因组间的比对信息、重复序列、同源序列、 参考序列、表型、表达谱、调控信息、保守性、变异、重复区域等一系列信息,并提供可视化浏览工具。


网站地址:http://genome.ucsc.edu/


(4)GENCODE

GENCODE由国家人类基因组研究所(NHGRI)和欧洲分子生物学实验室共同建立,通过整合NCBI等数据库并通过实验验证,构建人类基因组和小鼠基因组的高质量注释信息的数据库。


网站地址:https://www.gencodegenes.org/


现在数据库丰富多样,除了主流的Ensembl、NCBI等数据库外,许多物种会有单独的基因组数据库,如:

水稻的参考基因组数据库

(Rice Genome Annotation Project)

http://rice.plantbiology.msu.edu/;

番茄参考基因组数据库

(The International Tomato Sequencing Project)

http://www.sgn.cornell.edu/about/tomato_sequencing.pl等等


Part.4

参考基因组下载

说了这么多,我们也来以Ensembl和NCBI数据库为例,进行实操下载。

(1)Ensembl数据库下载





看到这么多文件,大家可能会有些头晕,这么多类型的基因组和注释文件应该怎么进行选择?


参考基因组主要有2种组装形式:

  • toplevel:包含所有染色体序列、未组装到染色体序列和用N填充的单倍型/补丁区域,使得比对软件如STAR/hisat2/bowtie2(除了BWA)很难处理完美

  • primary_assembly:去除了单倍型/补丁区域,每个位置只有一个参考碱基,适合用于序列比对


参考基因组主要有3种重复序列处理方式:

  • dna_sm:将重复核苷酸转换为小写

  • dna_rm:用N代替重复区域和低复杂区,会降低比对率,不推荐使用

  • dna:不标记重复序列


所以重点来啦!

提供primary_assembly,选它!提供dna_sm,选它!提供dna_sm.primary_assembly,务必选它选它!

注释文件主要有GTF及GFF格式,分为三种注释文件

gff3/gtf:全部的注释信息(转录分析就选它!)

chr.gff3/gtf:只包含染色体注释信息

abinitio.gff3/gtf:增加预测基因集注释信息


(2)NCBI数据库下载

NCBI数据库大家应该更加熟悉,我们以小鼠为例,以简单图示进行展示。




总  结

参考基因组是生物学分析的重要基础,优质且合适的参考基因组会让后续研究事半功倍。在有参考基因组及注释文件的前提下,如果研究物种存在不同品种,可以优先选择最接近研究品种的参考基因组。如果只有一个品种,可以通过对基因组组装水平(chromosome级别最佳),发布时间(普遍最近最佳),注释完整性(是否有exon和CDS信息)及比对序列一致性进行选择。


当然对于没有参考基因组或参考基因组较差的物种,转录组等分析也可以无参进行。


农学科研
表观遗传
基因组
重测序
转录调控
微生物
生物信息学服务
医学临检
实体瘤基因检测
血液肿瘤基因检测
心血管精准用药基因检测
单基因遗传病基因检测
病原基因检测
医学科研
三代测序技术
单细胞测序技术
二代测序技术
三维基因组学技术
市场与支持
市场动态
菲沙课堂
产品速递
关于菲沙
菲沙简介
菲沙团队
菲沙成果
技术平台
合作伙伴
联系我们
加入我们
校园招聘
社会招聘
联系我们
  • 电话:027-87224696
  • 传真:027-87224785
  • Email:support@frasergen.com
  • 地址:中国湖北省武汉市东湖高新技术开发区高新大道666号光谷生物城D3-1栋三楼
微信公众号
Copyright © 2018武汉菲沙基因信息有限公司 鄂ICP备13010493号-1. All Rights Reserved Designed by Wanhu