详细信息

OrthoCluster和OrthoClusterDB

日期:2016年1月28日 15:57

菲沙基因开发了用于寻找并分析基因组共线性的生物信息学软件OrthoClusterOrthoClusterDB。这些方法可用于比较分析两个或多个物种的基因组。

OrthoCluster

杂志EDBT NantesBMC Genomics

研究背景

早期研究显示,基因组内的基因并非随机分布,而是聚集在一起形成保守基因簇。共线性区段的精确识别,是比较基因组学研究中对基因组结构理解和表达的重点。在过去十年中,大多数用于识别共线性区段的计算机程序都具有一定的局限性,主要表现在以下四个方面:(1)多个基因组的比较;(2)检测包含有不匹配现象的共线性区段;(3)基因定位;(4)处理一对多的基因同源关系。为此,我们开发了一个鲁棒性的数据挖掘软件OrthoCluster。

研究方法

就基因结构而言,共线性区域是多个基因组之间高度保守的基因片段,不同片段位于不同的基因组上。因此,可以对基因组共线性区域进行建模。假设共线性区域S1S2是分布在基因组C1C2上的序列片段,S1S2之间高度相似。为此,我们开发了基于数据挖掘算法的软件OrthoCluster,用于寻找基因组之间的共线性区域,可以准确评估S1S2之间的相似性。

研究结果

OrthoCluster需要候选基因组的注释基因数据集以及基因之间的成对同源关系作为输入,能够有效识别基因组之间完成共线性区域以及基因组的重复片段。OrthoCluster可以识别四种类型的基因组重排事件,即反转、换位、插入/缺失和易位。我们为OrthoCluster配备了各种参数,如共线性区段大小、允许错配的阈值、是否保留基因排列顺序,以充分保证OrthoCluste的灵活性和广泛的适用性。

OrthoCluster专门用于识别基因组间的共线性区段。利用OrthoCluster对C.elegansC.briggsae两种线虫进行基因共线性分析,在C.elegans中发现了52个潜在新基因,在C.briggsae中发现了582个潜在新基因,在两种线虫中发现了949个新的同源基因。利用OrthoCluster进行共线性分析,鉴定出了3058个完全匹配的共线性区段,绝大多数都在之前的研究中有过报道。这些完全匹配共线性区段的平均长度为18.8 kb,最大的位于C.elegans第五号染色体上,跨度达到201.2 kb,包含有42个基因。如果放开匹配限制则会发现,C.elegansC.briggsae基因组80%的区域都属于不完全匹配共线性区段。不完全匹配共线性区段的平均长度为63.6 kb,长于之前的报道,其中有11个共线性区块大于1 Mb,而最大的位于C.elegans第六号染色体上,跨度为6.14 Mb

总的来说,OrthoCluster可以精确识别两种线虫之间的保守共线性区段,而且发现共线性区段的数量比之前的数量增加了三倍。这个例子也可以说明OrthoCluster可以高效高质量的完成基因组共线性区域的筛选工作。

 

OrthoClusterDB

杂志BMC Bioinformatics

研究背景

为了让OrthoCluster更易使用,软件的结果更易解读,我们开发了在线数据库OrthoClusterDB

研究方法

OrthoCluste基础上,开发了界面友好的基因组共线性数据库在线服务平台。

研究结果

OrthoClusterDB是一个全新的用于基因组共线性区段识别和可视化的在线平台。OrthoClusterDB由两个部分组成,分别是“Run OrthoCluster”和"View Synteny",其中“Run OrthoCluster”OrthoClusterweb前端。

OrthoClusterDB查找到的线虫共线性基因

Pseudomonas aeruginosa基因组大片段倒位现象

菲沙基因相关文献

1. Zeng X, Pei J, Vergara IA, Nesbitt MJ, Wang K, Chen N:OrthoCluster: a new tool for mining synteny blocks and applications in comparative genomics. EDBT Nantes, 2008 March 25–30.

2. Ng MP, Vergara IA, Frech C, Chen Q, Zeng X, Pei J, Chen N. OrthoClusterDB: an online platform for synteny blocks. BMC Bioinformatics. 2009 Jun 23;10:192.

3. Vergara IA, Chen N. Large synteny blocks revealed between Caenorhabditis elegans and Caenorhabditis briggsae genomes using OrthoCluster. BMC Genomics. 2010 Sep 24;11:516.

所属类别: 菲沙软件

该资讯的关键词为: