PacBio WGS Variant Pipeline 集成了PacBio和第三方生信工具,包括 TRGT (全基因组串联重复)、Paraphase(高度同源基因)和Google DeepVariant ,为客户提供HiFi WGS分析的最佳分析方案。PacBio WGS Variant Pipeline可以实现HiFi比对、单核苷酸突变(SNV)、插入和缺失、拷贝数变异和结构变异。
PacBio TRGT(PacBio Targeted Repeat Genotyping Tool)和TRVZ(Targeted Repeat Visualization Tool)是由Pacific Biosciences(PacBio)开发的工具,旨在分析和可视化串联重复序列。
TRGT是基于PacBio SMRT测序数据开发的工具。它利用测序数据中的长读长信息,通过比对和分析,可以鉴定和分型基因组中的串联重复序列。TRGT具有高分辨率和高准确性,可以帮助研究人员深入了解基因组中的复杂重复序列的特征和变异情况。
TRVZ是与TRGT配套使用的可视化工具。它可以将TRGT分析得到的重复序列信息以图形的形式展示出来,帮助研究人员更直观地观察和理解重复序列在基因组中的分布和特征。TRVZ可以生成各种图形,如直方图、热图、柱状图等,对重复序列进行可视化分析,帮助研究人员发现重复序列的模式和变异。
通过结合PacBio TRGT和TRVZ,研究人员可以更深入地研究和理解基因组中的串联重复序列,揭示它们在基因组结构、功能和进化中的重要性。这些工具为研究复杂基因组提供了有力的支持,有助于推动基因组学和生物学领域的研究进展。
软件介绍
串联重复(Tandem Repeat, TR)是基因组中由DNA序列基序的精确或接近精确重复组成的区域,TR有许多类型,包括同聚物(1个碱基对(bp)基序),短串联重复序列(STR, 2-6个碱基对基序)和可变数量串联重复(VNTRs,>6bp基序), TR在典型人类基因组中占遗传变异的很大一部分,如亨廷顿病、脆性X综合征。PacBio HiFi长读长测序的高精确度使其有可能全面表征整个基因组的TRs的种系和体细胞变异。基于HiFi测序的串联重复基因分型工具TRGT , 以及串联重复可视化TRVZ的配套方法如下:a)TRGT输入HiFi reads比对后的bam文件。b)TRGT确定共有的重复等位基因。c) TRGT使用TR区域的预先指定的结构来定位每个等位基因中单个基序拷贝。d) 使用HMM(隐马尔可夫模型)指定更复杂的重复区域。e) TRGT输出关键词的概述。f) TRVZ生成显示重复等位基因和与它们对齐的读数的图,并具有可选的甲基化。
软件安装
wget https://github.com/PacificBiosciences/trgt/releases/download/v0.7.0/trgt-v0.7.0-linux_x86_64.gz
chmod 755 trgt-v0.7.0-linux_x86_64.gz
gunzip trgt-v0.7.0-linux_x86_64.gz
wget https://github.com/PacificBiosciences/trgt/releases/download/v0.7.0/trvz-v0.7.0-linux_x86_64.gz
chmod 755 trvz-v0.7.0-linux_x86_64.gz
gunzip trvz-v0.7.0-linux_x86_64.gz
软件使用
trgt-v0.7.0-linux_x86_64 [OPTIONS] --genome <FASTA> --reads <READS> --repeats <REPEATS> --output-prefix <OUTPUT_PREFIX>
软件参数
trvz-v0.7.0-linux_x86_64 [OPTIONS] --genome <FASTA> --repeats <REPEATS> --vcf <VCF> --spanning-reads <SPANNING_READS> --repeat-id <REPEAT_ID> --image <IMAGE>
软件参数
实际数据操作
● 基因型 repeat
./trgt-v0.7.0-linux_x86_64 --genome ./genome.fasta --reads wz.sort.bam --repeats pathogenic_repeats.hg38.bed --output-prefix ./wz
输出文件有:wz.vcf.gz 和 wz.spanning.bam。
wz.vcf.gz 文件:包含重复基因型。
wz.spanning.bam 文件:包含完全跨越重复序列的 HiFi 读数片段。
repeat文件下载路径:https://github.com/PacificBiosciences/trgt/blob/main/repeats/;
● 对输出文件排序建立索引
bcftools sort -Ob -o wz.sort.vcf.gz wz.vcf.gz
bcftools index wz.sort.vcf.gz
samtools sort -o wz.spanning.sorted.bam wz.spanning.bam
samtools index wz.spanning.sorted.bam
● 可视化
trvz-v0.7.0-linux_x86_64 --genome ./genome.fasta --repeats pathogenic_repeats.hg38.bed --vcf wz.sort.vcf.gz --spanning-reads wz.spanning.sorted.bam --repeat-id AFF3 --image AFF3.svg
输出wz.svg文件。
结果解读
由两个板块组成,每个板块对应于该区域的一个单倍型。
每个板块的第一条轨迹描述了单倍型共有序列。
GCC重复被描绘为纯蓝色块,这意味着该重复由不间断的CAG图案延伸组成。
任何不匹配、插入和缺失分别用灰色条、垂直线和水平线表示。
● 基因AFF3
查看bed文件中AFF3基因信息
使用IGV人工查看:存在缺失。
● 基因ATXN7
查看bed文件
使用IGV人工核对
ATXN7存在一个插入。和图片信息一一对应。
参考文献:
Dolzhenko, E., English, A., Dashnow, H. et al. Characterization and visualization of tandem repeats at genome scale. Nat Biotechnol (2024). https://doi.org/10.1038/s41587-023-02057-3