1、数据质控
原始测序数据中会包含接头信息,低质量碱基,未测出的碱基(以N表示),这些信息会对后续的信息分析造成很大的干扰,通过精细的过滤方法将这些干扰信息去除掉,最终得到的数据即为有效数据,我们称之为Clean data 或Clean reads,测序质量分布图可以从一定程度上反映测序的准确性。
2、样本相关性分析
样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。
3、差异表达基因分析
使用火山图和聚类热图等形式展示差异表达基因,直观展示样本间差异基因表达的情况。火山图可直观展示不同样本间差异基因的分布情况。
4、GO/KEGG差异基因富集分析
基于GO和KEGG数据库对差异基因进行富集分析,以柱状图和散点图等形式展示。挖掘差异基因的功能及其所在的信号通路。
5、差异基因蛋白互作网络分析
利用STRING数据库,提取差异基因的互作关系来构建网络。