发布网友 发布时间:2024-09-08 21:38
共1个回答
热心网友 时间:2024-10-26 18:46
GSEA,全称Gene Set Enrichment Analysis,是一种评估基因集与表型关联性的分析方法。它通过比较预先定义的基因集S(如GO注释或MsigDB注释)与表达矩阵L(排序后的基因表达列表)中基因的分布趋势,判断基因集对表型变化的贡献。GSEA首先对基因按与表型关联性进行排序,然后分析基因集内基因是否倾向于聚集在表型相关度高的或低的区域。
算法包含四个关键步骤:1) 局部统计量,如Rank Metric,是基于基因表达差异的log fold change;2) 全局统计量Enrichment Score,通过比较基因集S和基因列表L的分布差异,评估富集程度;3) 显著性分析,通过p-value确定统计结果的可信度,通常使用置换检验来计算;4) 多种假设检验,如使用q-value综合考虑多个基因集的富集情况,常用BH算法对NES(Normalized Enrichment Score)进行调整。
在R分析中,通常设置|NES|大于1,NOM p-value小于0.05,FDR q-value小于0.25作为显著富集的阈值。例如,一个分析结果可能显示一条通路的Enrichment Score约为-0.7,leading_edge.list占比为12%,这些数据在可视化结果中都有所体现。