||
差异基因的筛选是微阵列实验数据分析的最关键一步,后续的功能分析和功能预测都是基于这些筛选出来的差异基因,因此可以毫不夸张地说,目的明确的实验设计配合合理的差异基因筛选方法,是整个实验成功的关键。根据实验设计选择针对的差异基因筛选方法,主要方法有:
1) 单因素两组数据统计分析,t-test :
目的:根据一种条件,筛选两组样品之间的差异基因,计算以后提供p-value(显著性值)。
要求:一个影响因素下的2组数据,每组数据3个以上生物学重复(例如试验组3个样本,对照组3个样本,比较两组间的差异基因),例如,用药处理前后的动物,病理组织和正常对照组织,胚胎和成体等。
根 据不同的数据情况t-test有三种不同的模型:The Unpaired t-test for Two Groups,多用于生物学重复之间个体差异非常小的数据;The Unpaired Unequal Variance t-Test (Welch t-test) for Two Groups,多用于生物学重复之间个体差异较大的数据;The t-test against 0 for a Single Group,用于单组数据的t-Test。
备注:双通道芯片产生的数据是Cy3通道和Cy5通道的荧光信号比值,即ratio值,
Cy3通道信号和Cy5通道信号在常规实验设计中不能独立分开作为两组单通道信号值进行数据分析。
2) 单因素多组数据统计分析, one-way anova:
目的:只考虑一种影响因素,筛选两组以上样品之间的差异基因。
要求:一个影响因素下的多组数据,每组数据3个以上生物学重复。例如,不同药物刺激对于对照组,病理组和模型组的影响;化学刺激对于野生型,突变型和转基因植物植株的影响
备注:双通道芯片产生的数据是Cy3通道和Cy5通道的荧光信号比值,即ratio值,Cy3通道信号和Cy5通道信号在常规实验设计中不能独立分开作为两组单通道信号值进行数据分析。
3) 多因素数据统计分析two(N)-way anova:
目的:根据一个以上不同的条件综合评判,筛选多个条件对于两组样品造成的差异基因。
要求:多个影响因素下的2组数据,每组数据3个以上生物学重复。例如:比对动物不同发育时间不同组织之间的差异;肿瘤的不同时期在不同年龄段个体中的表达差异等。
备注:双通道芯片产生的数据是Cy3通道和Cy5通道的荧光信号比值,即ratio值,Cy3通道信号和Cy5通道信号在常规实验设计中不能独立分开作为两组单通道信号值进行数据分析。
4) SAM 分析(R-software):
目的:用SAM(Significant Analysis of Microarray)分析方法在多组实验中寻找具有差异表达的基因。
要求:每组3个以上生物学重复。
备注:双通道芯片产生的数据是Cy3通道和Cy5通道的荧光信号比值,即ratio值,Cy3通道信号和Cy5通道信号在常规实验设计中不能独立分开作为两组单通道信号值进行数据分析。
可以考虑把SAM分析结果中的散点图展示出来,具体例子可参下图。从这个散点图中,能大致看出变化基因在全部基因中所占的比率,以及上调和下调基因的数目情况。当然在图上还可以加上一些SAM分析的参数,例如Significant, Median number of false positives, False Discovery Rate (%)等等。
5) 倍数差异:
目的:筛选两组样品之间的差异基因,计算以后提供两组样品之间的差异倍数。
要求:每组样本只有一个或两个重复。
单荧光芯片数据组间T 检验分析得到p-value 值与Fold change 值两个因素共同绘制火山图(Volcano plot),用于显示两组样品数据的显著性差异。在火山图里﹐其中一个坐标显示着由 t-test 演算出来的负log of p-values﹐另外一个坐标则显示在两个条件比较下log2 转换后的改变值。下图为一个火山图的示例:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-7-25 03:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社