|||
Bioconductor中DESeq2的用法
(1)安装R,安装Bioconductor,从略。
(2)安装DESeq2。在Ubantu安装DEseq2会报错。主要是在安装DEseq2依赖的Matrix时出问题,显示/usr/bin/ld: cannot find llapack等。以此为例,可以在Ubuntu pkgs网站搜索对应的程序安装,即可解决。llapack对应的程序为lablapack-dev。以此类推。
安装XML时,cannot find xml2-config,应该装libxml2-dev及其依赖的软件。
(3)数据的准备。
DESeq2的导入数据比较简单,一个是数据文件,一个是表头说明文件。
数据文件格式如下:
> head(CTS_MOTSHFD)
HFD_1 HFD_2 HFD_3 MOTS_1 MOTS_2 MOTS_3
ENSMUSG00000041453 81 89 73 38 1107 22
ENSMUSG00000061684 2 2 2 1 78 2
ENSMUSG00000084401 99 5 121 85 0 54
ENSMUSG00000054003 52 45 29 9 0 4
ENSMUSG00000027339 214 207 322 24 9 185
ENSMUSG00000094974 318 2 64 1 3 2
表头文件格式如下(可以放在文件里,文件名colData.txt):
condition type
HFD single-read
HFD single-read
HFD single-read
MOTS single-read
MOTS single-read
MOTS single-read
(4)数据的导入。
> library("DESeq2")
> colDataMOTSHFD<-read.table("colData.txt",header=T,sep="\t")
> ddsMOTSHFD <- DESeqDataSetFromMatrix( countData = CTS_MOTSHFD, colData = colDataMOTSHFD, design = ~condition)
(5)初步分析。
筛选组内最大值大于20的基因,去掉丰度小的基因。丰度小的基因,一是可能不重要,二是误差太大。
> keepMOH <-rowSums(counts(ddsMOTSHFD)) >= 20
> ddsMOTSHFD<-ddsMOTSHFD[keepMOH,]
(6)差异表达基因的获取与输出:
> DEddsMOTSHFD <- DESeq(ddsMOTSHFD)
estimating size factors
estimating dispersions
gene-wise dispersion estimates
mean-dispersion relationship
final dispersion estimates
fitting model and testing
> RESddsMOTSHFD <- results(DEddsMOTSHFD)
按照p值从小到大排序
> RESddsMOTSHFD <- RESddsMOTSHFD[order(RESddsMOTSHFD$pvalue),]
输出文件
> write.csv(as.data.frame(RESddsMOTSHFD), file="resMOTSHFD.csv")
DESeq2包中的其它命令,可以参见
http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-5 06:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社