||
转录组数据结构
1、ArrayExpress,https://www.ebi.ac.uk/arrayexpress/
以这个数据集为例:E-MTAB-4867 ,通常会有如下文件
idf 文件是实验设计描述文件,为txt文本,可以直接打开查看;
sdrf 是样本与实验数据的对应关系描述文件,简而言之,就是每个样品是如何处理的。可以用excel或R读取:
sdrf <- read.table("E-MTAB-4867.sdrf.txt",header = T, sep = "\t")
raw 是原始数据文件,现在一般由委托实验的公司处理,自己如果要处理这类文件,可以参考Bioconductor中的相关内容。
adf 是整列Array设计描述,如果处理过的数据集中没有基因id,就需要用这个文件建立探针号与基因id的对应关系。
Processed data 是处理过的数据,用R读取
proc.data <- read.table("E-MTAB-4867.processed.data.txt",header = T,sep = "\t")
可以看到整个数据集检测的基因数(24603),样品处理组数(135)。
处理过的数据集中已经是基因id,可以直接提取目标基因集了。
在Bioconductor中有处理ArrayExpress的包,但不怎么好用,不如用R直接处理。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-11 04:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社