chensing的个人博客分享 http://blog.sciencenet.cn/u/chensing

博文

R/Bioconductor与转录组数据分析(3)

已有 5718 次阅读 2018-12-1 19:17 |系统分类:科研笔记| 转录组数据分析

转录组数据结构

1、ArrayExpress,https://www.ebi.ac.uk/arrayexpress/

以这个数据集为例:E-MTAB-4867 ,通常会有如下文件

屏幕快照 2018-12-01 下午6.01.41.png

idf 文件是实验设计描述文件,为txt文本,可以直接打开查看;

sdrf 是样本与实验数据的对应关系描述文件,简而言之,就是每个样品是如何处理的。可以用excel或R读取:

sdrf <- read.table("E-MTAB-4867.sdrf.txt",header = T, sep = "\t")

raw 是原始数据文件,现在一般由委托实验的公司处理,自己如果要处理这类文件,可以参考Bioconductor中的相关内容。

adf 是整列Array设计描述,如果处理过的数据集中没有基因id,就需要用这个文件建立探针号与基因id的对应关系。

Processed data 是处理过的数据,用R读取

proc.data <- read.table("E-MTAB-4867.processed.data.txt",header = T,sep = "\t")

屏幕快照 2018-12-01 下午7.09.28.png

可以看到整个数据集检测的基因数(24603),样品处理组数(135)。

处理过的数据集中已经是基因id,可以直接提取目标基因集了。


在Bioconductor中有处理ArrayExpress的包,但不怎么好用,不如用R直接处理。



https://blog.sciencenet.cn/blog-62701-1149347.html

上一篇:R/Bioconductor与转录组数据分析(2)
下一篇:R/Bioconductor与转录组数据分析(4)
收藏 IP: 222.197.71.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 19:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部