zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

TidyGEO:从GEO准备数据集进行下游分析

已有 1244 次阅读 2023-12-15 10:11 |个人分类:科普|系统分类:科普集锦

TidyGEO:从GEO准备数据集进行下游分析 

Gene Expression Omnibus (GEO)是一个基于互联网的、可公开访问的高通量分子丰度数据存储库。最初,GEO是为基因表达谱设计的,但它的范围已经扩大,现在包含其他测量类型的数据,包括DNA甲基化水平、种基因型和染色质可及性测量。GEO数据存储在四个单元中:平台定义了一组可以使用给定分析技术检测到的分子;样本描述了单个重复产生的测量结果;系列为组成实验的一组样本组织化验数据和元数据;数据集是为特定平台精心策划的样本集合。由于管理所需的时间和专业知识,大多数样本都不是数据集的一部分。 

GEO使研究人员能够与更广泛的社区共享数据。许多期刊和资助机构都要求这样的共享,以验证研究成果,并确保数据资产的可访问性。GEO数据用于许多类型的二次研究。一些研究人员利用GEO数据开发和评价方法。例如,Zhou等人以最大化平台兼容性为目标,结合不同的数据集来计算基因的表达值;甚至,Eren等人使用GEO数据比较了双聚类算法的有效性;Golightly等人策划了GEO数据集的概要,以实现跨机器学习算法的基准比较。其他研究人员使用GEO数据进行发现,例如鉴定差异表达基因,鉴定影响疾病发展的途径,或调查现有药物重新用途的潜力。 

GEO遵循微阵列实验最小信息(MIAME)和高通量测序实验最小信息(MINSEQE)指南,其中定义了应在公开可用的基因表达数据集中提供的内容。该内容可被分类为1)关于实验的元数据,2)样本级注释,以及3)处理过的分子分析数据。元数据包括研究标题、物种名称、实验设计描述、联系信息和使用的平台等信息。样本水平注释通常表明与每个研究受试者相关的实验条件和协变量因素,例如每个受试者的年龄、性别和/或疾病亚型;这些注释在不同的研究中差异很大。提供额外的样本级注释是为了提供信息,但在分析中可能没有用处。这些变量可能表明被分析的分子类型、所使用的提取和杂交协议、数据预处理方式的描述、最近更新日期以及提交者最初使用的主题标识符。尽管许多GEO系列提供的是原始版本的数据,但更多的是提供了研究人员分析中使用的数据的处理版本。处理数据的例子包括标准化微阵列测量,读取对齐RNA测序数据的特征计数,RT-PCR测量等。 

GEO长期以来一直使用基于电子表格的提交系统来收集研究人员的元数据和注释。一位策展人审查每一份提交。这一过程确保了各研究间信息结构的一致性,并提供了关键数据元素,同时确保了大范围实验的灵活性。这种灵活性使GEO在过去的几十年里迅速发展,并实现了其创建者的目标,即保持灵活性和对未来趋势的响应,而不是为进入设定严格的要求和标准。然而,数据重用的挑战也伴随着这种灵活性。在提交过程的限制下,研究人员提供了样本特征的自由形式描述。在某些情况下,研究人员用分隔符为每个细胞提供多个值。例如,值“female;52;anastrozole”可以用来表示一位52岁的女性乳腺癌患者,她曾接受过anastrozole的治疗。当重用数据时,二级研究人员需要破译这些值的语义,并编写自定义代码将这些值分离到不同的列中。在其他情况下,样本特征存储为键值。例如,同一患者可能表示为性别=女性;年龄=52;药物=阿那曲唑。这种方法提供了一些语义信息,但二级研究人员仍然需要解析数据点。此外,缺少值可能会导致问题。在一些GEO数据集中,给定行的样本级注释被向左移动以填充空单元格。因此,给定列可能包含多个变量的数据。为了分析这些数据,研究人员需要重新调整这些值。 

在许多情况下,这些不一致违反了“整齐数据”原则,即每一列应该描述一个变量,每一行应该代表一个特定的观测(样本),每一个表应该代表一个特定类型的观测单元。当数据符合这些原则时,它们有利于不同类型的定量分析,使研究人员能够设计出跨数据集推广的分析策略。 

其他挑战与语义有关。列的名称通常不能反映这列中存储的数据。例如,Huang等人生成了Wilms肿瘤患者的基因表达数据(GEO存储号: GSE10320)。样本水平的注释表明每个患者的临床结果: “复发未复发。包含这些值的列被标记为“characteristics_ch1”。当研究人员分析这些数据时,他们可能希望重命名列,使其更具描述性。另外,实际数据值可能缺乏标准化。例如,同一个小组最近发布的一个数据集使用值来指示给定的Wilms肿瘤患者是否复发。如果二级研究人员希望合并这些数据集,他们需要修改数据,使用通用词汇来描述复发状态。最后,在一些二次分析中,研究人员希望使用可用样本的一个子集。例如,他们可能希望将重点放在复发的Wilms肿瘤患者身上。 

对于一些研究人员来说,编写自定义代码来解决这些问题中的任何一个都可能是微不足道的。然而,许多数据集需要多个这样的转换,并且这些任务在数据集之间差异很大。为每个数据集执行这些任务是低效的,并且使缺乏计算技能的研究人员无法进行二次分析。为了解决这个问题,Avery等人创建了TidyGEO(图1https://github.com/srp33/TidyGEOhttps://bioapps.byu.edu/TidyGEO/),这是一个交互式Web应用程序,使研究人员能够下载、整理和重组GEO系列,使其成为适合下游分析的形式。与主要关注分子分析数据的其他工具不同,TidyGEO强调整理样本级别的注释。然而,TidyGEO也提供了整理分子分析数据的选项。用户可以创建数据的图形摘要,也可以下载图形文件。此外,用户可以以各种格式导出数据。 

   image.png

1 TidyGEO网页界面 

在本文中,作者们更详细地描述了TidyGEO的功能,并描述了使用它整理GEO系列的结果。此外,强调了计算重现性的重要性,并描述了TidyGEO确保整理步骤可以重现的方法。最后,描述了用于查找、互操作和重用GEO数据的现有工具的现状,并且指出TidyGEO是如何适应这一景观的。

 

参考文献

[1] Avery Mecham, Ashlie Stephenson, Badi I. Quinteros, Grace Salmons, Stephen R. Piccolo. TidyGEO: Preparing analysis-ready datasets from Gene Expression Omnibus. 2023, https://doi.org/10.1101/2023.02.09.527930

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

 

image.png




https://blog.sciencenet.cn/blog-571917-1413916.html

上一篇:长链非编码RNA定义、功能、挑战和建议
下一篇:患者分层的网络医学:从单层到多组学
收藏 IP: 39.129.48.*| 热度|

3 杨正瓴 宁利中 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-23 19:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部