zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

ICU数据分析的R接口:ricu

已有 1458 次阅读 2023-6-30 13:04 |个人分类:科普|系统分类:科普集锦

ICU数据分析的R接口:ricu 

近年来,电子健康记录的收集有了显著的增长,为大量数据驱动研究提供了机会和基础,这些研究旨在帮助临床医生做出决策,从而改善患者护理和健康结果。虽然越来越多收集到的患者数据可能不容易被重症医师用于决策,但这为机器学习(ML)方法的应用提供了机会。

一个受到ML界广泛关注的问题是重症监护室(ICU)脓毒症的早期预测。有趣的是,有证据表明,关于该主题的大部分出版物都基于相同的数据集,即集约化医疗信息市场III (MIMIC-III),这表明系统缺乏外部验证。最近,一项研究再次强调了这一问题,该研究表明,广泛采用的脓毒症预测模型在外部验证方面表现不佳。 

造成这个问题的原因很可能是缺乏处理多个数据集的计算基础设施。MIMIC- III数据集由26个不同的表组成,包含大约20GB的数据。虽然在数据预处理方面投入了大量的工作和精力,以便用MIMIC-III提供一个独立的现成的数据资源,但看起来很简单的任务,如计算败血症-3标签仍然是一项艰巨的工作。在调查MIMIC-III的研究中,满足脓毒症-3标准的患者数量存在相当大的异质性。报道的脓毒症-3患病率从11.3%,超过23.9%25.4%,最高可达49.1%。虽然这种差异可以通过不同的患者纳入标准来解释,但标签实施的差异也必须起到重要作用。为了描绘不同实践和演示物理的影响,当目标是整合多个不同形式的数据集(这些数据集跨越医院甚至国家)时,这种情况只会加剧。 

考虑到ICU数据的某些特定焦点,可能会对当前可用数据的异质性感到惊讶。例如,在MIMIC-III和高时间分辨率ICU数据集(HiRID)中,时间戳被报告为绝对时间(尽管由于数据隐私问题而随机移动),而电子ICU (eICU)和阿姆斯特丹大学医学中心数据库(Amsterdam University Medical Center Database)使用相对时间(起点是入院时间)。另一个例子涉及不同类型的患者标识符及其在数据集中的使用。所有人都有ICU入院标识符(ID)的概念,但其中一部分,可用信息的数量各不相同:虽然在某些数据集中可以识别特定患者的ICU(和医院)再入院情况,但这在其他数据集中是不可能的。此外,标识符系统的使用可能在表之间不一致。例如,在MIMIC-III中,一些表引用ICU住院ID,而另一些表使用医院住院ID,这对于固定ID系统来说会使数据和属性稍微复杂一些。此外,表的布局各不相同(长数据与宽数据排列),数据组织通常与数据集的一致性相差甚远。 

鉴于上述背景,ricu工具的目标是提供计算基础设施,允许用户尽可能轻松地在重症监护医学背景下调查复杂的研究问题,通过向异构数据源集引入统一的界面。该包允许用户编写与数据集无关的代码,从而简化实现并缩短代码原型化所需的时间——查询不同的数据集。在目前的形式下,该应用程序处理了5个大规模的、公开可用的密集的数据库: MIMIC-III数据库、eICU数据库、HiRID数据库; UMCdb数据库、MIMIC-IV数据库。此外,ricu工具在设计时考虑了可扩展性,因此可以添加新的公共和/或私有用户提供的数据集。在统计学家和数据分析师中流行的编程语言R中实现,Bennett等人希望通过熟悉的环境和很少的系统依赖,考虑简化设置,从而为易于访问和易于生产的数据研究做出贡献。 

为多个ICU数据集提供公共接口的基础设施是一个新颖的贡献。虽然已经有一些努力试图通过数据集的一些细节抽象出一种方法,但到目前为止,这些方法只集中在MIMIC-III上(这是最流行的公共ICU数据集),并且在设计时没有考虑到数据集的互操作性。值得一提的是,ROMOPPatient-tExploreR等软件为与 OMOP公共数据模型兼容的数据提供了一些有用的基础设施,但ricu工具支持的数据集异质性限制了根据这种数据模型组织数据的能力。 

总之,Bennett等人开发的ricu包允许用户从MIMIC-IIIMIMIC-IVeICUA UMCdbHiRID数据集中加载119个临床概念。现在,科学研究团体可以使用该应用程序,通过缩短开发计算基础设施的过程来节省时间,促进可生产的科学研究,并允许科学研究人员测试其科学假设和模型的外部有效性和稳健性。 

ricu工具链接为:https://cran.r-project.org/package=ricu,对临床医疗数据分析感兴趣的可以使用ricu工具包。

 

参考文献

[1] Bennett N, Plečko D, Ukor IF, Meinshausen N, Bühlmann P. ricu: R's interface to intensive care data. Gigascience. 2022 Dec 28; 12:giad041. doi: 10.1093/gigascience/giad041.

 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

 image.png 




https://blog.sciencenet.cn/blog-571917-1393547.html

上一篇:单细胞分辨率下的胶质母细胞瘤异质性
下一篇:进化博弈论对理解和治疗癌症的贡献
收藏 IP: 202.203.17.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 21:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部