||
ICU数据分析的R接口:ricu
近年来,电子健康记录的收集有了显著的增长,为大量数据驱动研究提供了机会和基础,这些研究旨在帮助临床医生做出决策,从而改善患者护理和健康结果。虽然越来越多收集到的患者数据可能不容易被重症医师用于决策,但这为机器学习(ML)方法的应用提供了机会。
一个受到ML界广泛关注的问题是重症监护室(ICU)脓毒症的早期预测。有趣的是,有证据表明,关于该主题的大部分出版物都基于相同的数据集,即集约化医疗信息市场III (MIMIC-III),这表明系统缺乏外部验证。最近,一项研究再次强调了这一问题,该研究表明,广泛采用的脓毒症预测模型在外部验证方面表现不佳。
造成这个问题的原因很可能是缺乏处理多个数据集的计算基础设施。MIMIC- III数据集由26个不同的表组成,包含大约20GB的数据。虽然在数据预处理方面投入了大量的工作和精力,以便用MIMIC-III提供一个独立的现成的数据资源,但看起来很简单的任务,如计算败血症-3标签仍然是一项艰巨的工作。在调查MIMIC-III的研究中,满足脓毒症-3标准的患者数量存在相当大的异质性。报道的脓毒症-3患病率从11.3%,超过23.9%和25.4%,最高可达49.1%。虽然这种差异可以通过不同的患者纳入标准来解释,但标签实施的差异也必须起到重要作用。为了描绘不同实践和演示物理的影响,当目标是整合多个不同形式的数据集(这些数据集跨越医院甚至国家)时,这种情况只会加剧。
考虑到ICU数据的某些特定焦点,可能会对当前可用数据的异质性感到惊讶。例如,在MIMIC-III和高时间分辨率ICU数据集(HiRID)中,时间戳被报告为绝对时间(尽管由于数据隐私问题而随机移动),而电子ICU (eICU)和阿姆斯特丹大学医学中心数据库(Amsterdam University Medical Center Database)使用相对时间(起点是入院时间)。另一个例子涉及不同类型的患者标识符及其在数据集中的使用。所有人都有ICU入院标识符(ID)的概念,但其中一部分,可用信息的数量各不相同:虽然在某些数据集中可以识别特定患者的ICU(和医院)再入院情况,但这在其他数据集中是不可能的。此外,标识符系统的使用可能在表之间不一致。例如,在MIMIC-III中,一些表引用ICU住院ID,而另一些表使用医院住院ID,这对于固定ID系统来说会使数据和属性稍微复杂一些。此外,表的布局各不相同(长数据与宽数据排列),数据组织通常与数据集的一致性相差甚远。
鉴于上述背景,ricu工具的目标是提供计算基础设施,允许用户尽可能轻松地在重症监护医学背景下调查复杂的研究问题,通过向异构数据源集引入统一的界面。该包允许用户编写与数据集无关的代码,从而简化实现并缩短代码原型化所需的时间——查询不同的数据集。在目前的形式下,该应用程序处理了5个大规模的、公开可用的密集的数据库: MIMIC-III数据库、eICU数据库、HiRID数据库; UMCdb数据库、MIMIC-IV数据库。此外,ricu工具在设计时考虑了可扩展性,因此可以添加新的公共和/或私有用户提供的数据集。在统计学家和数据分析师中流行的编程语言R中实现,Bennett等人希望通过熟悉的环境和很少的系统依赖,考虑简化设置,从而为易于访问和易于生产的数据研究做出贡献。
为多个ICU数据集提供公共接口的基础设施是一个新颖的贡献。虽然已经有一些努力试图通过数据集的一些细节抽象出一种方法,但到目前为止,这些方法只集中在MIMIC-III上(这是最流行的公共ICU数据集),并且在设计时没有考虑到数据集的互操作性。值得一提的是,ROMOP和Patient-tExploreR等软件为与 OMOP公共数据模型兼容的数据提供了一些有用的基础设施,但ricu工具支持的数据集异质性限制了根据这种数据模型组织数据的能力。
总之,Bennett等人开发的ricu包允许用户从MIMIC-III、MIMIC-IV、eICU、A UMCdb和HiRID数据集中加载119个临床概念。现在,科学研究团体可以使用该应用程序,通过缩短开发计算基础设施的过程来节省时间,促进可生产的科学研究,并允许科学研究人员测试其科学假设和模型的外部有效性和稳健性。
ricu工具链接为:https://cran.r-project.org/package=ricu,对临床医疗数据分析感兴趣的可以使用ricu工具包。
参考文献
[1] Bennett N, Plečko D, Ukor IF, Meinshausen N, Bühlmann P. ricu: R's interface to intensive care data. Gigascience. 2022 Dec 28; 12:giad041. doi: 10.1093/gigascience/giad041.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 19:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社