数据,模型,决策分享 http://blog.sciencenet.cn/u/郭崇慧 自强不息,厚德载物

博文

电子病历挖掘——“大数据与智能决策”讨论班

已有 3365 次阅读 2019-11-14 10:46 |个人分类:科研笔记|系统分类:科研笔记| 电子病历挖掘, 电子健康记录

电子病历与电子健康记录

病历是患者在医院诊断治疗全过程的原始记录,它包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等。电子病历(Electronic Medical Record,EMR)涉及患者信息的采集、存储、传输、处理和利用的所有过程信息。EMR是基于一个特定信息系统的电子化患者记录,该信息系统提供用户访问完整准确的数据、警示、提示和临床决策支持系统的能力。EMR是患者在诊断和治疗过程中产生的数字医疗信息文档,是“以医疗为中心”的数字化健康档案。EMR根据医院治疗业务流程和需要设计,满足了医院业务和管理的要求。

image.png

图1  EMR、HER和PHR三个术语之间的关系

与电子病历(EMR)比较接近的另外两个术语是电子健康记录(Electronic Health Record,EHR)和个人健康记录(Personal Health Record,PHR)。EHR与EMR几乎相同,但是它超出了在一个医院收集的临床数据。实际上,它代表了参与患者治疗和护理的所有临床医生的健康数据的汇总。电子健康档案(EHR)是以医院的电子病历为主体,以信息共享为核心的数字化健康档案。EHR跨越不同的机构和系统,在不同的信息提供者和使用者之间实现医疗信息互换和共享。EHR将为提高患者的安全、提高医疗质量、改善健康护理、推进患者康复和降低医疗费用而做出贡献。

个人健康档案(PHR)是个人健康、保健和诊断治疗的数字记录,是“以人为本”的数字化健康档案。PHR是真正意义上的个人终身健康档案,实际上是个人的健康史和人生的健康档案。

基于深度学习技术的电子健康记录挖掘

文献:Benjamin Shickel, Patrick James Tighe, Azra, Bihorac, Parisa Rashidi. Deep EHR: A Survey of Recent Advances in Deep Learning Techniques for Electronic Health Record (EHR) Analysis[J]. IEEE Journal of Biomedical and Health Informatics,2018, 22(5): 1589–1604.

论文主要介绍了与EHR相关的一些深度学习技术,并且具体地介绍一些深度学习在EHR中的应用。

在过去几年,用于分析电子健康记录数据的最主要手段还是传统的机器学习以及统计分析的方法,例如使用逻辑回归、支持向量机、随机森林等等。由于深度学习技术的崛起以及患者电子健康记录数据量的巨增,关于深度学习在电子健康记录挖掘中应用研究在近些年获得了越来越多的关注。近些年深度学习技术在一些领域取得了很耀眼的成绩,在深层次的特征构建、捕捉长程关联方面有很好的表现。这些研究中提出了很多优于传统技术的方法,其中最明显的优势是免去了很多预处理与特征工程的工作。

电子健康记录系统可以用于存储与患者有关的用药历史、并发症、药物使用等相关的信息,其最初是为医院内部的经营任务所设计的,其中存在着一些特定信息分类样式和受控词汇表来记录相关的信息和事件。其中最重要的就是诊断编码。根据描述的对象不同,诊断编码主要可以分为疾病分类标准编码、手术操作标准编码、临床检验标准编码、药品标准编码。这些编码在不同的机构中存在着差异性。将跨机构、跨术语之间的数据进行协调与统一是一个值得研究的领域。在一些关于深度EHR的研究中,研究者通过表示学习的方法,形成一套编码表示,使他们能够更有效地完成跨机构的分析。

EHR系统中存储的数据具有异质性的特点,例如有数值型数据、时间对象、类别的数值、自然语言、时间序列等。这些数据含义、类型的差异为EHR数据的分析和应用带了很大的挑战。

在深度学习应用的这个章节,论文列出了一些将深度学习技术应用于EHR的研究,这些研究中很多的应用场景和结果都是基于公开的数据集。这些数据集来源于一些独立的健康医疗机构,如MIMIC数据集、临床笔记数据集i2b2。

深度EHR的第一大应用就是信息提取(Information Extraction, IE),即将电子健康记录中非结构化的数据进行结构化抽取。EHR中包含一些用于账单记录、经营管理的部分,这些主要是结构化的部分,除此之外,还有与每一位病患相关的临床笔记,可能有入院记录、出院总结、转移情况的记录等等,而这些数据通常都是非结构的数据,这也就意味着需要大量的人工去进行特征工程、本体映射的工作。电子健康记录信息提取的主要任务可以分为单一概念提取、时间事件提取、关系提取、缩写扩写四个部分。所谓单一概念提取即为将文本中的词语进行概念归类,在“Structured prediction models for RNN based sequence labeling in clinical text”一文中,将概念抽取的工作看作是一种给序列数据打标签的工作,即将九种诊疗相关的标签打给临床笔记中的每一个词。这些标签包含如药物种类、疾病类别等。

时序事件的抽取主要是关注于将文本中抽取出的时间概念分配给抽取出的医疗概念。在“Recurrent neural networks vs. joint inference for clinical temporal information extraction”一文中,通过在TIMEX3与EVENT TEMPORAL ENTITIES两个语料库进行预训练,实现了电子健康记录文本中时间概念的提取工作。关系抽取主要是在自由文本中抽取出医疗概念之间的结构化关系,例如某种治疗方式提升、恶化、导致了某个事件等等。在做以上概念抽取、关系抽取之前,将文本中的缩写扩写为全称是很关键的。目前已开发出较为稳定的框架以完成此项工作。

深度EHR的第二大应用是表示学习。主要涉及概念表示、患者表示、结局预测、计算表现、患者去身份化五个方面。现代EHR系统中的记录通常都由大量地离散地医疗编码组成,这些编码可以描述病患就诊的各个方面。但是这些静态的分层编码没有办法去量化不同类型、模式编码里的一些概念中所具有的相似性。在概念表示方面,最近的一些研究者将无监督的深度表示学习方法应用于产生EHR概念向量,这种做法的目的是将离散、稀疏的编码用向量的方式来表示,从而使得一些概念能够在低维度的空间中呈现出相似性与关联性。当这种向量表示的方法得到实现之后,那些来自于不同种类的数据可能够被挖掘出相互之间的模式,发现其中的相似性,然后可以定性地借助很多可视化的手段来分析。在概念表示的基础之上,患者也可以由一系列的概念进行表示,从而实现特定的任务诸如结局预测的任务。该任务主要分为静态预测或者叫做单次预测和一段时间内的预测两种类型。主要的区别是两种预测所使用的数据类型不同,前者使用病患单次就诊的数据,后者是使用一个时间间隔内的数据。此外,表示学习还可以用于发现新的一些疾病表现,这通常被当作无监督学习的任务。近来很多研究者将自动编码器的方法应用到这个领域中。通过对数据进行降维,用更低纬度的表示,可以发现一些潜在的结构,从而发现一些新的表现。最后,表示学习也被用作完成电子健康记录中患者的敏感信息去除工作。

在医疗健康领域,模型的可解释性非常重要,论文中总结了四种类型的方式以提升深度学习的可解释性,即最大激活、添加模型约束、定性聚类、模仿学习四种,但这些方法或受模型种类、数据集本身的限定。

在讨论展望部分,论文主要针对数据的异质性、不规则表示、研究基准等方面介绍了一些现有研究的问题以及未来有价值的研究领域。

备注:2019年10月22日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以电子病历挖掘为题,共讨论了一篇文献,由硕士生进行讲解,共有青年教师、博士后、博士生和硕士生16人参加。




https://blog.sciencenet.cn/blog-34250-1206136.html

上一篇:意见挖掘——“大数据与智能决策”讨论班
下一篇:知识图谱与关系预测——“大数据与智能决策”讨论班
收藏 IP: 202.118.103.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 08:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部