||
生物医学领域每天都在产生海量的研究文献,这些文献就像一座巨大的知识宝库,蕴含着推动医学进步的重要信息。传统上,科研人员需要通过人工阅读和整理这些文献,从中提取重要的生物医学信息,并将其汇总到专业数据库中(如KEGG和Reactome等知识库)。这些知识库就像是精心整理的图书馆,为生物学研究和临床医生的决策提供重要参考。
然而,随着科技发展,生物医学研究论文的数量呈现爆炸式增长。仅靠人工来阅读、筛选和整理这些文献已经变得异常困难,不仅耗时耗力,还需要投入大量人力和财力资源。这就像是要用手工方式来整理一个永远不停增长的图书馆,这项工作变得越来越具有挑战性。
值得欣喜的是,人工智能(AI)技术的快速发展为解决这一难题带来了曙光。现代AI技术,特别是自然语言处理和机器学习算法,可以像训练有素的助手一样,自动阅读和理解文献内容,快速识别关键信息,并将这些信息系统地整理归类。这不仅大大提高了文献知识管理的效率,还能帮助研究人员更好地发现和利用已有的研究成果,推动生物医学研究的创新和发展。
本文将分享人工智能,包括ChatGPT在检索生物医学知识,汇总和撰写文章、回答问题和模仿人类对话的能力的一些方法特点,并强调使用自动程序中管理生物医学实体和关系的巨大潜力,同时注意一些局限性。
01基于AI的文本挖掘应用基因、蛋白质和它们之间的关系在生物医学文献中有报道。基于AI的文本挖掘工具利用自然语言处理(NLP)来促进实体识别和关系提取。
AI技术在生物医学文献挖掘中的应用范围
doi.org/10.1515/mr-2023-0011
该图包括两个面板,展示了人工智能(AI)在文本挖掘(左侧)和图像理解(右侧)中的不同方向和应用。
左侧面板红色框概述了文本挖掘中涉及的各种任务;
右侧面板突出显示了绿色框,表示生物医学文献挖掘背景下的图像理解任务。
该图还包括一些蓝框,列举了一些有前途的人工智能进步,旨在解决当前人工智能方法在生物医学文献挖掘方面的局限性。
图中的外圈描绘了生物医学文献挖掘中的一些典型AI应用。
命名实体识别
命名实体识别(Named Entity Recognition,NER)是自然语言处理的一个典型任务,它是从生物医学文献中标注和识别生物概念的名称,如蛋白质、基因、化合物、药物、疾病等。
◆ NER有助于从科学文章中提取关键的生物学概念,帮助建立生物本体和知识库
例如,给定句子“BRCA 1中的突变与乳腺癌和卵巢癌的风险增加有关”,NER工具可以将单词“BRCA 1”标记为基因,并将单词“乳腺癌”和“卵巢癌”标记为疾病。
◆ NER的一个主要瓶颈是,同一个生物医学实体可能会使用非标准的缩写和术语
例如,转录因子“C/EBP-β”也被称为“NF-IL6”;蛋白质“Arnt”有时被称为“HIF1-β”。
◆ 一些实体还嵌套其他实体
例如,蛋白质实体“丙氨酸氨基转移酶”含有化学实体“丙氨酸”。
为了解决上述挑战,可以使用生物医学实体链接(也称为实体规范化或实体接地)来将模糊实体映射到来自本体(诸如基因本体)的规范化的唯一标识符。
关系抽取
关系提取(RE)是建立在NER基础上的,它涉及识别先前发现的实体之间的关系。
关系提取专注于揭示连接,例如蛋白质-蛋白质相互作用、基因-疾病关联、基因型-表型关系、化学-蛋白质相互作用和药物-药物相互作用。
关系提取是通过在给定的句子中识别实体对和关系类型来制定的。
典型的文本挖掘技术
基于人工智能的NER方法可以:
学习上下文并对单词语义进行建模,以区分具有生物学意义的概念与其余单词
例如,PubTator被设计用于标记六种类型的生物学概念,包括基因/蛋白质,基因变体,疾病,化学物质,物种和其他生物学出版物的摘要或全文。
传统上,标记的生物实体可以通过执行模糊字符串匹配来映射到它们的标准形式。与此同时,最近的研究在神经网络构建的潜在空间(嵌入)中改进了这种映射。
其他一些基于AI的RE技术采用生物医学句子的上下文表示来检测生物医学实体关系。它们从语义和句法方面以及从多个角度提取和聚合句子的特征以识别关系。沿着这条路线,最近的研究将关系挖掘从句子级别移动到文档级别,以进一步丰富知识提取结果。
预训练模型
基于人工智能的文本挖掘通常依赖于通过自监督学习在大规模Web语料库上预训练模型的鲁棒语义表示。预训练的模型可以用相对较小的数据集针对特定任务进行进一步微调。一些著名的NLP模型包括BERT、T5和GPT。
► BioBERT 是一种广泛使用的特定于领域的语言表示模型,从通用BERT模型开始,在大规模生物医学语料库(PubMed摘要和PMC全文文章)上进行预训练。BioBERT能够扩展到生物医学NER,RE和问答(QA)。
●双向编码器表示:
BioBERT采用双向Transformer架构,利用注意力机制学习输入文本的上下文信息,从而生成高质量的语言表示。这种双向表示方式使得BioBERT在处理复杂的生物医学文本时表现优异,能够更好地理解单词在不同上下文中的含义。
●开放源代码:
项目完全开源,允许开发者和研究人员自由使用、修改和分发。
●预训练模型可用:
提供预训练模型,开发者可以直接用于下游任务,无需从头开始训练。
●易于集成:
兼容Hugging Face的transformers库,方便与其他自然语言处理工具包整合。
► PubMedBERT 是使用PubMed的摘要和PubMedCentral的全文文章从头开始进行预训练。
► SciFive 是一个在大型生物医学语料库上预训练的特定领域T5模型,用于文本理解任务(即,NER、RE和QA)和生物医学文本生成。
它在多种生物医学NLP任务上取得了出色的表现,特别是在问答任务上明显优于BERT系列模型。SciFive的预训练语料选择也具有灵活性,可以根据不同任务需求进行调整。
作为一个文本生成模型,SciFive还可以应用于更复杂的任务,如文档摘要和文章生成等,为生物医学领域的知识获取和内容创作提供支持。
► BioGPT 从头开始使用1500万个PubMed摘要预训练GPT-2模型,以生成生物医学术语的流畅描述。
它可以应用在哪些方面?
● 药物发现:
BioGPT击败了所有以前的语言模型,用于实体(药物,疾病和蛋白质)之间的关系提取。BioGPT可以帮助自动分析不断扩大的科学文献,更好地了解疾病机制并识别潜在药物靶点。
● 精准医疗:
它涉及根据个体患者的基因组成、生活方式和环境因素,为他们的特定需求量身定制医疗。BioGPT可以帮助研究人员从大型数据集中识别基因突变、疾病途径和其他相关信息,从而为患者制定个性化的治疗计划。
● 提高药物安全性:
BioGPT在预测药物相互作用方面击败了其他模型,可以帮助临床医生预测药物组合的潜在副作用并提高药物安全性。
● 临床试验设计和分析:
BioGPT可用于提取和分析临床试验数据,帮助研究人员设计更有效的试验,并更准确地分析试验结果。
●竞争对手分析:
BioGPT可用于分析科学文献和专利数据库,以识别潜在竞争对手并评估竞争格局。
● 科学交流:
BioGPT可用于生成科学文献和其他信息来源的摘要,使业务开发专业人员更容易快速理解和交流关键见解。帮助医疗保健专业人员跟上最新的研究和临床发现。
● 疾病诊断和管理:
BioGPT可用于分析患者数据、医疗记录和科学文献,以帮助更有效地诊断和管理疾病。
基于AI的生物医学文献挖掘方法
doi.org/10.1515/mr-2023-0011
02基于人工智能的路径图挖掘
除了文本,生物医学文献还以数字的形式包含有价值的知识。研究人员经常使用图表(例如生物学途径)来总结他们在出版物中关于导致生物过程或疾病的分子事件的发现。
基于人工智能的图像理解技术的进步提高了我们从路径图中提取实体和关系的能力,这些能力可用于补充从文本中提取的相同知识。
doi.org/10.1515/mr-2023-0011
从路径图中挖掘生物实体
早期基于AI的方法使用光学字符识别(OCR)技术提取生物医学实体,以从路径图中恢复基因名称。由于非标准缩写和术语的挑战,这种方法需要领域专家手动创建一些实体规范化规则来为基因名称提供基础。一项研究将这种方法应用于过去25年出版物中的通路图,并识别出通路数据库中缺失的数千个基因。
从路径图挖掘生物相互作用
Pathway Curator 旨在从途径图中提取分子实体及其相互作用。
管道集成了图像理解模型和图像处理策略,以捕获图中路径实体的位置,名称和相互作用。
管道可以使用符号识别基因,并使用箭头(用于上调)或T形条(用于抑制)识别基因关系。
技术特点:
基于RetinaNet网络模型构建
通过大量生物通路图进行训练
支持上传单张图片或ZIP文件(最大20MB)
集成了图像分析和文本挖掘能力
输出展示:
提供多种结果展示形式:基因信息表格、关系信息表格、带标注框的可视化图像
支持链接到GeneCard和Uniport等在线基因数据库
支持结果下载保存
实用优势:
自动化提取过程,减少人工操作
比纯文本挖掘更准确
显著提高研究效率
可提供跨文献的综合视角
所有成功预测任务都会存储在数据库中,便于管理和查询
Pathway Curator为生物文献挖掘中的文本挖掘提供了一种补充方法,并在多个出版物中全面了解疾病途径。方法可以扩展到其他RE任务的数字,如microRNA基因和化学蛋白质的相互作用。
03挑战和前景尽管人工智能技术,特别是深度学习算法,已经显示出在自动程序中管理生物医学实体和关系的巨大能力,但人工智能技术的一些局限性仍然阻碍着人工文献管理的替代:
1)来自生物医学文献的有限注释数据。由于大量的出版物和使用的表达方式的多样性,为人工智能训练注释足够的生物医学概念和关系是具有挑战性的。在生物医学文献挖掘中,标记数据的数量和质量对AI模型的鲁棒性起着至关重要的作用。
2)当前人工智能从已建立的词汇表中发现对象的能力的局限性。目前,大多数人工智能方法都是建立在预定义的语料库或预先标记的数据集上。这种数据依赖性限制了AI技术挖掘词汇表之外对象的能力。
3)当前人工智能在处理文献不一致性方面的能力有限。生物医学文献包含过时或不正确的陈述,这可能会误导人工智能方法。
人工智能技术的快速发展,特别是深度学习方法,为管理生物医学知识创造了新的机会。OpenAI推出的基于人工智能的聊天机器人(ChatGPT)以其撰写文章、回答问题和模仿人类对话的能力给用户留下了深刻印象。
ChatGPT拥有全面的知识库,可根据用户的要求检索生物医学知识,为生物医学领域更高效、更准确的知识挖掘铺平道路。虽然ChatGPT目前经常提供不正确或不可复制的信息,但不断升级和更好的快速学习技术为更准确和可靠的生物医学知识挖掘提供了潜力。
ChatGPT还可以进行更多的训练/调整,以针对生物医学领域,特别是建立假设,寻找新的药物靶点,并生成新的小分子和抗体。它有望改变掌握知识和技能的方式,辅助医生进行临床决策,减少医疗差错。
几种新的人工智能方法具有很大的潜力,可以从文本和图形两种形式推进文献挖掘。主动学习允许使用新标记的数据迭代地训练模型,这为针对有限的注释数据逐步升级AI模型提供了机会。根据人类反馈的强化学习(RLHF)通过将预测与人类价值观和偏好对齐来增强人工智能算法的鲁棒性和通用性。通过整合人类反馈,RLHF可以提高AI预测的准确性和可靠性,超越注释数据的限制。
此外,针对多模态的对比学习(即文本和图像)使得能够学习相应文本和图像之间的公共(联合)语义表示,例如,一个基因名称'AKT'在文本和图像片段包含'AKT'更好的性能。此外,元学习和少量学习策略也有望将大规模通用语料库上的AI技术建模推广到生物医学特定领域。
在临床实践中,各种临床文件,如电子健康记录(EHR)和病理报告(PR),包含重要的生物医学和病理信息,这些信息可以从应用人工智能技术进行大规模管理中受益。一些研究已经为EHR 和PR开发了基于AI的挖掘工具,这些工具利用与文献挖掘中使用的技术类似的技术来识别诊断实体和非结构化文本和生物医学图像的关系。
整合生物医学文献和临床文档的挖掘结果可以促进临床研究和精准医学。这种方法为未来的医学研究和患者护理带来了巨大的希望。
生物医学文献的快速增长为生物医学知识挖掘带来了机遇和挑战。随着前沿人工智能技术在生物医学文献挖掘中的应用,生物医学研究和临床实践的相关注释、预测和知识库建设步伐将加快。
主要参考文献
He F, Liu K, Yang Z, Hannink M, Hammer RD, Popescu M, Xu D. Applications of cutting-edge artificial intelligence technologies in biomedical literature and document mining. Med Rev (2021). 2023 Jun 27;3(3):200-204.
da Silva, R.G.L. The advancement of artificial intelligence in biomedical research and health innovation: challenges and opportunities in emerging economies. Global Health 20, 44 (2024)
Hosseini, M., Hosseini, M. & Javidan, R. Leveraging Large Language Models for Clinical Abbreviation Disambiguation. J Med Syst 48, 27 (2024).
Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H, Liu TY. BioGPT: generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 2022 Nov 19;23(6):bbac409.
本文转自:谷禾健康
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 20:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社