||

结肠镜检查目前是结直肠癌最为精准的筛查方法之一。本文旨在探讨智能结肠镜技术的研究前沿及其在多模态医学应用中的潜在影响。为此,我们首先从数据驱动和模型驱动两个角度,对结肠镜场景感知的四类任务进行评估,包括分类、检测、分割以及视觉语言理解。评估结果揭示了该领域的特定挑战,并强调了在结肠镜研究中进一步开展多模态研究的必要性。针对这些问题,本文构建了三项基础性资源:大规模多模态指令微调数据集 ColonINST、面向结肠镜设计的多模态语言模型 ColonGPT,以及一个多模态基准测试平台。为推动该快速发展领域的持续进展,我们还建有一个公开网站以发布最新进展:
https://github.com/ai4colonoscopy/IntelliScope

图片来自Springer
全文下载:
Frontiers in Intelligent Colonoscopy
Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan & Deng-Ping Fan
https://link.springer.com/article/10.1007/s11633-025-1597-6
全文导读
尽管在高收入国家中结直肠癌(CRC)的发病率有所下降,但它仍然是全球第三大常见癌症,并且在发展中国家的发病率正在上升。作为一种高效的结直肠癌筛查方法,结肠镜检查通过一根配备摄像头的柔性管道,对结肠内部进行可视化检查。如图1(a)所示,该临床操作还可以借助套圈器、活检钳和电灼设备等专用器械进行干预,用于切除锯齿状息肉和腺瘤性息肉等癌前病变。近期一项研究表明,在结肠镜检查中引入人工智能(AI)技术,与传统方法相比,可将结直肠肿瘤的漏检率降低约50%。这一成果激励我们进一步探索智能结肠镜领域的研究前沿。
结肠镜检查是一种内窥镜光学成像技术。由于结肠解剖结构复杂且具有多重褶皱,其成像通常会出现光照不均以及视觉模式同质化等问题,这些特点与通用图像数据(如ImageNet)存在明显差异。这表明,在解读结肠镜数据时需要采用专门的方法。基于此,我们首先对结肠镜领域最新的智能技术进行了系统调研,对当前研究格局进行评估,以梳理该领域特有的挑战和尚未充分探索的研究方向。分析结果表明,结肠镜领域的多模态研究仍然基本处于空白状态。为弥补这一不足,我们总共做了以下三项工作,如图1(b)所示。

图1 结肠镜概述与研究亮点:(a) 展示了消化道中大肠(结肠)的解剖结构、结肠镜检查过程中息肉切除(polypectomy)操作示意,以及结肠镜的组成部件。(b) 总结了本研究的三项主要亮点。
主要贡献
1)我们从数据驱动与模型驱动两个视角,对四类结肠镜场景感知任务(见图2)的最新研究进展进行了系统梳理。研究总结了自2015年以来发表的63个数据集和137种具有代表性的深度学习方法的关键特征,并进一步分析了该领域的新兴趋势与未来研究方向。
2)我们提出ColonINST,这是一个面向多模态研究的开创性指令微调数据集,旨在指导模型以交互方式执行用户驱动的任务。该数据集整合自19个公开数据源,包含303,001张结肠镜图像,覆盖62个子类别,反映了结肠镜检查过程中可能出现的多样化场景。我们从两个方面扩展了这些视觉样本:首先,利用多模态AI聊天机器人GPT-4V生成128,620条医学图像描述;其次,对450,724条人机对话进行了结构化重构,以支持多模态适配。
3)基于上述指令微调数据,我们构建了一个多模态语言模型ColonGPT,可通过交互式对话为内镜医生提供辅助。为保证普通研究人员能够复现实验,我们以资源友好的方式实现该模型:采用0.4B参数的视觉编码器SigLIP-SO和1.3B参数的轻量级语言模型Phi-1.5。不同于以往视觉—语言(VL)连接方法通常使用多层感知机对视觉编码器输出的所有token进行等权处理,我们提出了一种多粒度适配器(multigranularity adapter),能够根据视觉token的重要性进行选择性采样。该策略在不降低性能的情况下,将视觉token数量减少至原来的34%,并在我们新构建的多模态基准测试的三项任务中取得了最佳性能。此外,该模型仅需两张 NVIDIA H200 GPU在约7小时内即可完成训练,从而有助于后续研究快速开展概念验证。

图2 从视觉到多模态视角的结肠镜场景感知。
在临床实践中,纯视觉任务——包括(a)分类、(b)检测和(c)分割——主要用于识别感兴趣目标,例如息肉和内镜器械。(d)多模态应用则通过执行与临床需求相契合的交互式、用户驱动任务,进一步提升结肠镜操作流程。例如,聊天机器人可以提供个性化建议、自动生成检查报告,并优化操作流程。
研究范围
本研究与现存文献存在多方面的差异。早期关于传统方法与深度学习的综述多集中在2020年以前,已无法涵盖当下的最新成果。尽管近期有研究探讨了结肠镜的多种应用,例如质量分析和异常检测,但缺乏系统的数值验证。另一些基准研究则仅局限于特定且较为狭窄的研究子领域。相比之下,我们围绕结肠镜场景感知的四类任务展开深入分析,并评估其当前发展状况,以识别关键挑战和尚未充分研究的方向。更重要的是,我们的研究视角超越了上述局限,通过为多模态领域的后续发展奠定基础来推动该方向的进步。为此,我们开展了三项工作:构建多模态指令微调数据集、开发多模态语言模型,以及建立多模态基准测试平台。
论文结构
本文结构安排如下:第2节介绍研究的历史背景,并讨论该领域所面临的独特挑战;第3节对63个结肠镜相关数据集进行系统梳理;第4节综述137种深度学习模型;第5节面向多模态时代提出三项工作:ColonINST数据集的构建、ColonGPT模型的技术细节,以及包含消融分析的多模态对比基准测试;最后,第6节对全文进行总结。
结论
该文探讨了智能结肠镜技术的研究前沿,并前瞻性地审视了其在多模态领域的深远影响。全文双线并进,一方面,剖析了四类结肠镜场景感知任务的现有格局,精准锚定了当前的核心挑战与亟待突破的盲区;另一方面,直面结肠镜多模态研究尚不充分的现状。本文破局而立,推出了三大奠基性资源:大规模多模态指令微调数据集 ColonINST、结肠镜多模态模型 ColonGPT,以及一套标准化的多模态基准测试体系。


全文下载:
Frontiers in Intelligent Colonoscopy
Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan & Deng-Ping Fan
https://link.springer.com/article/10.1007/s11633-025-1597-6
BibTex:
@Article {MIR-2025-03-122,
author={Ge-Peng Ji, Jingyi Liu, Peng Xu, Nick Barnes, Fahad Shahbaz Khan, Salman Khan, Deng-Ping Fan},
journal={Machine Intelligence Research},
title={Frontiers in Intelligent Colonoscopy},
year={2026},
volume={23},
issue={1},
pages={70-114},
doi={10.1007/s11633-025-1597-6}}
特别感谢本文第一作者、澳大利亚国立大学季葛鹏博士对以上内容的审阅和修改!
纸刊免费寄送
Machine Intelligence ResearchMIR为所有读者提供免费寄送纸刊服务,如您对本篇文章感兴趣,请点击下方链接填写收件地址,编辑部将尽快为您免费寄送纸版全文!
说明:如遇特殊原因无法寄达的,将推迟邮寄时间,咨询电话010-82544737
收件信息登记:
https://lcn76mgd97vz.feishu.cn/share/base/form/shrcnsQ6cmRjqoxPF5WDowSBFVr
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-4-1 16:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社