认知与分析分享 http://blog.sciencenet.cn/u/AlecXu 为创造价值而奋斗

博文

跨越医学辅助诊断深度学习黑箱可解释性问题的路径

已有 3841 次阅读 2022-9-22 10:00 |个人分类:自然科学|系统分类:论文交流

深度学习卷积神经网络在医学影像领域已得到广泛应用,但因为其存在的黑箱可解释性问题可能带来的风险,成为困扰影像科医生如何采纳其诊断建议的瓶颈。

曾有人工智能领域学者在进行爱斯基摩犬和狼的识别项目[1]中有意将狼置于雪地场景,而爱斯基摩犬置于其他场景中,研究者在模型训练完成之后,采集真实场景的图片进行预测,发现模型将雪地里的爱斯基摩犬全部识别为狼,说明模型完全依靠训练集中图片的雪地背景进行识别,而完全不像人类期望的那样依靠动物图像中的生物特征进行识别。由于深度学习缺乏可解释性,这为对安全性要求很高的医疗应用带来难以估计的风险。

Fig_01.png

相对人工智能替代医生,人工智能辅助医生开展诊疗工作应是可见未来最主流的方式。然而因为深度学习卷积神经网络技术特点带来的可解释性的缺乏,即使采用热力图显示出模型判断依据的核心图像区域,依然无法为影像科医生阐明AI的判断具体基于哪些影像特征。这为医生如何建立一套规则,排除个人主观因素从而客观地选择是否采纳AI的诊断建议带来困难。

此外,在今天的医学人工智能与大数据时代,AI能否构建特征可解读、融合AI诊断结果的诊断风险分级标准标准,能否通过算法发现新的与诊断有关的图像特征都是包括瑞金医院周建桥主任为代表的影像科医生关注的重要临床医学问题。

为满足临床医学的需求、解决人工智能诊断技术的难点问题,我们独辟蹊径地提出将卷积神经网络的诊断结果(而非人类难以解读的,由神经网络提取出来的特征向量)当作一个特征,并入医生判读的医学影像特征一起构建特征集,再通过一个特征筛选模块赋予各项特征重要性权重,从而实现模型诊断的可解释性。该研究以甲状腺结节超声诊断为例,联合中国甲状腺与乳腺超声人工智能联盟(CAAU)包括131家医疗机构,提出了融合医生和AI诊断框架HAIbrid,及新型TIRADS风险分级标准

Fig_02.png

Fig_03.png

可解释性人机协同HAIbrid算法框架

 

该框架以手术病理良恶性诊断为金标准,其中的CADx诊断模型可为任何人工智能诊断模型,其诊断结果被当作一个特征并入影像科医生定义的影响特征集,通过特征选取模块对各项特征进行排序、赋值,并依据人为设定的各风险等级样本恶性概率实现各等级得分范围的划分。

除此之外,该研究创造性地将广告宣传领域得到广泛应用的因子分解机模型(Factorization MachineFM[2]引入医学影像领域用于特征筛选。该方法不仅考察各单一因素的重要性,也考虑各因素两两组合构成被称为二阶特征的重要性。然而传统因子分解机模型对不同的二阶特征的权重不加区分,故而有学者提出加入注意力机制的注意力因子分解机模型(AFM模型)赋予不同二阶特征不同的权重[3]。在此基础上,我们进一步引入门机制提出GAFM模型用于特征筛选,去除掉低权重的二阶特征项,减少对其他项权重赋值的干扰,进一步提高模型的诊断效能。

 

Fig_04.png

引入门机制可筛除低权重二阶特征的GAFM模型

 

从下图基于十折交叉验证的3002例数据的各诊断模型对比实验可见,所以基于HAIbrid人机协作框架的模型比医生基于Kwak-TIRADS或者传统卷积神经网络模型CADxResNet101)亦或者医生主观参考后者进行甲状腺结节的良恶性鉴别诊断都要准确。同时在HAIbrid框架之下引入二阶特征的AFMGAFM模型进行特征选择也比传统只基于一阶特征进行分类或者特征选择的模型要更准确。

Fig_05.png

基于十折交叉验证的3002例数据的各诊断模型对比实验

 

这里对不熟悉“二阶特征”这一概念的读者做一些通俗的解释。好比说存在某种又大又红的毒苹果(此处为虚构,只为科普解释用),单纯大或者红,或许难以与其他可食用苹果进行区分,但是如该毒苹果一样又大又红的其他可食用苹果品种可能极少,故而二阶特征又大又红成为比大或者红这样的传统一阶特征更有助于鉴别该毒苹果的重要依据。

在该研究中,在上海交通大学瑞金医院周建桥(本文第二通讯作者)领导的医生团队构建的候选特征集中(见下图),浙江大学数学学院孔德兴团队(本人作为第一通讯作者)通过算法在3002例的特征探索集中发现血流主要为边缘分布、但血管不弯曲这一与甲状腺恶性结节有关的二阶超声特征(见红框处标记)。

 Fig_06.png

候选特征集       

Fig_07.png

 HAIbrid-GAFM模型筛选的各项特征

Fig_08.png

模型得到的各项特征对应的恶性权重分数与特征优势比的关系

 

这里对不熟悉“优势比”(odds ratio)概念的读者做一点简要介绍,它表示某特征在恶性病例中出现的概率与该特征在良性病例中出现的概率的比值,比值越大,说明该特征用于恶性鉴别的作用越明显。

为进一步验证在3002例的特征探索集中的发现,研究团队又加入了500例新的甲状腺结节数据,良恶性各250例,并验证了血流二阶特征的有效性(新数据上该二阶特征的优势比为2.41,与3002例数据中得到的2.349相当)。这是算法在肿瘤影像诊断领域中的一次有趣的发现——由于影像科的医生们没有意识到二阶特征的概念,而错过了这一发现。

此外,对这500例测试集,联合团队将其分成两组相当的队列(医生诊断AUC值均约为0.86),对比人机联合诊断模式对两个不同的卷积神经网络模型的影响,发现对比ResNet101AUC~0.846)具有显著优势的来自德尚韵兴的产品(2020年版)AI-SONICTM ThyroidAUC0.902)在HAIbrid-GAFM结合模式之下优势缩减到了0.01左右(0.9263 vs 0.9167)。预示着在人机联合诊断模式之下,单纯提升深度学习卷积神经网络模型的诊断效能可能会是事倍功半的低回报行为。当然,由于该研究只纳入了高年资医生进行试验,其结论的可推广性有待更多的研究进一步的验证。

无论后续如何,应该说该研究揭示了影像科医生和人工智能模型诊断所提取的影像特征具有一定互补性。尽管从理论上,人工智能模型理应能学习到影像科医生定义的影像特征,但现实说明这或许需要建立在极为庞大的数据集的基础上。单纯依靠海量数据和强大的计算机算力而非基于对自然规律的深入理解,并非一条有效解决临床重点和难点问题的最佳路径。同时,这也意味着医生的作用难以被机器所取代,正如该研究离不开医生们定义的候选特征集,这是医生通过多年临床经验观察、总结得到的。

充分发挥人的主观能动性、总结、归纳的能力,结合高效的机器和精巧设计的算法大有可为!

 

另注:该研究相关专利申请见:基于人机结合的医学影像诊断标准的构建方法

其他参考文献

[1] M. T. Ribeiro, etc., "Why Should I Trust You?": Explaining the Predictions of Any Classifier, arXiv 2016

[2] Rendle, S. Factorization Machines. 2010 IEEE International Conference on Data Mining, 2010, pp. 995-1000, Sydney, NSW, Australia.

[3] Xiao, J. et al. Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks. Proceedings of the 26th International Joint Conference on Artificial Intelligence Main track, 2017, pp. 3119-3125, Melbourne, Australia.




https://blog.sciencenet.cn/blog-3503-1356385.html

上一篇:清华被辞退50岁吕宇翔副教授其实还挺能发北大核心期刊的
下一篇:有望提升肿瘤穿刺活检采样精准度的肿瘤异质性人工智能可视化方法及论文背后的小故事
收藏 IP: 115.198.223.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-17 12:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部