PhenomicsJ的个人博客分享 http://blog.sciencenet.cn/u/PhenomicsJ

博文

Phenomics| 人类蛋白质相关临床表型的现有预测算法的系统综述

已有 1518 次阅读 2023-5-13 12:33 |系统分类:论文交流

近日,《表型组学》(Phenomics在线发表了来自复旦大学类脑智能科学与技术研究院朱山风课题组题为Computational Methods for Prediction of Human Protein-Phenotype Associations: A Review的综述文章。该文章从人类蛋白质与临床表型间关联的不同角度出发,系统综述了蛋白质相关临床表型的现有预测算法,并指出了未来该方向若干潜在的研究课题。

揭示人类基因(蛋白质)与临床异常表型间的关系是当今表型组学研究的一大基础性任务,并将对遗传疾病的预防、诊断和治疗带来重大帮助。人类表型本体(Human Phenotype Ontology,HPO)建立起了一套标准化逻辑词汇表,用于规范系统的描述人类疾病中出现的异常表型,从而为对其遗传致病因素进行计算分析铺平了道路。

 论文DOI链接:

link.springer.com/artic

图一 人类表型本体(2020年10月版)节选

图中的椭圆表示内部结点,方形表示叶子结点,有向箭头表示is-a关系

目前,HPO团队已为逾四千个人类基因进行了HPO标注,以描述该基因的异常所关联的临床异常表型。然而,在已知的两万多人类基因中还有许多亟待完成HPO标注。手工完成基因的HPO注释需要大量的临床经验积累和昂贵的生物实验分析,十分耗时耗力,开发人类基因/蛋白质相关临床表型的高效预测算法显得愈发重要。同时也成为了国际计算生物学会(ISCB)功能兴趣组(Function COSI)组织的大规模蛋白质功能预测算法评测竞赛(CAFA)中的一个重要任务。

图二 基因的HPO标注并不完整

(A)拥有HPO标注的基因个数随时间的变化情况 

(B)对于2018-03-09发布的HPO标注中存在的基因,其平均标注个数随时间的变化情况

(C)对于2018-03-09发布的HPO标注中使用的HPO术语,每个术语平均标注的基因个数随 时间的变化情况

朱山风课题组从机器学习的角度,将蛋白质与HPO术语间关联的预测任务划分为三大类:(1)以蛋白质为中心的预测:确定新蛋白质的全部HPO注释;(2)逐对预测:识别缺失的蛋白质与HPO术语关系;(3)以HPO术语为中心的预测:对与某个HPO术语相关的候选蛋白质进行优选排序。对于每一类任务,课题组都从问题定义、文献综述和总结展望三个方面,进行了系统的介绍与分析。

图三 人类蛋白质相关临床表型预测算法的三种类型

(A)以蛋白质为中心:确定新蛋白质(或完全未被标注的蛋白质)的全部HPO注释

(B)逐对预测:识别缺失的蛋白质—HPO术语关系

(C)以术语为中心:对与某个HPO术语相关的候选蛋白质进行优选排序

对于第一类任务——以蛋白质为中心的预测,它也是CAFA竞赛中的一项预测任务,其目的就是预测出给定蛋白质的全部相关HPO标注。根据预测结果是否满足层次一致性,课题组将现有方法总结为非一致性算法和一致性算法两类。

它们关注的焦点除了结果一致性外,主要在于选取哪些数据源以及如何整合这些数据源,从而达到最佳的预测精度。时至今日,只有极少数算法可以优于Naive算法——一个CAFA竞赛中的基线方法,这体现了该课题的高难度,更凸显了对此进一步研究的价值。此外,蛋白质互作网络在预测蛋白质的HPO标注时贡献极大,课题组认为,可以通过发挥图神经网络在图数据挖掘上的优势充分利用蛋白质互作网络,以进一步提升预测性能。

朱山风课题组通过分析HPO标注数据时发现,当前存在已拥有HPO标注的基因,其标注事实上仍不完整并会随时间推移不断完善。因而,这一现象引出了第二类预测任务——逐对预测,即填补当前HPO注释中的缺失标注。根据基于的底层方法不同,课题组将现有算法归为基于标签传播和基于矩阵填充两个大类。它们背后的基本思想都是平滑假设,即相似的蛋白质倾向于被相似的HPO术语所注释。只是二者间的主要区别在于如何度量相似性(或有相互作用)以及如何将相似性融入模型。

本文指出,当前算法一般简单的将蛋白质与异常表型间的关系建模为线性模型,而缺乏对复杂的非线性关系的刻画。其次,它们仅考虑生物网络的低阶局部结构,而缺乏对高阶拓扑结构的有效探索。最后,它们使用的信息源较为单一却缺乏有效的信息整合方法。因此,课题组希望未来有更多研究能解决上述问题。

通常,分子生物学家和临床医生对了解与某个HPO术语相关的蛋白质集合更感兴趣。于是,这引出了第三类预测任务——以HPO术语为中心的预测,即发现与某个HPO术语相关的其它可能蛋白质。然而,就课题组所知,该领域尚未有人涉足,先前的研究主要集中于预测某个功能标签(即Gene Ontology或GO术语)的相关蛋白质这一类似任务上。

根据对蛋白质网络进行表示学习的方法不同,现有算法可划分为无监督和半监督算法。课题组发现,当前的半监督学习算法要么不能整合多种网络,要么将网络整合与标签预测分离开来导致潜在的信息丢失。而无监督学习算法习得的嵌入表示未融入已知的标注信息,并过于通用。这些方法对特定任务的判别能力有限,且它们只探索了网络的低阶局部信息而忽视了高阶拓扑结构。因此,课题组希望未来能有研究填补这一空白,并很好的解决上述方法的不足。

★复旦大学计算机科学技术学院硕士研究生刘砺志为本文第一作者,复旦大学类脑智能科学与技术研究院研究员朱山风为本文通讯作者。该研究得到了国家自然科学基金委和上海市市级科技重大专项等项目资助。★

Computational Methods for Prediction of Human Protein-Phenotype Associations: A Review

Abstract: 

Deciphering the relationship between human proteins (genes) and phenotypes is one of the fundamental tasks in phenomics research. The Human Phenotype Ontology (HPO) builds upon a standardized logical vocabulary to describe the abnormal phenotypes encountered in human diseases and paves the way towards the computational analysis of their genetic causes. To date, many computational methods have been proposed to predict the HPO annotations of proteins. In this paper, we conduct a comprehensive review of the existing approaches to predicting HPO annotations of novel proteins, identifying missing HPO annotations, and prioritizing candidate proteins with respect to a certain HPO term. For each topic, we first give the formalized description of the problem, and then systematically revisit the published literatures highlighting their advantages and disadvantages, followed by the discussion on the challenges and promising future directions. In addition, we point out several potential topics to be worthy of exploration including the selection of negative HPO annotations and detecting HPO misannotations. We believe that this review will provide insight to the researchers in the field of computational phenotype analyses in terms of comprehending and developing novel prediction algorithms.

论文作者简介


朱山风

复旦大学类脑智能科学与技术研究院研究员,博士生导师。香港城市大学博士,日本京都大学博士后,美国UIUC访问学者,UniProt国际科学顾问委员会委员。

主要研究人工智能与生物医学大数据挖掘,特别是生物医学文本挖掘、蛋白功能预测、疾病基因与临床表型、宏基因组、药物发现、免疫信息学等。主持或完成四项国家自然科学基金以及多个国内外企业研发项目。

论文主要在生物信息、人工智能、数据挖掘等顶会和期刊发表,如NeurIPS, KDD, ISMB, IJCAI, Nucleic Acids Research, Bioinformatics等。

Phenomics期刊简介

Phenomics是一本新创的同行评审国际期刊,聚焦表型组学前沿研究,搭建全球表型组学领域专家交流的国际平台,推动该领域相关的理论创新和学科发展。

本期刊拥有强大的国际编委团队,复旦大学金力院士担任主编,美国系统生物学研究所Leroy Hood院士、澳大利亚莫道克大学Jeremy Nicholson院士、德国莱布尼兹环境医学研究所Jean Krutmann院士、复旦大学唐惠儒教授共同担任副主编,复旦大学丁琛教授担任执行主编,另有来自全球多国的三十多位著名科学家共同组成编委团队,以及四十多位青年科学家组成青年编委团队。

我们诚挚地邀请广大科研人员投稿! 

Phenomics官网:springer.com/journal/43

投稿链接:editorialmanager.com/pn

编辑部邮箱:phenomics@ihup.org.cn、phenomics@fudan.edu.cn

欢迎关注Phenomics官方公众号

文章来源:人类表型组计划公众号



https://blog.sciencenet.cn/blog-3558836-1387834.html

上一篇:Phenomics| 复旦大学王鹤和王成彦课题组发表基于心脏磁共振成像的表型研究的标准探讨
下一篇:Phenomics| 心血管系统疾病表型组研究进展
收藏 IP: 220.248.63.*| 热度|

1 李升伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-2 12:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部