|
引用本文
丁苍峰, 王君, 张紫芸. 多层异构生物网络候选疾病基因识别. 自动化学报, 2024, 50(6): 1246−1260 doi: 10.16383/j.aas.c210577
Ding Cang-Feng, Wang Jun, Zhang Zi-Yun. Identifying candidate disease genes in multilayer heterogeneous biological networks. Acta Automatica Sinica, 2024, 50(6): 1246−1260 doi: 10.16383/j.aas.c210577
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210577
关键词
多层异构网络,生物网络,偏置随机游走,候选基因识别
摘要
现有大多数用于识别候选疾病基因的随机游走方法通常优先访问高度连接的基因, 而可能与已知疾病有关的不知名或连接性差的基因易被忽略或难以识别. 此外, 这些方法仅访问单个基因网络或各种基因数据的聚合网络, 导致偏差和不完整性. 因此, 设计一种能控制随机游走运动方向和整合多种数据源的候选疾病基因识别方法将是一个迫切需要解决的问题. 为此, 首先构建多层网络和多层异构基因网络. 然后, 提出一种游走于多层网络和多层异构网络的拓扑偏置重启随机游走(Biased random walk with restart, BRWR)算法来识别疾病基因. 实验结果表明, 游走于不同类型网络上的识别候选疾病基因的BRWR算法优于现有的算法. 最后, 应用于多层异构网络上的BRWR算法能预测未诊断的新生儿类早衰综合征中涉及的疾病基因.
文章导读
近年来, 生物大分子之间物理和功能相互作用的识别是生物信息学中最活跃的研究领域之一[1]. 例如, 研究者所筛选出的多种生物体中蛋白质−蛋白质相互作用(Protein-protein interaction, PPI)[2-3]可揭示数千种蛋白质之间功能或物理相互作用. 这些生物分子间的相互作用通常可以表示为其节点是蛋白质或基因, 边是物理或功能相互作用的生物网络. 大量生物网络研究表明, 在物理或功能上彼此接近的基因往往参与相似的生物学路径, 并对候选疾病基因的识别起关键作用. 基于此, 研究者提出了许多识别生物网络中候选疾病基因的方法[4-9], 旨在能够有效准确地识别出与疾病基因相关的候选基因, 进而预测基因和疾病间的关系, 找出疾病的发病机制. 例如, Chen等[4]提出一种最大化网络信息流(Maximize the information flow, MAXIF)的计算方法以发现与疾病关联的基因. Zhang等[5]提出一种改进的双标签传播算法(Improved dual label propagation, IDLP)来序列化候选疾病基因. Chen等[6]提出整合人类组学数据的基于回归模型基因识别方法(Based on regression to identify disease genes, BRIDGE). Lee等[7]开发一种新的生物学系统来揭示转移性乳腺癌的突变驱动因素. Yang等[8]提出一种药物−疾病关联的异构网络嵌入方法来预测药物与疾病间可能存在的关联. Yang等[9]提出网络增强方法对变体进行基因标注. 此外, 生物信息学中用于生物计算的关联推断最常用的重启随机游走(Random walk with restart, RWR)方法[10-15]已广泛应用于新的疾病关联基因的识别.
实际上, 在候选疾病基因的识别方法中, 探索生物网络的重启随机游走方法致力于获得与疾病基因关联的节点中心性排名以识别出新的致病基因, 而中心性排名是复杂网络中关键或重要性成份的排名(本文为基因或疾病节点的排名), 所谓重要性节点是指相比网络中的其他成份, 对网络结构和功能有更大程度影响的节点. 例如, Köhler等[10]在一个PPI网络上使用RWR来获得候选疾病基因中心性排名进而识别出关键的候选疾病基因. Li等[11]扩展RWR算法到由一个PPI网络和一个表型网络(Phenotype network)构成的异构网络上以推断基因与疾病的关系. Valdeolivas等[16]将RWR扩展到多重和异构网络上旨在探索基因和蛋白质之间的物理和功能相互作用.
目前, RWR方法被认为是识别疾病关联基因中心性排名中常用方法之一, 它能够度量出种子节点和网络中所有其他节点之间的距离或接近度(即与种子节点关联的节点中心性排名), 通常认为该方法是生物信息学中用于生物计算的关联推断最常用的方法[16-17]. 在生物网络中, 根据与已知疾病相关联的种子节点的接近度, RWR算法可对网络中所有的节点进行中心性排名. 各种扩展的RWR方法得以提出, 其目的在于提高候选基因序列化预测的准确性. 例如, Li等[13]提出一种融合多个异构基因数据和表型数据的多图网络的RWR方法, 该方法具有较强的噪声容错功能, 从而提高疾病基因排序的性能.
然而, 现有RWR方法存在两个明显的缺陷: 1) RWR方法通常偏向高度连接的基因或蛋白质[18](基因即为蛋白质). 在这种情况下, 可能与已知疾病有关的不知名或连接度不高的蛋白质易被忽略或难以被检测. 2) RWR方法常用于单个基因网络或一个由不同基因数据构成的聚合网络. 由于单个或聚合数据源容易产生噪声、偏差和不完整性, 因此需要设计一种能集成各种基因组数据源的RWR方法, 使之能够可靠地识别出与给定疾病关联的候选基因. 即便RWR已经用于探索聚合了基因和表型数据的多图网络, 但它却忽视了蛋白质间边的类型、网络的拓扑结构和网络间相互连接等重要信息.
为解决前一问题, 本文将拓扑偏置随机游走[19-20]引入RWR方法中, 以便于灵活地识别出与种子疾病弱连接或高度连接的关联基因. 为此, 本文提出一个通用的拓扑偏置随机游走方法, 该方法允许随机游走偏置目标节点的各种拓扑属性(如节点的度, 强度或聚类系数). 特别是, 拓扑偏置的游走可表示为马尔科夫过程, 其转移概率是偏置游走参数的函数. 在此情况下, 通过调整偏置函数的参数, 可以使游走者优先访问或避开具有高拓扑属性值的节点. 为解决后一问题, 受文献[21]启发, 一个较好的策略是将基于拓扑偏置随机游走的RWR方法应用于能描述多种基因相互作用关系的多网络[22-26]和多层异构生物网络. 借助于基因多网络, 基于拓扑偏置随机游走的RWR方法能更准确可靠地识别出与种子疾病关联的候选基因序列, 从而缓解单个或聚合的数据源上候选疾病基因的识别所产生噪声、偏差和不完整性等问题.
为此, 本文构造了一个由PPI、共表达(Co-expression, COEX)和路径(Pathway, PATH)网络组成的多层基因网络(如图1(a)), 由一个表型(即疾病)网络和基因网络通过基因−表型关联关系组成的二分关系网络(即异构网络, 如图1(b)). 实际上, 一个异构网络是具有特定类型节点和边的两个单网络组成的多层网络, 其中两个单网络通过二分相互关系连接(二分相互关系表示为两种不同类型网络中节点的连接关系[27], 例如基因网、表型网络和基因−表型二分相互关系网络可以构成一个异构网络, 如图1(b)). 借助这些网络, 本文还构造了一个多层异构网络(如图1(c)), 它是由一个多层基因网络、表型网络和基因−表型二分关系网络组成. 多层基因网络中每一层通过基因−表型二分关联关系与一个表型网络连接起来构成一个异构网络, 这样多层异构网络就是一个由异构网络组成的多层网络. 然后, 本文提出一个通用的拓扑偏置随机游走方法, 并将其引入RWR, 称为拓扑偏置重启随机游走(Biased random walk with restart, BRWR). 通过调整随机游走中的偏置参数, BRWR方法可以灵活地获得与种子基因关联的候选基因中心性排名, 从而可靠地识别出一组候选疾病基因, 这些基因要么是高度连接, 要么是连接不好或两种情况兼之. 此外, 本文分别将BRWR方法应用于基因多网络(BRWR applied to gene multiplex network, BRWR-M)和多层异构网络(BRWR applied to gene multilayer heterogeneous network, BRWR-MH)来识别出更可信的候选疾病基因. 实验中, 本文设计留一交叉验证策略来评估BRWR方法在不同类型网络(包括单层网络、聚合网络、异构网络、多层网络和多层异构网络)上的性能. 与目前候选疾病基因中心性排名方法相比, 选择合适的偏置参数且同时考虑各种相互作用源的BRWR方法能更准确地识别出候选疾病基因. 最后, 通过使用不同的偏置参数, 本文应用BRWR-MH方法来探索隐藏在新生儿早衰症(Neonatal progeroid syndrome, NPS)中的候选致病基因, 并展示其网络近邻表示.
图 1 多层网络、异构网络、多层异构网络以及探索它们的随机游走路径(箭头的实线)的示意图
本文的贡献如下:
1) 构建了一个由多层基因网络、表型网络和基因−表型网络组成的多层异构网络.
2) 提出了一个融入拓扑随机游走的BRWR方法, 并将BRWR方法分别应用到多层网络和多层异构网络中来确定候选疾病基因中心性排名.
3) 设计留一交叉验证方法来评估BRWR方法在不同类型网络上的性能, 揭示了BRWR-MH方法胜过现有方法, 且是一个随参数适度变化的健壮方法.
4) 应用BRWR-MH方法来预测未确诊的新生儿早衰症所涉及的未知疾病基因, 并展示其网络表示.
图 2 非异构基因网络上不同方法的ROC曲线及其对应的AUC值
图 3 异构基因网络上不同方法的ROC曲线及其对应的AUC值
最近, 针对候选疾病基因中心性排名的各种方法已经被研究, 其中包括基于序列、功能、信息流和RWR的方法. 特别地, RWR方法被认为是排序候选疾病基因的最成功的方法之一. 然而, RWR方法有两个限制: 1)通常是基于单一数据源; 2)通常偏向于高度连接的基因或蛋白质. 为了解决这些问题, 本文提出应用于多个相互作用数据源的BRWR方法, 以便能够提高重要的候选疾病基因识别的性能. BRWR方法是拓扑偏置随机游走方法的扩展版本, 可以应用于多层或多层异构网络. 借助于LOOCV策略, 通过调整BRWR-M方法中的偏置参数, 基因序列化排名结果比非异构网络中的现有方法要好. 本文还构建了多层异构网络, 并提出了BRWR-MH方法. BRWR-MH方法相对于最新的方法能明显地提高序列化基因排名的性能. 此外, 除层间连接和偏置参数之外, 针对不同参数的变化, 本文已经证明BRWR-MH方法是一种较为稳定的方法. 这与BRWR方法参数改变的结论是一致的[11, 15]. 然而, 值得指出的是, 尽管当参数改变时, LOOCV的CDF全局曲线不会发生显著变化, 但在实际应用中, 对前30种疾病和基因的集中分析及网络邻近表示已经揭示出变化规律. 最后, 本文将BRWR-MH方法应用于多层异构网络中来预测与NPS综合症相关的候选基因, 从而展示了此方法在研究疾病病因、揭示靶向治疗和帮助诊断患者方面的有用性.
本文重点关注了由PPI、PATH和COEX网络组成的多层网络. 考虑到疾病具有一定的组织特异性[57]和常见病间的多病关系[58-59], 本文将会从更多生物网络数据源收集数据并将其整合到多层异构网络框架, 旨在进一步探索与疾病相关的未知候选疾病基因. 例如, 为了识别基于基因表达谱与癌症相关的miRNAs[57], 本文将从NCBI gene expression Omnibus 5收集不同类型癌症的基因表达数据集构建基因表达网络, 以探索癌症与miRNAs间的关联关系. 此外, 如何集成一些包括转录因子、靶向基因、非编码RNAs及药物和治疗靶标的网络也是未来的一个研究方向.
作者简介
丁苍峰
延安大学数学与计算机科学学院副教授. 2018年获北京理工大学博士学位. 主要研究方向为多层复杂网络, 图神经网络和自然语言处理. 本文通信作者. E-mail: dcf@yau.edu.cn
王君
延安大学数学与计算机科学学院硕士研究生. 主要研究方向为知识图谱及其应用. E-mail: wangjun03006@163.com
张紫芸
延安大学数学与计算机科学学院硕士研究生. 主要研究方向为文本摘要及其应用. E-mail: zhangziyun1202@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-21 04:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社