||
BiomarkerKB:支持以生物标志物为中心的集成知识库
生物标志物是现代生物医学研究和临床实践的基础,能够帮助识别疾病、预测治疗反应以及监测患者结果。在过去的二十年中,高通量技术、临床试验和电子健康记录(EHR)的快速发展导致生物标志物及其相关注释(包括遗传、蛋白质组、糖组学和代谢组测量)以前所未有的速度增长。尽管生物标志物在整体医疗保健和推进精准医疗中发挥着核心作用,但生物标志物数据,包括其分析方法,通常被隔离在特定领域的数据库中,深埋于出版物中的非结构化文本中,或在临床指南中报告不一致。这种碎片化阻碍了系统的整合、可重复性和跨研究比较,最终限制了生物标志物发现的转化潜力。
尽管已经开发了多个数据库来捕获与生物标志物相关的注释,但它们主要关注生物分子实体(例如基因、蛋白质),而没有使用一个可扩展到所有类型生物标志物的标准化生物标志物数据模型。这些资源包括癌症基因组解释器、ResMarkerDB、MarkerDB、NHGRI-EBI 全基因组关联研究目录(GWAS)、癌症变异的临床解释(CIViC)、TheMarker 以及一些特定疾病的生物标志物资源和出版物。虽然这些数据集的可用性非常宝贵,但在报告生物标志物数据时,每个组都有自己的范围和重点。此外,关于生物标志物如何随条件变化(例如浓度增加或表达量减少)的背景信息通常不会被提及。缺乏一个既包含实体定义又包含背景结果变化的统一生物标志物数据模型,为数据整合和计算分析留下了关键差距。
为应对这一挑战,Masood等人开发了 BiomarkerKB(图1,https://biomarkerkb.org),这是一个旨在通过标准化数据模型对生物标志物数据进行协调、整合和情境化的知识库。BiomarkerKB 基于 FDA-NIH 生物标志物工作组(FNBWG)对生物标志物的定义,即“作为正常生物过程、致病过程或对暴露或干预(包括治疗干预)的反应进行测量的特征”。这确保了生物标志物不仅被表示为实体(例如,基因、蛋白质、聚糖、代谢物),还作为结构化关系连接结果变化与健康和疾病状态。该框架能够整合来自不同来源的生物标志物知识。

图1 BiomarkerKB 网络门户界面注释截图,展示了搜索、过滤和图可视化功能
与此同时,作者们还构建了一个生物标志物知识图谱(BKG),该图谱突出了特定上下文中的生物标志物关系,并富含来源、证据和测量元数据。BKG 基于 Neo4j 实现,并与美国国立卫生研究院(NIH)共同基金数据生态系统(CFDE)数据熔炉知识图谱(DDKG)集成,提供了与更广泛的生物医学数据集的互操作性。除了作为结构化存储库外,该知识图谱通过支持基于图的学习方法(如图注意力网络)来促进计算发现,这些方法可用于生物标志物-疾病关系预测和生物标志物特征识别。BiomarkerKB 代表朝着使生物标志物数据实现 FAIR(可查找、可访问、可互操作和可重用)目标迈进了一步,支持转化研究和潜在的临床决策。
参考文献
[1] Daniall Masood, Mariia Kim, Jeet Vora, Robel Kahsay, Patrick McNeeley, Sean Kim, Sujeet V Kulkarni, Darren A Natale, Mano Maurya, Srinivasan Ramachandran, Shakti Gupta, Cristian G Bologa, Thomas S DeNapoli, Vincent T Metzger, Praveen Kumar, Nasheath Ahmed, John Erol Evangelista, Sean C Kelly, Jorge Sepulveda, Avi Ma'ayan, Jonathan Silverstein, Deanne M Taylor, Daniel J Crichton, Ashish Mahabal, Jeremy J Yang, Christophe G Lambert, Shankar Subramaniam, Mike Tiemeyer, Rene Ranzinger, Raja Mazumder. BiomarkerKB: An Integrated Knowledgebase Supporting Biomarker-Centric Exploration of Biomedical Data. bioRxiv 2026.01.26.701395; doi: https://doi.org/10.64898/2026.01.26.701395
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-11 20:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社