||
计算知识共享和重复使用的十个简单规则
计算生物医学知识(Computable biomedical knowledge,CBK)被不同地定义为:“关于人类健康的分析和/或审议过程的[明确]结果……”可以使用逻辑、形式标准和数学方法来表示和推理”,以及“包含将输入数据转换为实际输出的机器可解释或可执行指令的软件工件”。“以计算机为基础的知识”和“以文本格式保存和共享以供计算机阅读”之间存在本质区别。计算机可执行的(可计算的)知识,它以一种格式保存,可以被计算机推理或应用于执行任务”,并将术语“可计算的知识”用于可执行的CBK工件。CBK可以有不同的表示,例如,数学函数或机器学习模型,以及实现,例如,算法、实践指南、预测或分类模型,并且可以以多种方式共享,从GitHub存储库到可部署容器。以可计算的形式表示生物医学知识增加了可发现性和使用:即使是基本的CBK工件也可以提高其所包含的知识实现、再现性或扩展的潜力。
适当地开发、验证、实施和管理,CBK可以:
•加速知识转化:CBK有可能缩短知识发现与应用之间大概17年差距,跟上新知识产生的步伐,并促进知识大规模转化为实践。
•改善医疗服务:医疗保健中的浪费和低效率给患者、提供者、卫生系统和社区带来了负担。利用CBK可以促进护理服务、资源利用和研究的改善。
•启用学习型卫生系统:CBK已被认为是学习型卫生系统的必要条件,其特点是能够生成、收集和从内部数据中学习以改进实践。
随着CBK潜力的增长,共享CBK以促进知识理解和大规模使用的重要性也随之增加。已有研究已开发了一个本体指定的知识对象(knowledge object,KO)模型,该模型将CBK与元数据和实现信息打包,并创建了100多个KO。
共享可计算知识与提高研究透明度、可再现性和可重用性的其他努力有关,包括数据共享、可再现工作流程和语义出版物。最近,Conte等人将其提炼成10条简单的规则,以使可计算的知识共享和重复使用。这10个简单规则旨在使可计算的知识更具可共享性、实用性和可重用性。这些规则对于那些希望超越传统出版途径来传播知识的研究人员来说是有用的,他们既希望使他们的作品更容易获得,又希望帮助其他人使用它们。这些规则被组织成3类(图1)。
图1 计算知识共享和重复使用的十条简单规则。这些规则分为三类:规划、工程和文档
规则1:确定你的可计算知识是否适合分享——知道你的“为什么”?
规则2:了解你的听众
规则3:设计可计算的知识工件,以包含计算所需的所有内容
规则4:使用目标集成的最佳技术实践来设计可计算的知识工件
规则5:为实施提供技术指导
规则6:提供示例和测试
规则7:分配一个唯一的标识符,使你的可计算知识可被找到和访问
规则8:使用丰富的元数据来帮助人们(和机器)发现、理解和管理您的可计算知识工件
规则9:提供良好的用户文档
规则10:利用现有的专业知识和资源
为共享和重复使用准备计算知识有很大的潜在好处。然而,这些好处是有代价的——必要的或推荐的活动需要时间和精力,而且目前很少有鼓励这些投资的动机。由于同行评议的论文是目前非常有价值的科学贡献,学术研究人员更有动力在同行评议的期刊上发表研究论文,而不是分享代码、工作流程或其他研究成果。此外,使可计算的知识可共享涉及到许多研究实验室中目前不存在的技能,包括元数据模式、本体和数据标准方面的专业知识。最后,为可计算知识工件的管理创建生态系统的基础设施还处于起步阶段——目前还没有可计算知识的集中库或注册表,也没有通过生命周期集中管理这些资源的简单方法。
尽管存在这些挑战,但随着人工智能、机器学习和其他计算方法在生物医学研究和临床护理中日益突出,共享可计算知识的好处将变得越来越明显。随着人们更多地关注知识共享的价值,激励措施可能会转变,以反映这一现实。同时,这里列出的10条简单规则可以作为可计算知识的研究人员和开发人员的起点,使计算知识更易于共享和重复使用。
参考文献
[1] Conte ML, Boisvert P, Barrison P, et al. Ten simple rules to make computable knowledge shareable and reusable. PLoS Comput Biol. 2024;20(6):e1012179. doi:10.1371/journal.pcbi.1012179
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 16:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社