|||
转化医学是指将基础研究人员和临床医生的研究成果整合起来,将其直接应用于病人身上,转化医学研究的目标就是探索如何跨越从实验室到病床的屏障。由于医疗实践的初衷就是尽可能多地利用知识和数据来治愈病人,所以转化医学不是什么新的概念,只是随着最近20年信息科学技术的发展,开展转化医学研究的条件愈发成熟起来。
特别是高通量分子技术的发展,产生了大量的、复杂的、而且是动态的数据,利用这些来自于基础科学实验室的数据的研究论文也越来越多,这些文献所提出的理论改变了我们对人类疾病的理解,并且对病人的治疗发挥了直接作用。因此说,高通量分子技术的进步给生物医学的发展带来了机遇,尤其是给转化医学(Translational Medicine)研究带来了新的契机。
如何开展转化医学研究?关键的步骤之一就是将来自实验室的基因表达数据与患者的临床特征衔接起来。
以乳腺癌为例,作为女性多发癌症之一,其诊断和治疗研究具有十分重要的意义。一直以来,人们普遍认为乳腺癌是一种异质性疾病,有必要对乳腺癌进一步分类以实施个性化治疗。在现有的知识水平上,临床医生可以根据肿瘤的临床特征(如肿瘤的大小、淋巴结转移、远隔转移以及组织学表现)、病人特征(如年龄、吸烟史和月经状况)以及免疫组织化学特征(如ER、PR、ERBB2)等患者临床特征信息,大致估计肿瘤行为,并为判断预后和对治疗的反应提供帮助。因而,患者临床特征是乳腺癌预后和治疗的重要因素。两组病人基因表达的某些差异可能是由其他因素(如年龄),而不是靶向因素(如治疗) 造成的。
然而,在对癌症患者的肿瘤标本的微阵列数据进行分析的时候,往往把患者间的临床特征上的差异降到最低。例如,在有关治疗的微阵列实验研究中的设计中,尽可能选择年龄没有显著差异两组病人。由于微阵列研究往往费用比较昂贵,研究人员没有足够的样本得出针对病人临床特征的具有统计学意义的结论。如果能够汇集并组织已有的微阵列数据中的临床特征数据,深入探索临床特征与基因表达数据之间的关联,有可能把基础研究与临床实践结合到一起,成为解决问题的途径之一。
目前,在许多基因表达数据库的记录中则蕴含着与该实验数据相关的病人信息,其中重要公共资源当属基因表达数据库(Gene Expression Omnibus,GEO,http://www.ncbi.nlm.nih.gov/geo)。GEO是NCBI为保存和自由分发科研人员提交的高通量基因表达数据而建立一个基因表达数据仓库和在线资源,该数据库保存了来自微阵列(microarray),高密度寡核苷酸阵列(HAD),杂交膜(filter)和基因表达系列分析(SAGE)的许多类型的基因表达数据。目前,GEO存储了大约10亿单个基因表达的数据,来自于100多种生物,内容广泛涉及到各种生物学问题。在GEO中部分记录中含有病人临床信息。例如,GEO中GSE2019号系列中有数百个样本,每个样本的Description字段都有临床信息的注释,包括病人的年龄、性别、种族、肿瘤的病理分期、分型等等(见图1)。
这些基础研究的记录中包含了病人的临床数据,潜在地把基础研究与临床实践联系了起来,对于开展转化医学探索具有重要的意义。因此,如何组织和表达基因表达数据库中的临床特征数据,尤其是这一研究领域所涉及到的基本术语、概念以及这些概念间的关系,是检索、存储、组织和利用数据库中来自不同实验室的患者临床数据的前提,也是今后开发相关知识库的保障,更是进一步开展转化医学研究的基础。
正是基于上述原因,本研究提出建立一个本体来规范表达临床信息/知识。
近年来,随着本体(Ontology)研究的逐渐成熟,本体技术被越来越多的研究领域所接受,已经成为整合和解释生物医学数据的重要工具技术[1]。简单的讲,本体是某一领域的术语及其关系的明确正规的界定在医学领域里开发出了大量的标准化的结构化词表,如snomed 和一体化医学语言系统 (Unified Medical Language System,UMLS)。极大的方便了人们交流、组织、表达和分析利用信息。
为此,我们搜集了GEO中与乳腺癌相关的基因表达记录,对筛选出含有病人信息的记录,分析其中使用的术语和概念。利用本体的方法构建出表达基因表达数据库中乳腺癌病人的临床信息的知识库。利用该本体可以更加准确的检索、分析和解释乳腺癌微阵列数据,由此促进转化科学和系统科学的发展。同时,也为今后在其他类型的肿瘤和其他高通量平台中应用本体来分析和组织信息提供基础。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 19:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社