|
说明:本博客与微信公众号《林墨》同步更新,所有内容均为原创,可授权转载。请扫码关注《林墨》公众号。
印第安纳大学丁颖教授团队在2013年曾经提出了“实体计量学”(entitymetrics)的概念。实体计量学提供了一种定量的方法,通过拆分文章成不同级别的实体,来确定究竟是什么因素导致了知识的传播。
编译作者:高正 /Indiana University 原文作者:丁颖 等
素材来源:Plos One 图文编辑:李江 / 浙江大学
注:图片来源于参考文献中论文
实体计量学的重要性
在科学领域,文章可以作为知识的载体而出现。通过文章间的相互引用,知识才得以发展和传播。然而,知识是抽象地蕴藏在文章当中的,我们很难从字里行间具体地定位。只有从文章中拆分出独立的实体,才能使用每个彼此独立的实体代表一个单独的知识点。这样,每篇文章就表述成一系列实体的累加,而文章间的相互引用也可以转化成实体间的相互引用。在Webof Science 数据库中,存在着几乎所有领域的学术论文,这些文章之间存在着一定的引用关系。对于感兴趣的话题,我们可以得到所有相关的论文和其之间的引用关系。由此,我们可以得到一个文章-文章的引文网络。在本文中作者定义,如果文章A引用了文章B,那么文章A的所有实体会被看作是引用了文章B的所有实体,由此,一个实体-实体的引文网络就得以建立(如下图所示)。通过对实体-实体的引文网络的分析,我们可以定量地计算出哪些实体在网络中起到相对重要的作用。而这些实体,往往对于我们感兴趣的话题也十分重要,从而推动我们发现新的知识。
实体究竟是什么
总体来说,实体可以有两个维度的分类。
横向而言,学术文章的实体可以被分成两类:评论性实体和知识性实体。评论性实体主要是用来衡量学术影响力,对于一篇文章而言,其本身被引用次数、作者、发表期刊乃至所属院校都是文章的评论性实体。通过这些实体,我们可以知道哪些作者被引用次数多、哪些期刊的影响因子大等关键问题,这些都潜移默化地影响着蕴藏于文章中知识的传播过程。毕竟,这些因素决定着文章是否能被更多的学者阅读和了解。知识性实体则是文章知识的载体。文章的关键字、话题、主题类别、所用的数据乃至领域相关的专业词汇都是典型的知识性载体。文章是由文字构成的,这些文字可以直观地反映出文字所要表达的内容和观点。很多科学分析模型(如共词分析)如今已经被广泛应用到探索知识传播的研究分析中去了。更有利的一点是,随着Web of Science等数据库的出现,知识性载体已经能够更加准确地从文献中获得,这使得在未来基于知识性实体的分析将会更加容易。
纵向而言,根据计算粒度的不同,实体还可以被分割成宏观层面实体、中观层面实体和微观层面实体。在实体-实体的引文网络中,评论性实体都属于宏观层面实体,比如文章的作者、所属期刊和被引次数。而知识性实体存在于中观层面实体和微观层面实体之中。文章中的关键词属于中观层面的实体。而文章中所运用的研究方法、研究数据以及其他知识性实体都属于微观层面的实体。
在医学领域的应用
实体计量学可以完美应用到各个领域之中。在本文中,作者列举了一类医学药物Metformin的例子,对比发现实体计量学模型得到的与此药物相关的基因,药物和疾病高度符合CTD(Comparative Toxicogenomics Database)数据库中的已有实验结果。
首先,作者通过PubMed数据库,从3068 种期刊中找到三十多万篇与Metformin相关的文章,其发表时间横跨了1966年到2011年。其次,在这些文章中抓取出所有和医学相关的实体(包括疾病,药物和基因等等),构建出实体-实体引文网络。然后在此引文网络的基础上,计算了不同的网络特征,并且找出了每种特征值最高的实体,与CTD数据库中已有的结果进行比对。实体-实体引文网络的特征分为三个层面:第一,基于整个网络的特征属于宏观层面特征,比如被引次数最多的文章。第二,基于社群的特征属于中观层面特征。根据引文网络的拓扑结构,引文网络中的实体可以被划分成不同的社群,而引文网络的社群聚集系数(clusteringcoefficient)就是典型的中观层面实体。第三,基于个体的特征属于微观层面特征。比如每个实体在引文网络中的出度和入度等等。
根据实验结果来看,作者发现30种基因和metformin(一种抗糖尿病药物)有高度交互作用。其中八种基因符合CTD数据库中相关的医学实验记载,而剩余的22种基因和metformin的紧密联系的原因虽然目前未知,但同时也给我们提供了很好地医学设想,为未来的科学研究和知识发现提供了理论上的依据。
Ding, Y.,Song, M., Han, J., Yu, Q., Yan, E., Lin, L.,& Chambers, T. (2013).Entitymetrics: Measuring the impact of entities. PloSONE, 8(8), e71416.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 14:02
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社