||
结合众智和机器学习来判断现有主题文献相关性的尝试
武夷山
目前的新冠病毒疫情使人们对全球风险更加警觉。
在2020年2月出版的Futures(未来学)杂志上,剑桥大学人类生存风险研究中心的Gorm E.Shackelford、Luke Kemp、Catherine Rhodes、Lalitha Sundaram、Seán S.óhéigeartaigh、Simon Beard、Haydn Belfield、和 Julius Weitzdörfer等8位学者以及另外11名外部作者(共19名作者)发表论文,Accumulating evidence using crowdsourcing and machine learning: A living bibliography about existential risk and global catastrophic risk(采用众智和机器学习方法来积累证据:关于人类生存风险和全球灾难风险的不断更新的书目文献)。Crowdsourcing一般译为“众包”,此处,根据文中的叙述,译为“众智”似乎更合适。
文章摘要如下:
人类生存风险(指人类灭绝的风险或人类文明崩溃的风险)研究是近年来才兴起的综合性研究领域,可是该领域已经发表了数量巨大的相关文献。为了给政策制定和风险分析提供证据,就应该对现有文献进行综述。综述过程涉及许多项耗时的任务,其一是阅读论文的标题和摘要,判断这些文献是否符合纳入数据集的标准。本文表明,处理巨量研究文献这一任务可由多人分担(采用众智方法),也可部分地自动化(采用机器学习)。我们采用这两种方法建立了Existential Risk Research Assessment (TERRA,人类生存风险研究文献评价)数据库,该数据库每月更新一次(www.x-risk.net)。本文展示了TERRA建立头十个月的成果。51位参与者对10,001篇文献进行了主题相关性筛选。这些方法若要用于综述,还有几个问题有待攻克。但我们认为,随着文献量不断增加,开展文献综述就需要采用这样的协作性、积累性的方法。
TERRA数据库设在英国剑桥大学的Centre for the Study of Existential Risk (CSER,人类生存风险研究中心) 。为了招募外部人员参与文献评价,该中心在Facebook、推特和本中心网站上进行了宣传,也在2018年4月间召开的“剑桥灾害风险大会”上进行了宣传。任何人都可报名参与这项众智文献评价工作。截至2018年8月底评价了500篇以上文献的参加者都列为本文共同作者,共19名。
截至2018年8月底,TERRA数据库共收入12,635篇文献。至少评价了1篇文献者有51人,至少评价了500篇文献者有19人,包括CSER的内部研究人员8人,这8人便是本文作者名单最前面的8位。许多外部参加者都是CSER员工原先根本不认识的。
12,635篇文献中,有10,001篇(占数据库文献总量的79%)被至少一人评价过,其中有2313篇(占23%)被至少一人评价为相关文献。
10,001篇文献中,5961篇(占47%)被至少两个人评价过,其中1722篇(占29%)被至少一人评为“相关”;一般来说,这1722篇同时会被至少另一人评为“不相关”。评价者之间的意见一致程度只有56%。不过,如果将所有参加者都评价为“不相关”的数据也纳入,则总体的意见一致程度达到87%。也就是说,在回答“哪些文献与本数据库的主题不相关?”时,一致程度较高。5961篇文献中,只有628篇(占11%)被至少两位参与者评价为“相关”,这也不奇怪,因为人类生存风险研究是个范围很宽的新兴研究领域,相关风险的概念很难定义。今后,当每篇文献都被多人评价过之后,CSER中心会做更多的一致度分析。
目前CSER中心只做了两件事:第一是按照“相关性”(评为“相关”的次数减去评为“不相关”的次数)给文献排序,第二是按照评价总次数给文献排序。(博主:有些文献的标题就不能引起参与者的兴趣,他们不愿意花时间去读这些文献的摘要。所以,评价总次数也是一个有用的指标)
机器学习部分,大家可以读原文:https://www.sciencedirect.com/science/article/pii/S0016328719303702
博主:根据多年的审稿经验,我觉得我国图书情报学界只有一部分人认识到了咨询主题专家的重要性。有些人不咨询主题专家,就自己检索出一个主题的文献,并进行文献计量学分析。但他们的检索式就极其不完整,故后面的分析一文不值。对于这样的来稿,只能拒掉。有些人虽然认识到了咨询主题专家的重要性,但专家都很忙,不好请,而且专家咨询费也不能太低了,所以,咨询主题专家这件事真正做起来也不容易。本文采取众智方式,在一定程度上用众人的意见来代替主题专家的意见,应当说是有意义的尝试。不然,哪个专家有功夫为你判断成千上万篇文献的相关性?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-31 01:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社