章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

专题:学术论文全文本中的引用信息提取、分析及应用

已有 5671 次阅读 2017-11-26 17:07 |个人分类:文本挖掘|系统分类:论文交流| 学术文本挖掘, 科技文本挖掘, 全文本分析, 引文内容分析, 交叉学科研究

专题:学术论文全文本中的引用信息提取、分析及应用

Special Issue: Citation Information Extraction,Analysis and Application Based on Scientific Documents


章成志(南京理工大学)、胡志刚(大连理工大学)

早在1959年前后,引文分析的先驱加菲尔德博士就提出“引文内容分析”这一想法。引文内容考虑文献被引时的具体语境,可用于分析引文作者的引用动机,在文献计量领域具有重要的理论意义与应用价值。但在很长一段时间里,由于学术论文全文本的获取不易、数据规模受限等原因,引文内容分析相关的研究开展并不多。21世纪以来、特别是2010年后,由于互联网技术的普及和开放获取运动的兴起,学术论文全文数据(特别是XML格式的文本数据)获取更加便利,自然语言处理与文本挖掘等技术快速发展,包括引文内容分析在内的全文本内容分析研究重新引起了很多研究者的兴趣。近年来兴起的BIRNDLCLBibBIR等相关国际专题研讨会,着眼于自然语言处理、信息检索与文献计量等领域的交叉研究,共同探索全文本内容的分析及其在文献计量、信息检索等领域的应用。

在此背景下,笔者组织了3篇专题论文,研究主题涉及学术论文全文本中引用信息的提取、分析及应用。这里的引用信息,既包括全文本中引文被提及的次数和位置,也包括引用语境以及其中包含的内容主题和线索词。

在《考虑全文本内容的算法学术影响力分析研究》一文中,王玉琢等人以自然语言处理领域的十大算法为例,抽取其在论文全文中的被提及次数和被提及位置,并对十大算法的影响力进行量化比较分析。这种提及次数和位置的被引统计和分析,不仅深化了对各种算法影响力的量化评估,也揭示出不同算法在引用时的差异,进而为算法影响力的综合评价奠定基础。

在《利用引文内容进行主题级学科交叉学科类型分析》一文中,徐庶睿等人基于引文内容和术语的抽取,探究主题层面下的学科交叉度计算问题,并根据总体学科交叉度指标和学科交叉的主题分布熵指标构建学科交叉分类的量化标准。这一实证研究发现学科交叉在微观主题层面的相关规律,是对学科交叉微观主题研究的有效探索,为学科交叉研究提供了新的维度和思路。

在《引用语境中的线索词分析——以Journal of Informetrics为例》一文中,胡志刚等人分析了引用语境中出现的人称代词、行为动词和连接词这3类主要线索词。由于线索词不同于内容词,它与研究领域和研究主题无关,因此更适合作为对引用语境分类的通用判别特征。通过对引用语境中线索词的抽取、统计和比较,对于理解引用语境的内涵,洞悉引用功能的类别,进而构建引用语境的分类模型具有一定的借鉴价值。

本专题就学术论文全文本引用信息的抽取和分析方法,及其在实体评价与学科交叉分析上的应用进行初步研究。随着自然语言处理、机器学习、信息检索等技术的不断发展与科技全文本数据规模的不断增大,针对科技全文本内容的引用信息提取、分析与应用将不断深入和扩大。本专题旨在抛砖引玉,同时也企盼相关领域学者加强合作,进一步推动该研究方向的发展。

----------------------------------------------------------------------------------------------------

  3篇专题论文详情:

  1. 考虑全文本内容的算法学术影响力分析研究[全文:PDF(1311 KB) ]          

  王玉琢, 章成志

  摘要 [目的/意义]从全文本内容分析的角度对算法的学术影响力进行分析。[方法/过程]以自然语言处理领域十大数据挖掘算法使用为例,分析不同算法在特定领域的影响力。通过对1965年-2006年间发表的自然语言处理领域10 922篇学术论文的调研,从其全文内容中抽取6 001条包含十大数据挖掘算法的句子(简称算法句);针对算法句从提及论文数、总提及次数、提及位置等3个方面,对不同算法的影响力进行比较分析。[结果/结论]以不同特征作为影响力衡量标准,十大数据挖掘算法在自然语言处理领域学术论文中的影响力有明显区别,在基于论文数、提及数和提及位置的评估标准中,SVM算法表现出较高的影响力,Apriori算法的影响力则明显低于其他算法。本研究为量化评估算法的影响力提供了新思路。    

  2. 利用引文内容进行主题级学科交叉类型分析[全文:PDF(19534 KB) ]    

  徐庶睿, 章成志, 卢超

  摘要 [目的/意义]针对学科交叉宏观研究不能刻画学科交叉主题,以及学科交叉微观研究仍处于主题挖掘研究阶段的现状,从内容层面解决主题学科交叉度计算问题,并构建学科交叉分类的量化标准。[方法/过程]首先,采集学术论文并解析引文内容;利用术语集获取术语和术语主题。然后,统计引文内容中的主题术语重复率。接着,计算学科间的主题学科交叉度。最后,基于主题学科交叉度分布熵,进行分类并分析。[结果/结论]研究结果表明:①六个学科难以与医学在实践应用知识层面进行学科交叉;医学的理论基础与六个学科有明显的学科知识交叉。②学科交叉存在三种类型分别为:界内交叉、工具型交叉和界外交叉。综上,通过引文内容中的术语可以有效地计算主题学科交叉度,定量地研究学科交叉类型。

3. 引用语境中的线索词分析——以Journal of Informetrics为例 [全文:PDF(1176 KB) ]

胡志刚, 孙太安, 王贤文

摘要 [目的/意义]引用语境是科学论文中包含引用的句子,是对引文的描述性或评价性文字。通过提取和分析引用语境中的线索词,可以了解引用语境的一般特征。[方法/过程]Journal of Informetrics(JOI)期刊为例,选取人称代词、行为动词和连接词三类常用的线索词,分别计算它们在引用语境中的频次、占比和排序。通过比较各类线索词在引用语境和非引用语境中的存在度,识别引用语境中的常用句型和论证模式。[结果/结论]在JOI期刊中,引用语境主要表现出如下特点:侧重于第一人称和第三人称论述,既展现他人的工作,也展现作者的研究;偏重于研究方法类引用,常用的行为动词为"use""base"和"study";强调通过转折和列举等逻辑方式进行论证,最常用的连接词位"also"和"but"。分析引用语境中的线索词,对于更好地理解科学论文中的引用的功能和动机具有重要的价值和意义。    

----------------------------------------------------------------------------------------------------



https://blog.sciencenet.cn/blog-36782-1086936.html

上一篇:TEL上“managing bigger online data”专题
下一篇:Information Discovery with Machine Intelligence for Language

6 胡志刚 郑学军 王启云 熊泽泉 陈晓宇 魏瑞斌

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-3 05:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部