||
情报理论与应用
司莉,陈辰.学者身份管理系统元数据分布规律研究[J].情报学报,2021,40(2):115-124.
摘要:本文通过对研究学者在不同身份管理系统中分布以及元数据使用情况的研究,对于了解各个系统的功能目标及差异,构建有效的身份管理和元数据增强策略,实现身份管理领域的数据共享和重用具有重要作用。本文以100名中国学者作为调查样本,分析其在中文名称规范联合数据库、百度学者、ORCID、ScopusID和Publons共5个身份管理系统中的识别分布情况,并结合词频统计、共现分析及主成分分析方法,度量并分析身份管理系统在元数据结构以及信息量分布上的差异。研究发现,学者在不同类型的身份管理系统中呈现不同的识别和共现特点;同一系统内部的元素分布并不平衡,且不同系统间的元数据结构也呈现差异性;并非所有身份系统的元素指标均具有很强的相关性,而是呈现出2个不同的成分分组,且各个系统元素对于各组信息量的贡献率也不一致。
关键词 : 身份管理系统, 元数据, 数据复用, 中国学者
刘雪立,郭佳,申蓝,王燕,盛丽娜,方红玲,李建华,丁君.基于被引频次对数矫正的影响因子及其学科标准化研究[J].情报学报,2021,40(2):125-134
摘要:本文以5个学科的SCI期刊和论文为研究对象,取不同底数的对数对每一学科论文被引频次进行转换,计算各期刊对数矫正影响因子(IFlog),以各期刊IFlog除以所在学科所有期刊IFlog平均值,进行学科标准化处理,创建学科标准化影响因子(cnIFlog),探讨cnIFlog在学术期刊跨学科评价中的优越性。研究结果显示,5个学科期刊的IFlog均呈正态分布,且无论同一学科还是不同学科期刊的IFlog1.5、IFln、IFlog5、IFlog10之间均呈100%正相关(r=1.000,P=0.000)。与影响因子(IF2018)、平均影响因子百分位(average impact factor percentile,aJIFP)、期刊PR8指数(journal index of eight percentile rank classes,JIPR8)、IFlog和相对影响因子(relative IF2018,rIF2018)等指标相比,cnIFlog1.5(category normalization for IFlog1.5)在5个学科期刊中变异程度最小、与aJIFP和JIPR8的相关度最高,具有理想的区分度和稳定性。无论同一学科还是跨学科期刊评价,cnIFlog1.5均是理想的评价指标。
关键词 : 被引频次, 对数, 标准化影响因子, 期刊评价, 跨学科评价
情报分析方法与技术
曹志鹏,潘定,潘启亮.基于表示学习的双层知识网络链路预测[J].情报学报,2021,40(2):135-144
摘要:当前,针对知识网络的链路预测主要是基于网络拓扑结构的相似性,很少考虑作者的研究领域,导致信息利用不充分等问题,因此本文提出了双层知识网络的链路预测框架hypernet2vec。双层知识网络,即作者合著关系网络和学术领域关系网络,利用网络表示学习,分别将两层网络中的节点映射到低维的向量空间,再输入到专门设计的卷积神经网络中计算并进行链路预测。与经典的链路预测指标如RA指标、LP指标和LRW指标等相比,hypernet2vec模型预测的AUC(area under curve)值取得了显著的提升,平均提升幅度达11.17%。文章还从情报产生层面和复杂系统层面,对模型发生作用的深层机理进行了探讨。
关键词 : 知识网络, 链路预测, 神经网络, 表示学习
宋英华,吕龙,刘丹.基于组合深度学习模型的突发事件新闻识别与分类研究[J].情报学报,2021,40(2):145-151
摘要:针对突发事件新闻与普通新闻文本中关键词的差异性,以及现有基于深度学习新闻文本的单一性,研究词语间相互关系或词语与类别间相互关系,提出基于双输入组合深度学习的新闻文本分类模型。首先,基于词向量表征词语间关系,离散度向量表征词语与类别间关系;其次,考虑CNN(convolutional neural networks)模型学习局部空间特征信息的优势、LSTM(long short-term memory)模型学习时间序列特征信息的优势和MLP(multilayer perceptron)模型学习词语与类别间关系的优势,构建DCLSTM-MLP(deep convolution long short-term memory neural network with multilayer perceptron)深度学习组合模型;最后,爬取5477条具有词语间相互关系和词语与类别间相互关系的突发事件新闻文本,以及2815条普通新闻,通过实验对比分析组合模型性能。研究结果表明:第一级突发事件识别模型准确率、召回率和综合值均达到99.55%;第二级突发事件分类组合模型准确率达到94.82%,且准确率和召回率的综合值比MLP、Text-CNN、Text-LSTM、CNN-MLP和CLSTM(convolutional long short-term memory neural network)等5种模型分别提高了6.06%、2.36%、2.47%、1.14%和1.79%,该组合模型能够更为精确地实现新闻文本分类任务。
关键词 : 深度学习, 突发事件, 文本分类, 时空特征, 重要度
姜艺,黄永,夏义堃,李鹏程,陆伟.学术文本词汇功能识别——在关键词自动抽取中的应用[J].情报学报,2021,40(2):152-162
摘要:传统的关键词自动抽取常以候选词的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即词汇功能。通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法词。因此,本文将关键词的词汇功能分为三类:“研究问题”“研究方法”和“其他”,在传统的词频特征以及位置特征基础上,融合词汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验。实验结果表明,融合词汇功能后,关键词抽取效果得到明显提升。相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献词汇功能特征在关键词自动抽取中具有重要作用。
关键词 : 汇功能, 关键词抽取, 支持向量机, 学习排序, 学术文本
章成志,童甜甜,周清清.基于细粒度评论挖掘的书评自动摘要研究[J].情报学报,2021,40(2):163-172
摘要:挖掘图书评论不仅有助于用户了解图书内容,还可帮助出版社优化营销策略。图书评论摘要能够大幅提升用户获取信息的效率,用户只需简短阅读摘要即可了解评论的重点内容。如何为用户提供简洁、准确的图书评论摘要具有重要研究意义。目前的评论摘要研究多是采用句子抽取式的方法,忽视了评论中细粒度的情感信息。此外,不同的图书评论平台在评论内容方面存在较大的差异,仅基于单一平台的评论构建摘要,用户难以通过评论摘要全面了解图书。本文提出了一种包含属性信息和内容信息的图书评论摘要模型,并设计了基于细粒度评论挖掘的书评摘要方法。实证结果表明,本文提出的评论自动摘要方法,生成的评论摘要能够提供细粒度、多维度的图书评价信息。
关键词 : 在线评论, 评论挖掘, 属性提取, 评论自动摘要
王博,温继文.基于元数据的林业开放政府数据质量评估[J].情报学报,2021,40(2):173-183
摘要:林业开放政府数据质量评估有助于数据提供者管理数据,为使用者选择数据集提供依据。元数据作为描述数据资源出处、背景等信息的重要属性,可作为评估开放政府数据资源质量的基础。本文从客观视角开展大数据环境下林业开放政府数据质量评估的理论研究,基于林业开放政府数据资源特征与开放政府数据生命周期理论,本着科学、全面、针对性强、易操作的原则,从元数据质量的3个方面“形式-内容-使用效用”与开放政府数据生命周期的3个阶段“生成-开放-使用”,构建出系统全面的林业开放政府数据质量评估框架,设计评估指标的量化方法,并提出未来的研究方向,能够为一般性开放政府数据质量评估提供借鉴和参考,帮助提升开放政府数据的质量与价值。
关键词 : 林业开放政府数据, 元数据质量, 质量评估
王菲菲,王筱涵,徐硕,芦婉昭,宋艳辉.基于三维引文关联网络的潜在知识流动探测——以基因编辑领域为例[J].情报学报,2021,40(2):184-193
摘要:在知识经济时代,知识流动在激发知识创新和促进科技发展等方面的价值逐步凸显出来。本文在直引-共被引-耦合三维引文关联网络融合的基础上,对主题关联层面进行映射,对领域内潜在的知识流动进行挖掘。链路预测指标作为特征值,分别应用于构建分类器和回归器。其中,分类器用于预测目前尚未存在、在未来极有可能发生的知识流动;回归器主要用于预测目前链接权重较低的,尚未引起广泛关注、但在未来具有较高链接权重的知识流动。两种预测层面综合互补,可更全面地探测领域内的研究前沿或新兴趋势。利用该思路对当前热门的基因编辑技术领域进行探索研究,得到了该领域中的潜在知识流动和潜在研究的热点,为科研人员选择研究方向提供参考。
关键词 : 三维引文关联融合, 知识流动, 链路预测, 基因编辑
王晰巍,张柳,黄博,韦雅楠.基于区块链的网络谣言甄别模型及仿真研究[J].情报学报,2021,40(2):194-203
摘要:通过构建区块链网络谣言甄别模型,形成网络谣言自净和可追溯机制,为舆情监管部门利用区块链技术进行网络谣言治理和舆情引导起到一定的推动作用。基于区块链技术和UML图形,在对区块链属性和工作方法进行分析的基础上提出前提假设,从舆情爆发期和区块链审核、舆情发酵期和区块链过滤、舆情扩散三个阶段构建网络谣言甄别模型,并结合“塑料大米”这一网络谣言进行仿真实验,对区块链的网络谣言甄别模型的有效性进行验证。仿真结果表明,区块链的网络谣言甄别模型可以保证舆情信息传播的安全性和可追溯性,可净化网络谣言和保证舆情信息完整性。构建的甄别模型相似度函数是一个相对粗糙的方法,没有考虑信息存储的上限,由于挖矿难度的不断累积,哈希值的计算过程是一个非常耗时的任务。
关键词 : 区块链, 网络谣言, 甄别模型, 仿真
情报用户与行为研究
严炜炜,陈若瑜,张敏.基于元分析的在线知识付费意愿影响因素研究[J].情报学报,2021,40(2):204-21
摘要:近年来,在线知识付费产业迅速发展,相关研究随之增多,研究结果不尽相同。本文以用户在线知识付费意愿为因变量,现有研究中验证的与付费意愿相关的各影响因素为自变量,对检索并经筛选后得到的29篇国内外相关实证研究进行定量元分析。元分析结果显示,纳入分析的7个影响因素与用户的在线知识付费意愿显著相关,其中感知价值相关程度最高,感知风险性与付费意愿呈负相关性并且相关性最弱。平台类型作为调节变量影响主观规范、感知价值、感知有用性、信任和感知风险性5个自变量与知识付费意愿的关系。本文通过对在线知识付费意愿影响因素的实证研究结果进行系统梳理和验证,为在线知识付费体系完善和相关领域后续研究提供参考。
关键词 : 在线知识付费, 付费意愿, 平台类型, 元分析
于晶.基于社会化问答社区涌现模式分析的领域热点识别研究[J].情报学报,2021,40(2):213-222
摘要 领域热点识别是科技情报与文献计量领域研究的关键问题之一,其能够为科技、教育部门的政策制定及科研人员的研究决策提供参考和依据。现有领域热点识别的研究主要基于文献计量学方法,并没有利用丰富的Web数据。本文提出了一种基于涌现模式挖掘的框架,利用社会化问答社区中的问答内容来识别领域研究热点。首先,提取问答内容中的关键词,并基于关键词的共现性进行聚类;然后,基于聚类结果构建候选研究热点模式集合,利用涌现模式挖掘方法识别领域研究热点并分析其发展趋势。本文基于知乎社区的“机器学习”话题数据集进行实验,利用卡方检验与领域前沿进行对比,结果表明该框架能够有效识别领域研究热点。该方法利用关键词聚类较好的缓解了涌现模式识别方法计算复杂度大等问题,具有良好的可行性;同时,该方法在线社区热点识别等问题中具有潜在的应用价值。
关键词 : 领域热点识别, 涌现模式挖掘, 热点趋势分析, 社会化问答社区
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 01:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社