|||
原创 情报学报 情报学报ISSN10000135 今天
2021年第8期
情报理论与应用
大情报观重述:方法演进视角下的成因探析
李博闻, 章成志
情报分析方法与技术
基于文本挖掘的中美技术差距分析——以空间技术领域为例
郭世杰, 陈芳, 韩涛, 王学昭, 王燕鹏, 吕璐成, 董璐
突发事件应急行动支撑信息的自动识别与分类研究
吴雪华, 毛进, 陈思菁, 谢豪, 李纲
基于词嵌入的国家自然科学基金学科交叉知识发现方法——以“人工智能”与“信息管理”为例
王卫军, 姚畅, 乔子越, 崔文娟, 杜一, 周园春
多维度融合的文献作者亲密度计算
侯湘, 黄晋, 桑军, 夏晓峰
基于语义文本图的论文摘要关键词抽取算法
王晓宇, 王芳
文献集规模对科技领域情报分析的影响:多种任务场景下的实证分析
陈果, 王盼停, 王曰芬
基于引文网络社区发现的数据推荐研究
李成赞, 黎建辉, 王学志, 沈志宏, 杜一
情报用户与行为研究
我国科研人员科研数据重用行为影响因素实证研究——以生物学领域为例
张潇月, 宋秀芳, 顾立平, 刘金亚, 陈新兰
本期文章概览
大情报观重述:方法演进视角下的成因探析
李博闻, 章成志
本研究透过近年来“大情报观”回归与重塑的表象,以科学研究的基石-研究方法为原点,21世纪以来(2000—2019)我国情报学领域方法演进为主线,方法实践的群体记忆为切口,揭示这场“重述”的社会历史成因。第一,本研究分疏学史两次“大情报观”,并提出研究问题;第二,获取《中国图书馆学报》《情报学报》于2000—2019年所刊登的全部学术文献,设计编码方法、构建研究方法编码表与编码手册,运用内容分析法,对上述4612篇学术文献进行编码,并检验编码的一致性;第三,探讨21世纪以来我国情报学领域重要方法的演进;第四,透过研究方法演进,论述学界群体方法素养、方法记忆的构建;第五,阐述“重述”的社会历史成因。研究结果表明,“大情报观”的重提,既非周期性的历史轮回,也非先锋学者们一时审时度势的言说,而是情报界学人不断流动与建构的群体意识在剧烈变化环境下的自然觉醒,是情报学人寻找学科发展进路的积极探索。由于情报学与图书馆学历史上交叉、关联甚至趋同的关系是毋庸置疑的,数据获取中,未能厘清两者边界是本研究的不足。
基于文本挖掘的中美技术差距分析——以空间技术领域为例
郭世杰, 陈芳, 韩涛, 王学昭, 王燕鹏, 吕璐成, 董璐
识别中外技术布局和性能差异,并针对我国关键核心技术所面临的风险进行监测预警。聚焦美国相关规章文件中技术产品的性能参数,设计基于性能参数定量对比的技术差距分析方法。分析相关文件的语义特征,构建面向文件语义要素的信息抽取方法和信息同步匹配方法。提出通过文献计量,识别应对技术差距的替代性研究单位、推荐合作机构的方法。在此基础上,以美国在空间科技领域的相关规章文件分析为例,开展实证分析。利用性能参数的挖掘对比,可以将美国相关规章文件中包含的技术产品与我国的技术水平对比结果分为4类:无差距、技术空白、技术布局差异、技术水平差距。
突发事件应急行动支撑信息的自动识别与分类研究
吴雪华, 毛进, 陈思菁, 谢豪, 李纲
突发事件场景中,应急行动支撑信息有助于各类主体的及时响应和敏捷动员,对于保障人员搜救、资源配置等各项应急行动的顺利开展,以及最小化伤亡损失具有重要意义。本文旨在探究如何从社交媒体中获取各类应急行动支撑信息。在梳理应急行动支撑信息概念、特征和类别的基础上,提出基于机器学习的应急行动支撑信息识别与分类的两阶段实现框架。基于文本向量表示、语言、形式和用户四个维度的特征,采用支持向量机、逻辑回归、文本卷积神经网络(text convolutional neural networks,TextCNN)、BERT(bidirectional encoder representations from transformers)以及BERT和TextCNN的组合模型(BERT+TextCNN)在人工标注数据集上开展实验,评估不同分类方法、算法和特征的效果。研究结果表明,两阶段方法在不损失模型性能的情况下,能够提供层次更为丰富的应急行动支撑信息。BERT和BERT+TextCNN在两个阶段任务中均优于其他模型。语言、形式和用户特征的组合对第一阶段任务——应急行动支撑信息识别无明显作用,但能显著提升第二阶段任务——应急行动支撑信息分类的效果。本研究有助于更好地将社交媒体数据流嵌入应急工作流程,在一定程度上缓解应急行动中的信息过载问题,提高应急效率。
基于词嵌入的国家自然科学基金学科交叉知识发现方法——以“人工智能”与“信息管理”为例
王卫军, 姚畅, 乔子越, 崔文娟, 杜一, 周园春
学科交叉的研究是促进各种复杂科学问题解决的重要途径。本文利用国家自然科学基金所资助项目中人工智能学科与信息管理学科关键词之间的共现关系,通过word2vec相关模型,将相应关键词映射到低维向量空间。利用关键词向量计算关键词之间的关系大小,获取量化的关键词共现关系。通过PageRank算法,计算关键词在共现网络中的重要性。利用DBSCAN聚类算法等对项目中未出现过的具有跨学科性质的关键词共现进行分析,并结合关键词重要度等文字信息和可视化信息分析潜在学科交叉知识。研究结果发现,本文提出的模型能较好地将潜在的学科交叉知识提取出来,并可以利用跨学科关键词共现关系大小,进行学科交叉知识的过滤及排序,其结果具有一定的可解释性和合理性,为探索学科交叉知识发现方法以及发现潜在交叉学科成长提供了新的研究思路。
多维度融合的文献作者亲密度计算
侯湘, 黄晋, 桑军, 夏晓峰
为了学术成果在不同论文作者和研究团队之间便捷交流和精准推送,需建立合理有效的学术社交网络(academic social networking,ASN),本文针对目前中文学术数据库平台尚未建立成熟的、基于文献引用的作者社交网络进行社区交互问题,以CNKI(China National Knowledge Infrastructure)数据源,某大学软件工程及信息安全学科领域的教授A及有合著或引用关系的122位作者在2014—2020年的文献数据为研究对象,构建学术作者引用网络。结合学术社交的特点,对作者、论文及引用数据进行挖掘,提出合著作者(co-author)、学科主题(subject topic)、基于学科敏感度的文献引用(sensitivity-citation)和图谱社交网络(social graph)4个维度的亲密度计算方法,加权得到网络中作者间的综合亲密度值。本文通过综合亲密度值建立作者关系图谱,得到作者在网络中的亲密度水平(author_degree),用亲密度水平值与发文数量相乘得到作者的网络水平(author_weight),找出图谱中相同研究水平的作者及研究团队,为学术社交网络数据推送打好基础。
基于语义文本图的论文摘要关键词抽取算法
王晓宇, 王芳
鉴于关键词对大规模文献检索和文本内容分析的基础作用,本文提出了一种基于语义文本图的无监督关键词抽取算法,重点对传统基于图(graph-based)方法中的文本图构建和词加权方式进行改进。为了使文本图保留更多的语义和结构信息,算法根据单词在句子中的语义依存关系,生成由概念连接、等价隶属、功能属性和修饰限定四种属性边构成的语义文本图,省去传统图生成方法中所需要的窗口长度参数设定。在此基础上,本文提出融合关键词位置信息、概念层级和连接强度的词权重计算方法,并对词语的重要性排序,最终选择高得分节点构成摘要文本的关键词集合。在四个开放语料上的实验结果显示,本文提出的方法抽词效果优于其他三个同类baseline算法,F1值最高为0.570。
文献集规模对科技领域情报分析的影响:多种任务场景下的实证分析
陈果, 王盼停, 王曰芬
面向特定领域开展科技情报分析时,由于文献的集中与离散分布规律,难以有效构造全量文献集。那么多大规模的领域文献集是可靠的?这一问题在不同的情报分析任务场景下,有不同答案。本文综合考虑待分析领域大小、待分析对象(学科分类、国家、机构、关键词、引文、作者,及其各自共现关系)、待分析对象的Top值截取(如高频词)数量、结果是否考虑排序等常见的多种任务场景,设计相应的实验方案。以“人工智能”领域WoS(Web of Science)数据为例,开展多种规模的数据抽样,并计算得出抽样子文献集对全量文献集的拟合指标值为4800个,以量化结果揭示科技情报分析中不同任务场景对文献集规模的要求。研究结果表明,涉及学科与国家分类的分析任务,以极小规模文献集便可得到较为可靠的结果;涉及作者的分析任务,对于文献集规模的要求极高,有必要采用全量数据;涉及机构、关键词、引文的分析任务,文献集达到一定规模可得到较为可靠的结果,但相应规模受不同因素的影响,尤其是共现分析、截取较多Top对象和结果要求排序这三种任务场景对文献集规模要求更高。
基于引文网络社区发现的数据推荐研究
李成赞, 黎建辉, 王学志, 沈志宏, 杜一
科学数据是科研活动的输入和产出,是科技创新的核心驱动要素。科学数据只有开放共享、广泛传播才能使其价值最大化,然而当前数据出版物的利用率和传播效率整体偏低。为了加速科学数据的传播和重用,提升科学数据的开放共享成效,本文提出了一种基于引文网络社区发现的数据推荐方法。该方法在构建“数据集-论文-作者”之间关联网络的基础上,利用Louvain算法,从合著、共引和耦合三种关联方式分别进行社区发现,然后结合TF-IDF(term frequency-inverse document frequency)及余弦相似度算法,计算数据集与学术论文的相似性,并以此构建数据集与论文所在社区之间的关联,并进行数据集推荐。实验结果证明,基于引文网络社区发现的数据推荐方法,能够有效地发现对数据集潜在感兴趣的论文或作者。同时,发现在数据推荐效果的贡献度和稳定性方面,基于耦合关系的社区发现表现最优,合著关系次之,而引用关系则受出版时间长短和被引次数的影响导致推荐效果差异较大。
我国科研人员科研数据重用行为影响因素实证研究——以生物学领域为例
张潇月, 宋秀芳, 顾立平, 刘金亚, 陈新兰
了解科研人员科研数据重用行为影响因素与作用机制,可有效支持科研数据开放共享与重用行为间循环促进生态的形成。通过文献综述,本文基于生态系统视角建立了科研人员数据重用行为影响因素理论模型,面向中国科学院生物学领域科研人员,开展聚敛式混合方法研究。对问卷调查的定量数据采用偏最小二乘法的结构方程模型进行数据分析,结合问卷开放式问题与该领域10位典型科研人员访谈的结果,综合得出结论。研究结果显示,感知社群文化基础和感知支持措施有效程度,正向显著影响科研人员的科研数据重用行为。研究建议利益相关方关注科研数据的质量控制与权益管理,具体可采取以下三方面措施:①推动国内大型科学数据中心开展国际化认证;②建立协作网络,发挥重要团体与个人的力量;③制定多路径的数据重用服务策略。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 20:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社