|||
[0] 化柏林,武夷山.大数据更需要先清洗[J].情报学报,2013,32(6): 561.
[1] 王晓佳,杨善林,陈志强. 大数据时代下的情报分析与挖掘技术研究——电信客户流失情况分析[J].情报学报,2013,32(6): 564-574
摘要:大数据时代下的信息具有体量大、复杂性高、更新速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对原有的情报分析思路进行必要的升级改造,以满足信息的情报属性。文章在介绍了大数据以及大数据环境下情报内涵转变的原因之后,提出了一种在大数据背景下的情报分析与挖掘的建模机理,首先应用MapReduce建立情报任务分解概念模型,然后针对分解后的某一单任务数据表进行预处理和数据挖掘工作,利用数学模型、人工智能等方法构造大数据时代下情报分析与数据挖掘的新思路。最后利用仿真实验来验证这一新思路的可行性和合理性。
[2]李海涛,宋琳琳.政府门户网站公众满意度调查问卷缺失数据的处理研究[J].情报学报, 2013,32(6):575-583.
摘要:如何处理政府门户网站公众满意度调查问卷数据采集中大样本数据采集的需求与有价值数据缺失的矛盾,这就需要对问卷数据缺失的原因、机制及处理方法系统研究。本文首先在对政府门户网站公众满意度调查问卷缺失数据原因分析的基础上探讨了其缺失数据机制,同时比较了现有问卷缺失数据处理方法,提出了适用于政府门户网站公众满意度缺失数据处理的多重插补方法,在此基础上,基于NORM软件的多重插补方法开展了政府门户网站公众满意度缺失数据多重插补的应用研究,从而为政府门户网站公众满意度调查问卷缺失数据处理提供了一种新的思路。
[3]琚春华,鲍福光,王宗格.关联规则的评价方法改进与度量框架研究 [J].情报学报, 2013,32(6):584-592
摘要:关联规则挖掘是数据挖掘领域的重要课题,但是,就评价关联规则是否有价值的依据,即兴趣度的度量方法,学术界没有一致的标准。传统的兴趣度度量方法包括支持度—置信度,提升度,改善度,有效度,影响度方法等。这些传统的兴趣度度量方法都存在各自的局限,本文首先比较分析了关联规则的客观兴趣度度量的相关研究成果,然后,针对它们的不足进行了改进,提出了两种比较有效的关联规则度量方法(New?lift, New?Improve),通过实验分析,进而提出新的度量框架,并实证了新方法的特征属性。
[4] 周磊,张玉峰. 基于专利情报分析的企业合作竞争模式研究[J].情报学报, 2013,32(6):593-600
摘要:专利网络中蕴含着丰富的企业竞争情报,是快速掌握企业间合作关系与竞争态势的有效工具。基于德温特(DII)专利数据库的RFID技术领域重点企业的专利数据,构建专利权利人共现网络以发现企业合作关系,构建专利引用信息网络以发现企业竞争关系,可辅助决策者获取行业竞争情报,进而制定企业技术战略。分别采用共现分析方法、块模型分析方法,发现了双核性、三元组型、中介型、均衡型4种企业合作模式以及龙头企业多元化、实力企业归核化、后发企业潜在型3种竞争模式。
[5]吴广印.分布式检索系统架构及核心技术研究[J].情报学报, 2013,32(6):601-609
摘要:随着科技文献信息量和用户使用范围的迅速增长,面对海量数据的处理和存储,传统的集中式情报检索软件,无论从功能上还是性能上都显得无能为力。于是,为了解决这一技术难题,分布式检索系统应运而生,并已成为信息检索领域研究的热点。本文从检索系统发展趋势、技术架构及相关核心技术等3个方面做了研究和分析,同时对已经开发完成的分布式RMS Cloud系统体系架构及其和RMS的性能对比做了简单介绍和分析。
[6]钟敏娟,万常选,刘德喜,江腾蛟. 基于高质量反馈源的XML查询扩展[J].情报学报, 2013,32(6):610-617.
摘要:有效避免伪反馈的“查询主题漂移”主要需要解决两大问题,一是如何确定相关文档,形成较高质量的伪相关文档集,另一个是在伪相关文档集里如何挑选扩展信息。本文主要研究在获取了高质量伪相关文档集合的基础上如何有效进行XML查询扩展。针对XML文档的特点,提出了扩展向量空间模型的查询词扩展方法。实验结果表明,与初始查询和传统的词项扩展方法相比,该扩展方法更能获得与用户查询意图相关的扩展信息,更能有效地提高检索质量和性能。
[7]徐健.基于多种测度的术语相似度集成计算研究[J].情报学报, 2013,32(6):618-628.
摘要:在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型。首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测。实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能。
[8]李树青. 基于三词共现分析的学者主要研究兴趣识别及个性化外文推荐服务的实现
[J].情报学报, 2013,32(6):629-639.
摘要:本文首先提出了一种三词共现分析方法,介绍了它的基本结构和特点,并据此提出了三词有序共现对的概念,同时还说明了获取映入词和紧密环的方法。然后,文章重点阐述了如何利用该三词共现分析方法来识别学者主要的研究兴趣特征。在上述研究的基础上,文章随后介绍了一种个性化外文推荐服务的实现方法,对其中外文文献数据的收集处理、规范处理及其推荐策略都进行了详细说明。最后,文章对相关测试实验及其改进效果做了必要的说明。
[9] 王伟军,甘春梅. 学术博客中的链接类型与功能研究[J].情报学报, 2013,32(6):640-652
摘要:学术博客日益引起学界的重视。作为重要特性的链接促使学术博客成为知识交流与共享的便捷平台。在文献调研的基础上,本文提出了学术博客中链接的类型;进一步,通过调查35个不同学科的学术博客,分析链接所指向的页面性质和被链接文本的特性,将学术博客中的链接类型进行细化;在此基础上,探究各链接在学术博客中所起的作用。结果显示,学术博客存在丰富的、不同类型的链接,且引用链接所占比重最大;这些链接主要发挥学术性功能和社交性功能,所起的作用主要有提供相关信息,进行内容组织与管理,建立学术身份与提高可信度,形成社区与保持关系,以及促进知识交流与共享等。
[10]牟冬梅,张艳侠,黄丽丽,冯超,毕强.基于SNOMED CT和FCA的医学领域本体构建研究[J].情报学报, 2013,32(6):653-662
摘要:通过对本体、形式概念分析理论研究状况进行分析,针对医学领域的专业性特点,利用形式概念分析构建形式概念背景,抽取概念,形成概念格;通过医学系统命名法-临床术语(SNOMED CT)的概念表、描述表和关系表对概念格进行修正,结合SNOMED CT和概念格构建医学领域本体——甲状腺疾病本体,并应用GATE利用所构建的甲状腺疾病本体对某三甲医院的电子病历进行语义标引,以验证本体的可用性。在此实验过程中同时根据所构建概念格提出对SNOMED CT表的修正建议。
[11]刘冰,张耀辉.基于网络用户体验与感知的信息质量影响因素模型实证研究[J].情报学报, 2013,32(6):663-672
摘要:随着网络环境的变化与发展,信息用户的地位也随之发生了变化,用户在与网站交互过程中的体验与感知直接影响其对信息质量的评价与满意度。文章运用了问卷调查研究方法对所提出的网络用户体验与感知视角的信息质量影响因素模型进行验证与修正。结果表明,其模型由信息特征、帮助支持、感观心理、过程服务、基本功能、用户个性素养六个维度所构成,其指标要素涵盖了用户在信息获取与信息交互过程的全方位、多视角体验与感知到的信息质量影响因素,体现与反映了基本网络用户的特征与切实需求。研究结果将为通过优化用户体验与感知提升信息质量提供可兹借鉴的路径。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 19:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社