化柏林分享 http://blog.sciencenet.cn/u/huabolin

博文

计量分析中的统计分析技术——中信所《情报分析技术》第五次课

已有 3734 次阅读 2011-3-25 08:59 |个人分类:文献计量|系统分类:科研笔记| 信息分析, 科学计量, 科学统计

本次课为实验课,通过实验掌握文献题录信息的统计分析技术。统计分析技术从数据源的形式上包括单列统计、多列统计、加权统计;从统计结果类型上又分为TopN统计、数量分布统计分析、关联统计分析、增长趋势分析等。

 

任务一:单列统计

难度指数:

1.待解问题:

         每篇文章都只有一个期刊、一个年度。

2.问题分析:

期刊与年度等信息都在固定的一列里,这类统计比较简单,不写程序也可以实现。

3.解决方案:

把期刊、年度等信息统计放在新表里,找到了频率加1,没找到则在表后追回之。

 

任务二:多列统计

难度指数:

1.待解问题:

一篇文章有多个作者、多个关键词、多个机构等,这些信息经过分隔后分布在不同的列里。

2.问题分析:

每篇文章的多个作者或者多个关键词分布在不同的列里,每篇文章的作者数量或关键词数量也是不确定的,从一个到十几个不等。统计的结果要放在两列里,左列为条目(作者或关键词),右列为频次。

3.解决方案:

使用双重For循环进行统计,第一重循环遍历记录数,第二重循环控制作者数或关键词数。

 

任务三:加权统计

难度指数:

1.待解问题:

关键词没有位置信息,但是,作者有排序上的先后。

2.问题分析:

一般来讲,排序在前的作者对文献贡献度大,越靠后贡献越小。因此可使用等级递减法对作者加权统计。权重公式为:

 
3.解决方案:

从公式中可以看出,分母为作者数量的自然数求和,分子为作者数量减去作者位序再加一。因此需要事先把作者数量及自然数求和算出来。

 

任务四:TopN统计

难度指数:

1.待解问题:

统计核心作者、核心期刊、高频关键词、重要研究机构等。

2.问题分析:

统计结果中可以较容易的选出前N位。

3.解决方案:

对统计结果按频次进行降序排列,按照某种标准选取前N位。

 

任务五:数量分布统计分析

难度指数:

1.待解问题:

统计作者数量、关键词数量、期刊载文数量等数量分布情况。

2.问题分析:

如一个作者的文章有多少篇,两位作者文章有多少篇。

3.解决方案:

对前面的统计结果(即第二列)进行二次统计,即可得到数量分布。

 

任务六:年度增长统计分析

难度指数:

1.待解问题:

按照年度统计关键词的增长情况等,作者发文量趋势变化等。

2.问题分析:

按照年度统计关键词绝对量,排在前面的永远是那几个,只有使用相对量才能发现新的研究热点。

3.解决方案:

首先把关键词按照年度分别统计,然后对不同年度之间的关键词数量进行对比分析,包括增长量、增长率、相对增长率、低变高监测等。通过这种

 

任务七:关联统计分析

难度指数:

1.待解问题:

统计作者与关键词的关系,期刊与关键词的关系,机构与关键词的关系、机构与期刊的关系等,并加上年度统计分析其变化情况,可以看出作者的研究轨迹,或者期刊偏好的发展历程等。

2.问题分析:

统计作者随着年度的变化而发文的关键词有何变化,是一种三目运算。

3.解决方案:

首先挑选出发文量比较高的作者,然后按照其年度分别统计作者发文的关键词。期刊与关键词之间的关系,机构与关键词之间的关系处理方法亦同。



http://blog.sciencenet.cn/blog-91591-426084.html

上一篇:中信所研究生《情报分析技术》第四次课
下一篇:词法分析——中信所研究生《情报分析技术》第六次课

7 许培扬 王晓光 许文婕 贡金涛 胡泽文 刘耀 周江南

发表评论 评论 (7 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-1-27 13:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部