|||
本次课为实验课,通过实验掌握文献题录信息的统计分析技术。统计分析技术从数据源的形式上包括单列统计、多列统计、加权统计;从统计结果类型上又分为TopN统计、数量分布统计分析、关联统计分析、增长趋势分析等。
任务一:单列统计
难度指数:★
1.待解问题:
每篇文章都只有一个期刊、一个年度。
2.问题分析:
期刊与年度等信息都在固定的一列里,这类统计比较简单,不写程序也可以实现。
3.解决方案:
把期刊、年度等信息统计放在新表里,找到了频率加1,没找到则在表后追回之。
任务二:多列统计
难度指数:★★
1.待解问题:
一篇文章有多个作者、多个关键词、多个机构等,这些信息经过分隔后分布在不同的列里。
2.问题分析:
每篇文章的多个作者或者多个关键词分布在不同的列里,每篇文章的作者数量或关键词数量也是不确定的,从一个到十几个不等。统计的结果要放在两列里,左列为条目(作者或关键词),右列为频次。
3.解决方案:
使用双重For循环进行统计,第一重循环遍历记录数,第二重循环控制作者数或关键词数。
任务三:加权统计
难度指数:★★★
1.待解问题:
关键词没有位置信息,但是,作者有排序上的先后。
2.问题分析:
一般来讲,排序在前的作者对文献贡献度大,越靠后贡献越小。因此可使用等级递减法对作者加权统计。权重公式为:
从公式中可以看出,分母为作者数量的自然数求和,分子为作者数量减去作者位序再加一。因此需要事先把作者数量及自然数求和算出来。
任务四:TopN统计
难度指数:★
1.待解问题:
统计核心作者、核心期刊、高频关键词、重要研究机构等。
2.问题分析:
统计结果中可以较容易的选出前N位。
3.解决方案:
对统计结果按频次进行降序排列,按照某种标准选取前N位。
任务五:数量分布统计分析
难度指数:★
1.待解问题:
统计作者数量、关键词数量、期刊载文数量等数量分布情况。
2.问题分析:
如一个作者的文章有多少篇,两位作者文章有多少篇。
3.解决方案:
对前面的统计结果(即第二列)进行二次统计,即可得到数量分布。
任务六:年度增长统计分析
难度指数:★★★★
1.待解问题:
按照年度统计关键词的增长情况等,作者发文量趋势变化等。
2.问题分析:
按照年度统计关键词绝对量,排在前面的永远是那几个,只有使用相对量才能发现新的研究热点。
3.解决方案:
首先把关键词按照年度分别统计,然后对不同年度之间的关键词数量进行对比分析,包括增长量、增长率、相对增长率、低变高监测等。通过这种
任务七:关联统计分析
难度指数:★★★★
1.待解问题:
统计作者与关键词的关系,期刊与关键词的关系,机构与关键词的关系、机构与期刊的关系等,并加上年度统计分析其变化情况,可以看出作者的研究轨迹,或者期刊偏好的发展历程等。
2.问题分析:
统计作者随着年度的变化而发文的关键词有何变化,是一种三目运算。
3.解决方案:
首先挑选出发文量比较高的作者,然后按照其年度分别统计作者发文的关键词。期刊与关键词之间的关系,机构与关键词之间的关系处理方法亦同。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-25 13:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社