coffer的个人博客分享 http://blog.sciencenet.cn/u/coffer

博文

从词频分析图表看高校“十三五”规划文本 精选

已有 8204 次阅读 2017-9-19 07:57 |系统分类:科研笔记| 规划, 十三五, 词频

从词频分析图表看高校“十三五”规划文本

在去年学校参与“十三五”规划编写前就有动议,计划等各高校规划文本出来后,尝试通过词频分析的方法做一点工作,看看能够从中发现什么有意思的东西。只是随着过后工作的变动,一直没有如愿。现如今各高校的规划编制工作早已告一段落,教育部直属高校的规划文本在教育部备案,并向社会公开的工作也早已完成。

借着周末的美好时光,突然又有一丝当时未完成计划的牵挂,索性一鼓作气,从教育部官网下载公开高校的规划文本,尝试词频分析工作。由于学校较多,导致对比分析过程复杂。本次分析作为尝试,选取了在教育部官网可获得文本的32所“985高校”。(除北京航空航天大学、北京理工大学、国防科技大学、中央民族大学、哈尔滨工业大学、中国科学技术大学、西北工业大学)

本报告分析的文本为备案文本的全文本内容(即个别高校在发布文本材料中包含编制说明等内容,在分析中均统计在内)。

一、规划文本体量

其中东北大学的规划文本文字量最大,共计42111字。

中山大学的规划文本文字量最小,共计14242字。

32所高校规划文本的平均文字数为25447字。

二、热词词频

根据谷尼舆情图悦picdata.cn热词分析工具对32个规划文本分析显示,呈现了各高校文本热词权重前100名的热词。为进一步聚焦,笔者从各高校前100名的热词中,根据热词出现次数,筛选了各高校规划文本中出现频率最高的30个词语,并暂且定义为“高频词”。词语在文本中出现的次数定义为“原始词频”。由于规划文本文字量的差异,为便于高校间热词对比,根据各规划文本的文字量对热词原始词频进行折算,归一到同一尺度,归一化后的词频结果定义为“折算词频”。根据统计:

1. 最高“原始词频”的热词为“建设”,来自于兰州大学规划文本,共计306次。

2. 最高“折算词频”的热词为“建设”,来自于同济大学规划文本,共计446次。

3. 所有32所高校共有的高频词有9个,分别为:“人才、科研、学校、创新、培养、国际、学科、建设、教学”。说明在本轮规划中,高校普遍对“人力资源、人才培养、学科建设、科学研究、国际对话,创新发展”的重视。(下图呈现的词频为“折算词频”)

4. 所有32所高校的规划文本中出现过的高频词共有101个,对其在各高校中的出现次数进行汇总,形成101个高频词在所有32个高校规划文本中出现的中次数,出现次数最多的是“建设”,共计5826次。下图列举中出现频次的TOP20,分别为“建设、学科、创新、学校、人才、培养、教育、国际、科研、教学、改革、大学、学术、资源、合作、学生、教师、规划、科技、项目”,图中的柱形图为各热词原始词频,折线图为该热词在多少个高校中成为“高频词”。

4. 如果说32所高校共同出现的高频词代表了高校普遍的发展需求,那少数高校出现的高频词可以代表高校的发展特色。

(1)5所高校共有的高频词有3个,分别为“优势、保障、健全”。(高校名称后括号中的数字为热词在该高校规划文本中的“原始词频”,下同)

优势

吉林大学(44)

上海交通大学(43)

中国海洋大学(44)

中国人民大学(45)

中山大学(18)

保障

北京师范大学(45)

四川大学(41)

天津大学(25)

中国人民大学(44)

中山大学(18)

健全

北京师范大学(38)

东南大学(30)

华东师范大学(22)

华中科技大学(22)

中国农业大学(26)

(2)4所高校共有的高频词有2个,分别为“中国、支撑”

中国

北京大学(47)

复旦大学(41)

厦门大学(25)

武汉大学(32)

支撑

上海交通大学(38)

浙江大学(42)

中国海洋大学(40)

重庆大学(22)

(3)3所高校共有的高频词有6个,分别为“十三五、基地、探索、核心、深化”

十三五

东北大学(70)

兰州大学(51)

天津大学(24)

基地

兰州大学(58)

南开大学(31)

西安交通大学(37)

体制

北京大学(49)

山东大学(32)

西安交通大学(40)

探索

清华大学(37)

山东大学(24)

中国人民大学(41)

核心

武汉大学(32)

中南大学(36)

中山大学(22)

深化

南开大学(30)

厦门大学(24)

西安交通大学(35)

(4)2所高校共有的高频词有11个,分别为“农业、院系、学位、医学、校区、领域、团队、交叉、干部、任务、环境”

农业

西北农林科技大学(83)

中国农业大学(54)

院系

北京大学(60)

北京师范大学(49)

学位

兰州大学(54)

中国人民大学(54)

医学

兰州大学(64)

中南大学(40)

校区

山东大学(44)

中山大学(40)

领域

天津大学(24)

中国海洋大学(45)

团队

中国海洋大学(44)

中山大学(24)

交叉

南京大学(29)

清华大学(39)

干部

北京师范大学(36)

中国农业大学(26)

任务

复旦大学(30)

中山大学(21)

环境

天津大学(24)

中山大学(18)

(4)唯一高校独有的高频词有35个,其中10个为校名关键字(北京大学、浙江大学、南开、南京大学、南大、复旦、同济、武汉大学、东南大学、厦门大学),其余25个分别为“海洋、新增、高端、协同、产业、转化、推广、力争、国际化、需求、师生、海外、组织、导向、考核、电子、优秀、医疗、研究院、青岛、编制、实体、经济、校友、指标”

海洋

中国海洋大学(220)

需求

中国海洋大学(36)

医疗

西安交通大学(28)

新增

兰州大学(77)

师生

南开大学(35)

研究院

山东大学(27)

高端

四川大学(56)

海外

南开大学(34)

青岛

山东大学(24)

协同

中国海洋大学(52)

组织

华中科技大学(34)

编制

华中科技大学(23)

产业

西北农林科技大学(43)

导向

同济大学(33)

实体

华东师范大学(22)

转化

四川大学(40)

考核

武汉大学(33)

经济

电子科技大学(21)

推广

西北农林科技大学(39)

电子

电子科技大学(32)

校友

电子科技大学(20)

力争

四川大学(38)

优秀

南开大学(31)

指标

中山大学(18)

国际化

上海交通大学(37)

 

 

 

 

词频分析是一种数据分析方法,比上述工作要复杂和仔细很多,笔者仅仅在表层上做些呈现,只是周末时间的自娱自乐而已,有兴趣的同仁不妨进一步分析。


2017年9月17日




https://blog.sciencenet.cn/blog-2677932-1076635.html

上一篇:增加1个高被引科学家对2017软科排名的影响分析
下一篇:小议第四轮学科评估进退步评判方法
收藏 IP: 202.112.90.*| 热度|

2 黄永义 赵美娣

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 11:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部