||
从词频分析图表看高校“十三五”规划文本
在去年学校参与“十三五”规划编写前就有动议,计划等各高校规划文本出来后,尝试通过词频分析的方法做一点工作,看看能够从中发现什么有意思的东西。只是随着过后工作的变动,一直没有如愿。现如今各高校的规划编制工作早已告一段落,教育部直属高校的规划文本在教育部备案,并向社会公开的工作也早已完成。
借着周末的美好时光,突然又有一丝当时未完成计划的牵挂,索性一鼓作气,从教育部官网下载公开高校的规划文本,尝试词频分析工作。由于学校较多,导致对比分析过程复杂。本次分析作为尝试,选取了在教育部官网可获得文本的32所“985高校”。(除北京航空航天大学、北京理工大学、国防科技大学、中央民族大学、哈尔滨工业大学、中国科学技术大学、西北工业大学)
本报告分析的文本为备案文本的全文本内容(即个别高校在发布文本材料中包含编制说明等内容,在分析中均统计在内)。
一、规划文本体量
其中东北大学的规划文本文字量最大,共计42111字。
中山大学的规划文本文字量最小,共计14242字。
32所高校规划文本的平均文字数为25447字。
二、热词词频
根据谷尼舆情图悦picdata.cn热词分析工具对32个规划文本分析显示,呈现了各高校文本热词权重前100名的热词。为进一步聚焦,笔者从各高校前100名的热词中,根据热词出现次数,筛选了各高校规划文本中出现频率最高的30个词语,并暂且定义为“高频词”。词语在文本中出现的次数定义为“原始词频”。由于规划文本文字量的差异,为便于高校间热词对比,根据各规划文本的文字量对热词原始词频进行折算,归一到同一尺度,归一化后的词频结果定义为“折算词频”。根据统计:
1. 最高“原始词频”的热词为“建设”,来自于兰州大学规划文本,共计306次。
2. 最高“折算词频”的热词为“建设”,来自于同济大学规划文本,共计446次。
3. 所有32所高校共有的高频词有9个,分别为:“人才、科研、学校、创新、培养、国际、学科、建设、教学”。说明在本轮规划中,高校普遍对“人力资源、人才培养、学科建设、科学研究、国际对话,创新发展”的重视。(下图呈现的词频为“折算词频”)
4. 所有32所高校的规划文本中出现过的高频词共有101个,对其在各高校中的出现次数进行汇总,形成101个高频词在所有32个高校规划文本中出现的中次数,出现次数最多的是“建设”,共计5826次。下图列举中出现频次的TOP20,分别为“建设、学科、创新、学校、人才、培养、教育、国际、科研、教学、改革、大学、学术、资源、合作、学生、教师、规划、科技、项目”,图中的柱形图为各热词原始词频,折线图为该热词在多少个高校中成为“高频词”。
4. 如果说32所高校共同出现的高频词代表了高校普遍的发展需求,那少数高校出现的高频词可以代表高校的发展特色。
(1)5所高校共有的高频词有3个,分别为“优势、保障、健全”。(高校名称后括号中的数字为热词在该高校规划文本中的“原始词频”,下同)
优势 | 吉林大学(44) | 上海交通大学(43) | 中国海洋大学(44) | 中国人民大学(45) | 中山大学(18) |
保障 | 北京师范大学(45) | 四川大学(41) | 天津大学(25) | 中国人民大学(44) | 中山大学(18) |
健全 | 北京师范大学(38) | 东南大学(30) | 华东师范大学(22) | 华中科技大学(22) | 中国农业大学(26) |
(2)4所高校共有的高频词有2个,分别为“中国、支撑”。
中国 | 北京大学(47) | 复旦大学(41) | 厦门大学(25) | 武汉大学(32) |
支撑 | 上海交通大学(38) | 浙江大学(42) | 中国海洋大学(40) | 重庆大学(22) |
(3)3所高校共有的高频词有6个,分别为“十三五、基地、探索、核心、深化”。
十三五 | 东北大学(70) | 兰州大学(51) | 天津大学(24) |
基地 | 兰州大学(58) | 南开大学(31) | 西安交通大学(37) |
体制 | 北京大学(49) | 山东大学(32) | 西安交通大学(40) |
探索 | 清华大学(37) | 山东大学(24) | 中国人民大学(41) |
核心 | 武汉大学(32) | 中南大学(36) | 中山大学(22) |
深化 | 南开大学(30) | 厦门大学(24) | 西安交通大学(35) |
(4)2所高校共有的高频词有11个,分别为“农业、院系、学位、医学、校区、领域、团队、交叉、干部、任务、环境”。
农业 | 西北农林科技大学(83) | 中国农业大学(54) |
院系 | 北京大学(60) | 北京师范大学(49) |
学位 | 兰州大学(54) | 中国人民大学(54) |
医学 | 兰州大学(64) | 中南大学(40) |
校区 | 山东大学(44) | 中山大学(40) |
领域 | 天津大学(24) | 中国海洋大学(45) |
团队 | 中国海洋大学(44) | 中山大学(24) |
交叉 | 南京大学(29) | 清华大学(39) |
干部 | 北京师范大学(36) | 中国农业大学(26) |
任务 | 复旦大学(30) | 中山大学(21) |
环境 | 天津大学(24) | 中山大学(18) |
(4)唯一高校独有的高频词有35个,其中10个为校名关键字(北京大学、浙江大学、南开、南京大学、南大、复旦、同济、武汉大学、东南大学、厦门大学),其余25个分别为“海洋、新增、高端、协同、产业、转化、推广、力争、国际化、需求、师生、海外、组织、导向、考核、电子、优秀、医疗、研究院、青岛、编制、实体、经济、校友、指标”。
海洋 | 中国海洋大学(220) | 需求 | 中国海洋大学(36) | 医疗 | 西安交通大学(28) |
新增 | 兰州大学(77) | 师生 | 南开大学(35) | 研究院 | 山东大学(27) |
高端 | 四川大学(56) | 海外 | 南开大学(34) | 青岛 | 山东大学(24) |
协同 | 中国海洋大学(52) | 组织 | 华中科技大学(34) | 编制 | 华中科技大学(23) |
产业 | 西北农林科技大学(43) | 导向 | 同济大学(33) | 实体 | 华东师范大学(22) |
转化 | 四川大学(40) | 考核 | 武汉大学(33) | 经济 | 电子科技大学(21) |
推广 | 西北农林科技大学(39) | 电子 | 电子科技大学(32) | 校友 | 电子科技大学(20) |
力争 | 四川大学(38) | 优秀 | 南开大学(31) | 指标 | 中山大学(18) |
国际化 | 上海交通大学(37) |
|
|
|
|
词频分析是一种数据分析方法,比上述工作要复杂和仔细很多,笔者仅仅在表层上做些呈现,只是周末时间的自娱自乐而已,有兴趣的同仁不妨进一步分析。
2017年9月17日
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 11:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社