|||
数据采集大作业-(7)基于文本信息挖掘的工作报告分析
作者:周潇、杜浩哲、周璇
指导教师:王文武
单位:曲阜师范大学 统计学院
每年3月的全国“两会”是我国政治生活中的一件大事, “两会”历时长、议题多、跨度大, 重大话题密集、舆情复杂。以统计学方法对两会政府工作报告相关文本信息进行量化,用数据说明政府和民众对各方面关注热点,有利于挖掘政策导向、民意热点[1]。
本文首先对2019年两会政府工作报告进行词频统计和词云图分析,内容包括文档分词并统计词频、绘制词云图、直观展示报告重点。结果发现“发展”和“改革”是频数最高的两个词,“服务”、“经济”、“建设”也是在报告中多次被强调的,可见,我国政府工作的中心离不开发展生产力、以经济为中心、为人民服务。
其次,分析自2014年至2019年两会政府工作报告,统计出这6年的政府工作报告词频并绘制词云对比图、雷达图对政府工作报告关注热点进行对比分析。结果发现,政府工作报告每年都以发展、改革等为中心,但每年都有不同于以往的侧重点和亮点。
最后,使用R软件爬取500条“我向总理说句话”活动中的网民建言评论信息,将收集的建言评论内容转化为定量的数据, 对“两会”民众关注的问题进行描述和分析, 探寻两会期间民众方面关注的热点。内容包括如下三个部分:绘制出留言的词云图并进行分析;做词项聚类和文本聚类,理清大众关注的社会问题之间的联系;建立LDA模型,通过无监督学习发现文本中隐含的主题信息。
home.php?mod=attachment&filename=&id=424580
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社