wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

基于文本信息挖掘的工作报告分析

已有 801 次阅读 2019-9-2 09:37 |个人分类:研究生课程论文|系统分类:人文社科| 数据采集方法

数据采集大作业-(7)基于文本信息挖掘的工作报告分析

作者:周潇、杜浩哲、周璇

指导教师:王文武

单位:曲阜师范大学  统计学院


每年3月的全国“两会”是我国政治生活中的一件大事“两会”历时长、议题多、跨度大重大话题密集、舆情复杂。以统计学方法对两会政府工作报告相关文本信息进行量化,用数据说明政府和民众对各方面关注热点,有利于挖掘政策导向、民意热点[1]

本文首先对2019年两会政府工作报告进行词频统计和词云图分析,内容包括文档分词并统计词频、绘制词云图、直观展示报告重点。结果发现“发展”和“改革”是频数最高的两个词,“服务”、“经济”、“建设”也是在报告中多次被强调的,可见,我国政府工作的中心离不开发展生产力、以经济为中心、为人民服务。

其次,分析自2014年至2019年两会政府工作报告,统计出这6年的政府工作报告词频并绘制词云对比图、雷达图对政府工作报告关注热点进行对比分析。结果发现,政府工作报告每年都以发展、改革等为中心,但每年都有不同于以往的侧重点和亮点。

最后,使用R软件爬取500条“我向总理说句话”活动中的网民建言评论信息,将收集的建言评论内容转化为定量的数据对“两会”民众关注的问题进行描述和分析探寻两会期间民众方面关注的热点。内容包括如下三个部分:绘制出留言的词云图并进行分析;做词项聚类和文本聚类,理清大众关注的社会问题之间的联系;建立LDA模型,通过无监督学习发现文本中隐含的主题信息。


home.php?mod=attachment&filename=&id=424580




http://blog.sciencenet.cn/blog-3316039-1196263.html

上一篇:基于R的中国人口及污染物地图绘制探索
下一篇:基于公开信息的文本分析

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-13 05:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部