博文

基于公开信息的文本分析

已有 2944 次阅读 2019-9-7 11:03 |个人分类:研究生课程论文|系统分类:人文社科| 数据采集方法

数据采集大作业-（4）基于公开信息的文本分析

作者：王敬、姜鑫

单位：曲阜师范大学统计学院

在这个新科技知识不断涌现和拥有空前规模信息量的“信息爆炸”时代，使得网络成为了人们获取信息，发表意见的重要媒介，在短时间内能从中获取有用的信息成为人们迫切的需要。

不断膨胀发展的互联网信息中存储着大量的文本信息，在进行文本信息的收集之后，由于信息量大，对内容进行识别和分类还是很困难的。文本自动分类技术的应用，能够提高人们对信息的提取速度，快速实现文本类别的划分。目前关于文本分类大都是通用的文本分类器，专业领域的文本分类器还没有得到十分广泛的发展。

本文主要进行了两部分的研究：第一，是根据公开信息的文本类型，将数据随机地分为训练集和测试集，根据训练集建立了朴素贝叶斯分类器，然后对测试集进行了分类预测，最后，改进了模型的参数，选取了最佳的分类器。第二，根据信息公开的数据，分别做了总体的，以及每一年的公文发布情况统计词频并画词云图进行分析。

转载本文请联系原作者获取授权，同时请注明本文来自王文武科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3316039-1197007.html

上一篇：基于文本信息挖掘的工作报告分析
下一篇：[转载]曲阜师范大学国家级一流本科专业---统计学

收藏 IP: 202.189.107.*| 热度|

数据加载中...

返回顶部

扫一扫，分享此博文