wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

基于公开信息的文本分析

已有 3384 次阅读 2019-9-7 11:03 |个人分类:研究生课程论文|系统分类:人文社科| 数据采集方法

数据采集大作业-(4)基于公开信息的文本分析

作者:王敬、姜鑫

指导教师:王文武

单位:曲阜师范大学  统计学院


在这个新科技知识不断涌现和拥有空前规模信息量的“信息爆炸”时代,使得网络成为了人们获取信息,发表意见的重要媒介,在短时间内能从中获取有用的信息成为人们迫切的需要。

不断膨胀发展的互联网信息中存储着大量的文本信息,在进行文本信息的收集之后,由于信息量大,对内容进行识别和分类还是很困难的。文本自动分类技术的应用,能够提高人们对信息的提取速度,快速实现文本类别的划分。目前关于文本分类大都是通用的文本分类器,专业领域的文本分类器还没有得到十分广泛的发展。

本文主要进行了两部分的研究:第一,是根据公开信息的文本类型,将数据随机地分为训练集和测试集,根据训练集建立了朴素贝叶斯分类器,然后对测试集进行了分类预测,最后,改进了模型的参数,选取了最佳的分类器。第二,根据信息公开的数据,分别做了总体的,以及每一年的公文发布情况统计词频并画词云图进行分析。


王敬、姜鑫---关于公开信息的文本分析.pdf




https://blog.sciencenet.cn/blog-3316039-1197007.html

上一篇:基于文本信息挖掘的工作报告分析
下一篇:[转载]曲阜师范大学国家级一流本科专业---统计学
收藏 IP: 202.189.107.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 14:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部