|||
数据采集大作业-(4)基于公开信息的文本分析
作者:王敬、姜鑫
指导教师:王文武
单位:曲阜师范大学 统计学院
在这个新科技知识不断涌现和拥有空前规模信息量的“信息爆炸”时代,使得网络成为了人们获取信息,发表意见的重要媒介,在短时间内能从中获取有用的信息成为人们迫切的需要。
不断膨胀发展的互联网信息中存储着大量的文本信息,在进行文本信息的收集之后,由于信息量大,对内容进行识别和分类还是很困难的。文本自动分类技术的应用,能够提高人们对信息的提取速度,快速实现文本类别的划分。目前关于文本分类大都是通用的文本分类器,专业领域的文本分类器还没有得到十分广泛的发展。
本文主要进行了两部分的研究:第一,是根据公开信息的文本类型,将数据随机地分为训练集和测试集,根据训练集建立了朴素贝叶斯分类器,然后对测试集进行了分类预测,最后,改进了模型的参数,选取了最佳的分类器。第二,根据信息公开的数据,分别做了总体的,以及每一年的公文发布情况统计词频并画词云图进行分析。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 14:21
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社