wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

基于豆瓣影评的文本分析---以《流浪地球》为例

已有 4353 次阅读 2019-8-31 11:40 |个人分类:研究生课程论文|系统分类:教学心得| 数据采集方法

数据采集大作业-(1)基于豆瓣影评的文本分析---以《流浪地球》为例

作者:付悦、冯园园

指导教师:王文武

单位:曲阜师范大学  统计学院


随着web2.0的出现,我国网民数量越来越多,随之而来的是大量数据的产生。人们在网络上发表的意见、看法,对我们的生活有着一定的影响。同时,也促使文本挖掘的发展。如今,评论分析是研究的一大热门,产品评论根据产品类型区分为搜索型(以电子产品为代表)与体验型(以电影图书为代表)两类评论,其中前者关注产品特点,偏向使用客观指标描述,而后者关注用户参与感受,偏向主观感知描述,含有大量个人感受及体验的描述,情感内容丰富。

本文以豆瓣影评为分析对象。首先,针对评论数据建立分词词典与停用词词典;然后,利用自然语言处理技术对评论进行文本预处理;最后,利用向量空间模型将文本转化为词频矩阵形式,将非结构化的文本数据转化为传统的数值结构。为挖掘出观众对电影的评价观点,对评论文本进行分词并按词频降序排列,抽取出评论中的高频词,筛选出其中电影特征属性。评论中抽取出的特征属性即为观众重点关注的方面以及评价观点。为了实现对评论的主题分类,本文使用LDA主题模型,对评论构建主题。


冯园园、付悦---基于豆瓣影评的文本分析.pdf








https://blog.sciencenet.cn/blog-3316039-1196003.html

上一篇:网页数据采集方法及其应用
下一篇:关于手机评论的情绪分析---华为 VS iPhone
收藏 IP: 202.189.107.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 17:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部