章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

利用在线评论文本研究大众的食与行

已有 4243 次阅读 2020-8-6 18:00 |个人分类:文本挖掘|系统分类:论文交流

       在线评论文本的挖掘与应用已经受到广泛的关注,其中关于人们衣食住行等基本情况的调研是个非常有趣、并且有挑战的研究话题。

       近年来,饮食偏好分析已成为一个热门的研究课题。然而,现有研究大多是通过问卷调查或访谈进行的,受到数据收集的时间、成本和范围的限制。当前,人们通过在社交媒体平台上发布关于饮食的评论,由此产生的大量的用户生成内容(UGC)能够表明人们对不同菜系的偏好。我们利用社交媒体对用户关于中餐的偏好进行研究。具体而言,我们基于UGC和在线食谱,首先调查不同地区的美食偏好分布;在此基础上,计算不同地区间的菜肴偏好相似度;然后,利用层次聚类法,分别基于菜肴偏好和配料使用情况对区域进行聚类。实验结果表明,在20种中国传统菜系中,川菜在中国所有地区最受欢迎。地理邻近性与区域菜肴偏好的差异比气候接近更为密切。不同于传统的菜系定义,我们从社交媒体的菜肴偏好和菜肴的成分使用两个方面发现了区域与菜系的新联系。使用社交媒体可以克服使用传统问卷的不足,例如问卷设计和回答成本高、周期长Zhang et al. 2019

       另外,我们还利用用户生成内容分析社交媒体用户的饮食偏好的演变。我们使用来自weibo.com的微博数据,通过情感分析来检测中国社交媒体用户的饮食偏好及其演变。具体而言,首先,本文比较四种提取方法来获得饮食属性;其次确定各属性和菜肴的情感极性;最后,分析饮食偏好的演变。实证分析结果表明,微博社交媒体用户对中国饮食现状并不满意;同时,性别和地区对饮食偏好有显著影响,用户的饮食偏好随时间而变化;此外,实验结果表明,上下文信息有助于提取饮食属性Zhou & Zhang, 2018

       最后,我们利用在线评论,针对大众旅游(出行目的之一)的调研进行一些尝试。通过自动问答(AQA)从大量的评论中挖掘出用户的态度,可以辅助产品或者服务营销。在AQA过程中,通过情感计算生成问题及提取相应答案。为了验证AQA的在线调查性能,我们以途牛网的在线评论作为实验数据集进行实证,并比较基于AQA与基于传统问卷的调查结果。实验结果表明,基于AQA的自动问卷与传统问卷的结果比较接近。这说明,AQA方法在识别用户态度方面具有一定的可靠性。这个研究首次使用AQA方法挖掘用户对旅游服务态度的研究。利用在线评论数据可以克服传统问卷存在的成本高、问卷设计和回答周期长等问题(Zhang et al. 2019)。

       以上,是我们对大众的食与行的初步研究,关于衣、住、文化生活等方面的研究也是非常有趣的话题。如果综合社交网络上的用户评论数据与其他数据,对大众进行相对全面的画像构建,将很有趣但挑战也非常巨大,这涉及到数据采集、用户隐私保护、虚假信息过滤等多个方面问题的解决。


      相关博文:

      利用图书评论数据来评价图书的影响力 

      中美网民购物行为有何差异? 用电商网站产品评论来回答


     参考文献:
Chengzhi Zhang, Zijing Yue, Qingqing Zhou, Shutian Ma, Zike Zhang. Using social media to explore regional cuisine preferences in China. Online Information Review. 2019, 43(7): 1098-1114. https://doi.org/10.1108/OIR-08-2018-0244

Qingqing Zhou, Chengzhi Zhang. Detecting Users’ Dietary Preferences and Their Evolutions via Chinese Social Media. Journal of Database Management. 2018, 29(3): 89-110. https://doi.org/10.4018/JDM.2018070105 

Chengzhi Zhang, Qingqing Zhou. Online Investigation of users’ attitudes using automatic question answering. Online Information Review. 2018, 42(3): 419-435. https://doi.org/10.1108/OIR-10-2016-0299




https://blog.sciencenet.cn/blog-36782-1245263.html

上一篇:专题:情报学方法体系构建中的关键技术研究
下一篇:自然语言处理领域的算法演化
收藏 IP: 49.74.120.*| 热度|

3 熊泽泉 王兴 fmjzjn

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 19:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部