天上人间分享 http://blog.sciencenet.cn/u/terahertz 淡泊明志,宁静致远 liuguifeng29@163.com

博文

基于BERTopic主题模型融合RoBERTa算法的短文本分类方法研究

已有 189 次阅读 2024-12-30 15:25 |个人分类:发表论文|系统分类:论文交流

(本文发表于《情报工程》2024年第5期P85-98)

   摘要:[目的/意义]针对短文本分类中的稀疏问题,提出一种基于BERTopic-RoBERTa-PCA-CatBoost模型进行主题概率特征扩展的短文本分类方法。[方法/过程]使用RoBERTa模型获取短文本的词向量表示,使用BERTopic主题模型提取主题概率特征向量,二者融合进行特征扩展,最后通过CatBoost算法分类。[局限]在分类层面,未使用深度学习算法进行验证;在特征融合层面,未来可以考虑其他的特征融合方法。[结果/结论]提出的BERTopic-RoBERTa-PCACatBoost模型与LDA-CatBoost模型相比在准确率上提升10.90%,精确率上提升10.91%,召回率上提升10.68%。基于主题概率特征扩展的短文本分类方法能够克服单一模型的不足,提高短文本分类的效果。

链接:基于BERTopic主题模型融合RoBERTa算法的短文本分类方法研究  http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202405008&flag=1 



https://blog.sciencenet.cn/blog-39723-1466622.html

上一篇:奋进2024——我的2024年度总结
收藏 IP: 180.118.108.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-2 20:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部