||
(本文发表于《情报工程》2024年第5期P85-98)
摘要:[目的/意义]针对短文本分类中的稀疏问题,提出一种基于BERTopic-RoBERTa-PCA-CatBoost模型进行主题概率特征扩展的短文本分类方法。[方法/过程]使用RoBERTa模型获取短文本的词向量表示,使用BERTopic主题模型提取主题概率特征向量,二者融合进行特征扩展,最后通过CatBoost算法分类。[局限]在分类层面,未使用深度学习算法进行验证;在特征融合层面,未来可以考虑其他的特征融合方法。[结果/结论]提出的BERTopic-RoBERTa-PCACatBoost模型与LDA-CatBoost模型相比在准确率上提升10.90%,精确率上提升10.91%,召回率上提升10.68%。基于主题概率特征扩展的短文本分类方法能够克服单一模型的不足,提高短文本分类的效果。
链接:基于BERTopic主题模型融合RoBERTa算法的短文本分类方法研究 http://tie.istic.ac.cn/qbgc/ch/reader/view_abstract.aspx?file_no=202405008&flag=1
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-2 20:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社