Griffiths et. al.~cite{GSBT05}认为,一个词出现在句子中是有原因的。作者将原因分为两种:一种是它起到的是句法(syntactic)功能,使整个句子符合一定的语言规范,也就是常说的虚词(function words);另一种它起到语义(semantic)功能,传递句子的真实含义,也就是常说的实词(content words)。
句法约束通常是短程(short-range)的,一般不会超过一个句子;而语义约束通常是长程(long-range)的,也就是说同一篇文档的不同句子表达相近或相关的内容,通常会使用相近或相关的词汇。句法约束一般用HMM(Hidden Markov Model,隐马尔科夫模型)或PCFG(Probabilistic Context Free Grammar,概率上下文无关文法)进行建模,而语义约束通常用主题模型(topic model)进行建模。以前的研究通常将二者分开进行考虑,Griffiths et. al.认为如果将二者组合在一起,估计会得到更好的效果,于是就提出了HMM-LDA模型,文献~cite{GSBT05}对HMM-LDA模型有详细描述。
@STRING(NIPS17="Advances in Neural Information Processing Systems 17")
@INCOLLECTION{GSBT05,
author = {Griffiths, Thomas L. and Steyvers, Mark and Blei, David M. and Tenenbaum,
Joshua B.},
title = {Integrating Topics and Syntax},
booktitle = NIPS17,
publisher = {MIT Press},
year = {2005},
editor = {Saul, Lawrence K. and Weiss, Yair and Bottou, L'{e}on},
pages = {537--544},
address = {Cambridge, MA},
}
https://blog.sciencenet.cn/blog-611051-532360.html
上一篇:
“! Latex source files more than 5 years old!.”解决方案下一篇:
推荐一款Windows下将jpeg文件转换成eps文件的小工具