||
本文主要是关于文本表示的一些模型的介绍,其实就是想推荐给你们一些容易理解的资源。我就给链接,具体要了解,还是大家自己去看,有觉得不正确的地方可以交流,我来更正。
主要有这样几个模型:VSM(不解释),LSI,LDA,D2V。
VSM模型是非常基础的文本表示方式,把要表示的文本分词,可以做做降维,选出文本特征,然后基本上就完成了VSM模型表示的90%的工作量。
好了下面开始正题:
首先是LSI。在用LSI的时候一直在纠结我是写LSI还是LSA。虽然两个是差不多的感觉,而且看到的资料总是一会儿用LSI,一会儿用LSA。后来看到一个资料是这么写的,估计也是看到文献中的:
LSI refers to using this technique for indexing, or information retrieval. LSA refers to using it for everything else.
所以他们指的是同一种技术,只是应用场景不同。
转自:http://www.datalab.sinaapp.com/?p=277
潜语义分析利用奇异值分解技术把文本从高维空间映射到低维空间,称之为潜语义空间,文档的相似性在这个空间内进行比较。空间的维度个数可以自己指定,往往比传统向量空间维度更少,所以LSA也是一种降维技术。而关于奇异值分解技术的说明,大家可以看看这个链接:http://blog.csdn.net/wangzhiqing3/article/details/7446444
其他相关的有用链接:
http://blog.csdn.net/bob007/article/details/30496559
http://blog.csdn.net/roger__wong/article/details/41175967
http://blog.sina.com.cn/s/blog_7d43383e0101eecu.html
LSI模型总结一下关键要理解奇异值分解的步骤,感觉就是利用数学的方法,把一个大矩阵缩小为一个小矩阵,而这个小的就是潜在语义空间了。
说完LSI,说一下LDA(Latent Dirichlet Allocation)。不得不提到LDA数学八卦(给一个微盘链接:http://vdisk.weibo.com/s/q0sGh/1360334108?utm_source=weibolife),初学的时候觉得自己能把这个PDF看懂就胜利了,结果看到最后看晕了,至今没再探究过。虽然每次看到别人的论文将LDA模型翻来覆去得玩很是羡慕,但是自己确实连弄懂都困难,又不去搞清楚,实在怪自己咯~
好吧,这个如果不深究其中的数学原理,可以看看这几个链接:
http://www.xperseverance.net/blogs/2012/03/17/(不错的!)
http://blog.csdn.net/poson/article/details/8195908(有讲到Gibbs Sampling,浅显)
http://blog.csdn.net/poson/article/details/8195908
http://blog.csdn.net/wangran51/article/details/7408399
不过,如果觉得自己数学水平还是可以的,可以看看下面这个链接:
http://blog.csdn.net/v_july_v/article/details/41209515?utm_source=tuicool&utm_medium=referral
除此之外,LDA在进行参数学习时,较为常用的方法是Gibbs采样,想要了解何为Gibbs Sampling可以看一下如下的链接:
http://blog.csdn.net/yangliuy/article/details/8302599
http://download.csdn.net/detail/zouhch/4352762
另外推荐文章:Heinrich G. Parameter estimation for text analysis[J]. University of Leipzig, Tech. Rep, 2008.
Oh 终于到了深度学习模型了么?这个我是真的还没研究透,连梯度下降我都迷糊,更别说这个了。
做研究的时候主要用了Mikolov团队开发的doc2vec还不是word2vec,不过是差不多的原理啦。来个原话:
The only change in this model compared to the word vector framework is in equation 1, where h is constructed from W and D.
给你们看一下公式1
其中,
every paragraph is mapped to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W.
经典文献,我就不给了,还是给一些别人写的资源:
http://blog.csdn.net/mytestmy/article/details/26961315?utm_source=tuicool&utm_medium=referral
http://blog.csdn.net/mytestmy/article/details/26969149?utm_source=tuicool&utm_medium=referral
还有来自知乎的资源:
https://www.zhihu.com/question/21661274/answer/19331979
其中见解还是大家懂的去探究吧,我觉得我还是小白。
这里还有一个实战链接:
http://techblog.youdao.com/?p=915
实践证明学好数学是一件大事啊!
结束。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-3-29 01:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社