mashutian的个人博客分享 http://blog.sciencenet.cn/u/mashutian

博文

关于文本表示的一些模型(看到别人写的一些资源存留一下)

已有 6172 次阅读 2016-2-13 01:54 |系统分类:科研笔记| lda, LSI, 文本表示模型, D2V

本文主要是关于文本表示的一些模型的介绍,其实就是想推荐给你们一些容易理解的资源。我就给链接,具体要了解,还是大家自己去看,有觉得不正确的地方可以交流,我来更正。

主要有这样几个模型:VSM(不解释),LSI,LDA,D2V。


VSM模型是非常基础的文本表示方式,把要表示的文本分词,可以做做降维,选出文本特征,然后基本上就完成了VSM模型表示的90%的工作量。


好了下面开始正题:

首先是LSI。在用LSI的时候一直在纠结我是写LSI还是LSA。虽然两个是差不多的感觉,而且看到的资料总是一会儿用LSI,一会儿用LSA。后来看到一个资料是这么写的,估计也是看到文献中的:

LSI refers to using this technique for indexing, or information retrieval. LSA refers to using it for everything else.

所以他们指的是同一种技术,只是应用场景不同。

转自http://www.datalab.sinaapp.com/?p=277 

潜语义分析利用奇异值分解技术把文本从高维空间映射到低维空间,称之为潜语义空间,文档的相似性在这个空间内进行比较。空间的维度个数可以自己指定,往往比传统向量空间维度更少,所以LSA也是一种降维技术。而关于奇异值分解技术的说明,大家可以看看这个链接:http://blog.csdn.net/wangzhiqing3/article/details/7446444

其他相关的有用链接:

http://blog.csdn.net/bob007/article/details/30496559

 http://blog.csdn.net/roger__wong/article/details/41175967

 http://blog.sina.com.cn/s/blog_7d43383e0101eecu.html

LSI模型总结一下关键要理解奇异值分解的步骤,感觉就是利用数学的方法,把一个大矩阵缩小为一个小矩阵,而这个小的就是潜在语义空间了。


说完LSI,说一下LDA(Latent Dirichlet Allocation)。不得不提到LDA数学八卦(给一个微盘链接:http://vdisk.weibo.com/s/q0sGh/1360334108?utm_source=weibolife),初学的时候觉得自己能把这个PDF看懂就胜利了,结果看到最后看晕了,至今没再探究过。虽然每次看到别人的论文将LDA模型翻来覆去得玩很是羡慕,但是自己确实连弄懂都困难,又不去搞清楚,实在怪自己咯~

好吧,这个如果不深究其中的数学原理,可以看看这几个链接:

http://www.xperseverance.net/blogs/2012/03/17/(不错的!)

 http://blog.csdn.net/poson/article/details/8195908(有讲到Gibbs Sampling,浅显

 http://blog.csdn.net/poson/article/details/8195908

http://blog.csdn.net/wangran51/article/details/7408399

不过,如果觉得自己数学水平还是可以的,可以看看下面这个链接:

http://blog.csdn.net/v_july_v/article/details/41209515?utm_source=tuicool&utm_medium=referral

除此之外,LDA在进行参数学习时,较为常用的方法是Gibbs采样,想要了解何为Gibbs Sampling可以看一下如下的链接:

http://blog.csdn.net/yangliuy/article/details/8302599

 http://download.csdn.net/detail/zouhch/4352762

另外推荐文章:Heinrich G. Parameter estimation for text analysis[J]. University of Leipzig, Tech. Rep, 2008.


Oh 终于到了深度学习模型了么?这个我是真的还没研究透,连梯度下降我都迷糊,更别说这个了。

做研究的时候主要用了Mikolov团队开发的doc2vec还不是word2vec,不过是差不多的原理啦。来个原话:

The only change in this model compared to the word vector framework is in equation 1, where h is constructed from W and D.

给你们看一下公式1


其中,

every paragraph is mapped to a unique vector, represented by a column in matrix D and every word is also mapped to a unique vector, represented by a column in matrix W.

经典文献,我就不给了,还是给一些别人写的资源:

http://blog.csdn.net/mytestmy/article/details/26961315?utm_source=tuicool&utm_medium=referral

 http://blog.csdn.net/mytestmy/article/details/26969149?utm_source=tuicool&utm_medium=referral

还有来自知乎的资源:

https://www.zhihu.com/question/21661274/answer/19331979

其中见解还是大家懂的去探究吧,我觉得我还是小白。

这里还有一个实战链接:

http://techblog.youdao.com/?p=915

实践证明学好数学是一件大事啊!

结束。


 

 

 






https://blog.sciencenet.cn/blog-1497049-955833.html

上一篇:《java编程那些事儿》 前面部分阅读笔记
下一篇:ASIST2016参会总结
收藏 IP: 221.178.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 01:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部