|||
现实生活中存在的序列有很多,如文本、音乐、DNA序列等。由于都是序列,所以关于一些序列处理的基本方法,有很多是相通的,比如序列切分、序列比对、序列相似度的计算等。
目前在文本挖掘(或机器学习)领域,主题模型(Topic model)研究的很火,基本想法就是文本集不直接用词语(word)来表示,而是通过隐含主题(topic)来表示。
主题模型的基础是概率模型,让人觉得主题模型的提出者,是突发奇想,搞出这么一个模型,后来又有很多人搞出一些变种模型出来。但如果将处理对象换成是音乐的乐谱或者DNA序列,这个东西似乎容易理解些。换成是音乐,似乎天然就存在所谓的主题模型:乐谱的基本构成比文本构成要简单的多,7个符号组成谱子,可以表达不同主题(怀旧的、忧郁的等)。如果是DNA,4个符号(A、C、G、T)组成的序列,具有不同的功能。
由于文本的基本组成部分(文字或者词语)比音乐、DNA的规模要大的多,所以做文本的主题模型,似乎难度要大得多(若要考虑所有文字的排列组合,这显然是个不可计算问题),所以现阶段,在一定规模的语料库上做的主题模型,用概率是必然的了。
若将文本挖掘领域的主题模型引入到音乐分析中,那么只用大规模的乐谱,不同主题类别的音乐似乎可以被机器自动识别出来。同样,DNA序列分析里,也可以借鉴主题模型。
以上是些零星想法,不正确的地方,还请懂行的朋友指正。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 04:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社