研究记录分享 http://blog.sciencenet.cn/u/petrelli 记录是自我管理的有效方式

博文

SVM for PR

已有 4022 次阅读 2010-9-13 16:17 |个人分类:生活点滴|系统分类:人文社科| svm

教授Jinglu Hu 今天来学院讲座,主要讲了SVM的性质和当前SVM技术研究的一些challenge.

支持向量机的介绍从分类问题出发,介绍无噪声的分类问题最小化regularizer,到带噪声的最小化regularizer和slack variables的组合. 支持向量是造成slack variables取正值的那些Points.

支持向量机研究工作有待深入的四个方面:

  1. huge training data
  2. high dimensional data
  3. noise
  4. unbalanced training data

第1个问题他们提出的一个解决方法是seperable boundary detection: 找到处于边界的数据以减少数据量,通过聚类等方式找到数据集的结构,将两者混合训练出的模型比传统的SVM 算法得到的模型要快速.

第2个问题的一个解决方法是feature selection: 首先将每个特征按照敏感度(我的第一反应是按方差,但是他提到的是什么我忘了)排序, 取最有效的特征子集; 然后用correlated based方法将特征聚类(Affinity propogation, 2007 science), 得到一个更好的特征集用于训练.

讲第3个问题时可能去接电话了,没注意到.

第4个问题是将数据按照第1个问题的方法找到边界数据,然后再用聚类方法得到一些local training data训练出若干个local SVM, 接着将他们组合起来构成一个SVM. 但是这样的方式在预测时效率较低,通过每个Local svm的输出分段,然后训练出一个SVM来预测,这样可以解决相应的疑问(这里听得不太清楚).



https://blog.sciencenet.cn/blog-472136-362676.html

上一篇:metric learning to rank
下一篇:ICML2010要看的文章列表
收藏 IP: .*| 热度|

1 唐常杰

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 23:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部