||
Vapnik的统计学习理论在理论上的最重要的贡献是提出了衡量学习器容量的VC维,根据VC维可以计算学习风险的上界。因此可以通过选择不同VC维的学习器来同时控制经验风险和结构风险。Vapnik的理论产生的最重要的应用成果就是SVM(Support Vector Machine)。SVM一直被认为是建立在坚实理论基础上的机器学习算法。
最近读了Vapnik的《统计学习理论》,虽然还没有读完,刚刚看完Vapnik关于指示函数的风险分析以及VC维的引出,后面还有相当多的部分包括实函数的风险分析,SVM等部分。Vapnik的理论是优美的,揭示了机器学习中的本质问题。其理论甚至有哲学上的意义, 如VC维无线意味着不可证伪性,如从特殊-一般-特殊的认识规律不一定比从特殊-特殊的方法好等等。
1. 一般来说,VC维确定的学习风险的界过于悲观。VC维确定的界是与分布无关的,是极为通用的界。对于小样本问题,无法准确估计样本的分布情况下,这个界是有意义的。但是对于样本较大的问题,VC维的界显然是过松了,因为此时样本的分布能够较好的估计出来。如果考虑样本呢的分布,学习风险的界应该更紧。
2. 用VC维另一个缺点就是计算起来不方便。要确定一个学习器的VC维通常不是一件容易的事。有时在估计VC维的时候有可能再一次通过不等式放大VC维,从而进一步放松界。
3. SVM的数学形式很完美。但是在实际应该用中有以下几个缺点,1).原始版的SVM对Feature空间要求较高(要求是Hilbert 空间), 而现实中很多数据的Feature都是Nominal的,不连续也无序的关系。2).对Feature缺失值处理不好,理由同上。3)对非线性问题没有通用解决方案,必须谨慎选择Kernel function来处理。
(待续)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-31 01:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社