||
朱老师的研究方法学:Are we on the right way?
翻译:金鑫 www.jinxin.me
问:视觉仅仅就是机器学习能够解决的分类问题而已吗?
答:NO!机器学习就像配中药!特征就是药材,配好的药就是训练好的分类器。
导读:美国加州大学洛杉矶分校的著名计算机视觉专家朱松纯教授,在其个人主页上用三幅漫画深入浅出地讲解了他的研究方法学。针对有学生提出“视觉是否仅仅就是机器学习分类问题的一个应用”,朱老师利用配中药类比机器学习,形象地讲解了计算机视觉与机器学习的区别;通过漫画“如何抵达月球”,描述了科学研究方法的几种情况;并且分析了骇客、数学与统计这三种科学研究方法与工具的区别和联系。朱老师大师级的讲解使得笔者受益匪浅,与大家分享。
视觉仅仅就是机器学习能够解决的分类问题而已吗?
一些学生曾经问我:视觉仅仅就是机器学习的一个应用吗(当前的技术利用大量样本训练Boosting或者SVM分类器)?如果是这样,那么留给计算机视觉研究人员的工作不就只剩下设计好用的特征了吗?这个问题是对视觉研究的一种侮辱,并且反映了视觉研究中一个误导的研究趋势:即,将视觉问题视为一个简单的分类问题。我对此并不感到意外,因为现在的年轻一代不仅从未听过Ulf Grenader(模式理论之父),甚至连David Marr(计算视觉之父)都不认识。如图1所示,作为类比,机器学习及其相关方法就像过去三千年中的中药铺:古代人对现代医学知识几乎一无所知,他们尝试了上百种药材(根、种子、贝壳、蠕虫、昆虫等),这就像机器学习研究人员试验各种特征。这些成分按照一定的比例混合,并且被煮成又黑又苦的汤药——这就是回归的过程。人们通常相信这样的汤药能够医治百病,包括癌症、非典、流感等。你所需要做的就是找到正确的药材(特征,features),然后将它们按照正确的比例(权重,weights)混合。理论上,你能够证明这是正确的(本质上,现代医学也会混合一些药材),就像机器学习方法可以在有足够多的特征和样本的情况下,确保能够解决所有的问题一样(根据统计理论)。但问题是:药材的空间如此之大,我们如何有效地找到正确的药材(在实际情况下,没有足够多数量的样本)?对于视觉来说,我们还需要研究图像的复杂结构、图像空间与它们的组成、各种模型与表达等等。
图1 机器学习就像配中药(由画家Kun Deng和朱老师一起绘画于2008年)
如何抵达月球?
视觉是现代科学与工程中饱受争议的、最具挑战的、具有巨大应用前景的问题之一,研究它的知识表达、学习与生物系统计算机制都具有极大的复杂性。针对一个如此复杂的难题,我们需要寻找长线的解决方案,并且要注意的是:一些看起来有前途的方法将可能会将研究带入死胡同。如图2所示,作为类比,假设一些猴子想去月球,他们可能会选择(1)爬树,的确,一棵很高的树可能足够一只猴子往上爬一辈子,(2)井底捞月,或者(3)乘坐热气球。所有这些方法看起来很聪明并且确实很可爱(cute),一些研究人员能够从中享受到一些进步的乐趣。然而,真正的解决方案(制造一艘宇宙飞船)往往会持续非常长的时间,并且让人看不倒希望。事实上,大多数人根本没学过宇宙学和火箭科学,他们认为这些科学非常复杂并且没有一点意思。
图2 如何抵达月球(由朱老师11岁的的女儿Stephanie Zhu在2010年绘画)
骇客(Hack)、数学与统计:视觉与其他科学中的方法和阶段
视觉(以及其他科学与工程)中的研究方法学大体上能够分为三种方法或阶段:骇客、数学与统计。骇客是启发式的或者是一些能够在一些情况起作用的技术,然而你不能准确的判断它何时何地能起作用。数学恰恰相反,它能够告诉我们在某种特定的情况下,事物能够被分析表达或者具有确定的性能。但是通常这些条件是很苛刻并且很有限制的,从而难以直接应用于解决现实世界中的实际问题。统计的本质是回归,利用很多参数能够最终拟合任何数据,但是缺乏理论解释。因此骇客、数学和统计是对科学问题的不同解释和模型。举例而言,如图3所示,中国明代著名的郑和下西洋[1405-1433]是当时最先进的航海活动,他们的远航抵达了非洲和欧洲,覆盖了2/3个世界,然而他们并不知道地球是圆的这个背后的规律!他们当时使用的技术叫做天文导航(celestial navigation),在我看来就是“骇客”。他们通过观察星斗来确定北方和纬度,星斗非常像如今在物体识别中使用的形状特征,它并不精确,但是能够在某种程度上适用于实际问题。牛顿在17世纪80年代提出了一个美妙的数学理论:万有引力*。这个美妙的数学理论非常简洁地解释了恒星与行星的运动规律。但是数学无法完整的解释月球的全部运动。牛顿后来表示月球理论使他“感到非常头疼并导致他经常失眠,以至于再也不愿意去思考这个问题”**。18世纪50年代,法国的天才科学家欧拉(Euler)和其他几位科学家一起发明了最小二乘(least-squared)方法,该方法能够通过回归分析,完美拟合观察数据,这样的回归方程如今在机器学习中很常见。骇客、数学和统计都是很有用的工具和方法,一个复杂的解决方案通常集成了这三种方法。例如,图像压缩和编码,数学上有信息理论与小波理论等,我们还统计编码字典中各个元素的频率,编码机制中包含了大量的工程“骇客”,使得这项技术得以应用于真实世界的图像和视频中,例如jpg图像压缩和mpeg视频压缩。视觉中的解决方案也通常于此类似,包含了所有这三个方面。
图3 骇客、数学、统计
读后:朱老师配中药的类比非常形象,现在视觉中有一批论文,将近期发表的机器学习新方法直接应用于计算机视觉的问题,有些只是针对具体问题修改了其中的特征,提高了准确率,因此称为“Feature Engineering”。朱老师认为类似的论文像配中药,针对新出现的疾病(计算机视觉问题),选用了新的药材(特征),并且将新的药材(特征)按照不同的比例(权重)混合起来熬制出新的汤药(训练分类器)。也许这类方法能够在一定程度上提高准确率,然而这恰恰像猴子抵达月球的方法:猴子每找到一颗更高的树,可能会离月亮更近一些,在猴子的一生中,可能总能有进步,但是这种“进步”并不代表最终能够成功,事实上这么做恰恰将自己带入了死路,永远无法抵达月球。(纯属个人理解,请各位读者批评指正)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 01:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社