||
当年读研究生的时候,有门师兄师姐都说好的课程《多元统计学》,非常受大家欢迎,这门课是我所知出勤率最高的课。再加上我当时导师的严格要求,所以这门课上得非常用心。各种方差、回归、主成分、路径分析、因子分析等方法都烂熟于胸。在加上在导师那学到了数据分析的一招半爪,对当时遇到的各种数据问题处理起来轻车熟路。不光解决了本实验室的同学,楼上楼下的同学也纷纷来找我。那感觉用现在的词来形容的话就是:“膨胀了”。直到有一天,工程院的一个老师拿着一个近红外的数据过来让我试试。人家慕名而来,虽然没见过这种数据,我想无非就那“三板斧”呗,很快我就画出了一条曲线,然后呆在那就不知道怎么往下一步做了,这才发现原来我的知识储量少的可怜,到现在都能记得起那个老师的表情变化。
现在想想,那可能是我第一次感受来自“高维”的打击。多年之后,我知道了偏最小二乘法是解决这类数据的有效办法。1975瑞典统计学家Herman Wold提出了Partial Least squares regression(PLSR),综合了多元线性回归、主成分和典型相关性分析等各家方法之长,简单、可靠和能解释(广义线性),简直是高维高共线性数据的”解药“。不光在学界(发文章),而且各种工业上的测量设备(快速测量)上都用的虎虎生风,解决了多少人的毕业和工作问题。不夸张的说,是它让化学计量学成为一门有用的学科,让每个会用PLS的人带上了”掌握化学计量学“的技能标签。这个技能也让我痴迷了好久,降维、建模、潜变量、变量重要性说明、回归系数解释等等,再加上交叉验证和测试验证结果都那么鲁棒,每一个特性都那么好使。再加上各种PLS的扩展,感觉这辈子就搞它谋生足矣。前几年,机器学习风起,各种黑盒子方法效果奇佳。不过PLS与他们PK起来,也是可圈可点,宝刀未老。
当然,见识太少限制了我对世界的理解。很快,一组仪器数据让我感觉人生太”南“了,PLS的效果还行,但是太一般般,没法用啊。很快,我意识到这次是来自”非线性“的打击,毕竟PLS还是基于可解释的线性系统,但是预测结果这么差,我要解释有什么用呢?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 11:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社