|
一、第一年:海阔天空
我是1989年8月到美国南加州大学电机工程系攻读博士学位的。刚去的时候,导师Mendel教授并没有给我一个具体的课题,而是由我自由发挥。当时我在国内做的是神经网络方面的研究(结构和算法与现在的深度学习神经网络一样,只是由于当时计算能力的限制,只做了两层的BP神经网络,而且几十个数据训练一天也收敛不到理想的精度),所以我就尝试着从神经网络的视角来研究Mendel当时正在进行的课题。当时Mendel主要有两个方面的课题:一个是利用高阶统计量(cumulants)辨识动态系统的参数,另一个是石油天然气勘探中的信号处理问题(主要是反卷积方法)。
对于高阶统计量系统辨识问题,我仔细研究发现,可以将被辨识的系统用类似于神经网络的“结构网络”(Structured Networks -- 我自己起的名字)来表示,其中结构网络的参数正好是需要辨识的动态系统的未知参数,而结构网络的输出正好是高阶统计量。这样一来,将高阶统计量作为目标值,利用神经网络的BP算法训练结构网络来匹配这些目标值,收敛之后的结构网络参数就是需要辨识的动态系统参数。这项研究最终发表在神经网络领域最顶级的期刊IEEE Trans. on Neural Networks:
L. X. Wang and J. M. Mendel, “Cumulant-based parameter estimation using structured networks,” IEEE Trans. on Neural Networks, Vol. 2, No. 1, pp. 73-83, 1991.
这是我到美国读博之后投稿发表的第一篇期刊论文。
对于Mendel教授的另外一个课题 -- 石油天然气勘探信号处理,其难点是信号很弱、噪声很大。我研究后发现,需要辨识的地层反射系数是离散和稀疏的,而且大小差别很大。用传统的方法辨识,大反射系数会掩盖小反射系数,因此辨识的精度不高。我提出一套全新的方法,利用Hopfield神经网络首先辨识大的反射系数,然后将辨识出的大反射系数和信号源进行卷积后从原数据中减除,再用减除后的数据循环将地层反射系数从大到小一层一层辨识出来,效果非常好。这项研究最后发表在石油勘探以及神经网络领域的顶级期刊Geophysics 和 IEEE Trans. on Neural Networks,是神经网络应用于该领域的第一批论文:
L. X. Wang and J. M. Mendel, “Adaptive minimum prediction-error deconvolution and source wavelet estimation using Hopfield neural networks,” Geophysics, Vol. 57, No. 5, pp. 670-679, 1992.
L. X. Wang, “A neural detector for seismic reflectivity sequences,” IEEE Trans. on Neural Networks, Vol. 3, No. 2, pp. 338-340, 1992.
结构网络(Structured Networks)的提出让我很兴奋,因为结构网络非常灵活,不仅适用于系统辨识问题,而且可以用来解决许多其它问题,比如各类矩阵计算问题,包括矩阵的求逆、特征值特征向量、矩阵分解等等。结构网络和多层神经网络一样,是并行分布式计算结构,可以进行大规模并行分布式计算。当时,我的想法是将“结构网络的理论与应用研究及其并行分布式实现”作为我的博士论文题目,向计算机大规模并行分布式计算方向发展(发展到现在就是所谓的大模型、谷歌大脑之类的),所以我将这方面的论文发表在计算机以及分布式计算方面的顶级刊物IEEE Trans. on Computers 和 Journal of Parallel and Distributed Computing:
L. X. Wang and J. M. Mendel, “Three-dimensional structured networks for matrix equation solving,” IEEE Trans. on Computers, Vol. 40, No. 12, pp. 1337-1346, 1991.
L. X. Wang and J. M. Mendel, “Parallel structured networks for solving a wide variety of matrix algebra problems,” Journal of Parallel and Distributed Computing, Vol. 14, pp. 236-247, 1992.
由于我打算向大规模并行分布式计算方向发展,经Mendel同意,我将当时在南加大计算机系任教、计算机结构领域大名鼎鼎的黄铠教授(Kai Huang)邀请到了我的博士指导委员会。同时,我也顺利地第一次就通过了博士资格考试。
南加大的博士资格考试叫做Screening Exam,是读博士的第一关。一年有两次考试机会,每次考试规定只能有一半参加考试的学生通过,不管这次考试学生整体的成绩是高还是低,也不管这次考试学生人数的多少,都是一半通过、一半不通过。而且,每个学生最多只能参加两次Screening Exam。也就是说,如果一个学生考两次Screening Exam都没有通过,那么就不能继续读博士了。所以,在美国一流研究型大学读博士压力是很大的。
总之,读博第一年很顺利,海阔天空,也找到了博士论文的研究方向 -- 我自己开创的结构网络(Structured Networks)以及结构网络的大规模并行分布式计算,一切看来顺风顺水。可是,由于学功课做课程设计的原因,风云突变。
二、第二年:风云突变
在美国读博士与在欧洲等地方读博士不一样,要修许多门课。南加大规定,读博士要修60个学分的研究生课程(通常一门课3个学分),如果有硕士学位可以免去30个学分。也就是说,我需要修至少30个学分的研究生课程(我最终修了45个学分,GPA是3.76/4.0,见本博文最后的成绩单)。在我读博第一年的第二学期以及第二年的第一学期,我修了我们电机系Kosko教授的“神经网络与模糊系统”课程,以及数学系的一门研究生高级泛函分析课程(上下两个学期的课程)。这两门课除了通常的考试之外,还要做一个课程设计。正是这两个课程设计,让我离开了心爱的结构网络和并行分布式计算,掉进了模糊的深渊。
Kosko当时还是助理教授,但他在神经网络和模糊系统领域已经非常有名了。他给我们上课用的是他自己写的讲义,后来这些讲义就形成了他的那本经典著作《神经网络与模糊系统》(B.Kosko,“Neural Networks and Fuzzy Systems”,Prentice Hall,1992,该书在google scholar被引用9938次,是神经网络和模糊系统领域的经典著作)。这门课要做一个课程设计,由于当时我的主要研究工具是神经网络,而神经网络是通过数据来训练建立的,所以我就想能不能从数据产生模糊规则,进而构建模糊系统。思路其实很简单:首先,用模糊集合交叉覆盖每个输入变量;然后,对应于每一个数据点,得到在该数据点隶属度最大的模糊集合,用这些模糊集合构建模糊规则;最后,用这些模糊规则构建模糊系统。就这么简单。这个课程设计最后形成下面的论文,发表在控制论领域的顶级期刊IEEE Trans. on Systems, Man, and Cybern.:
L. X. Wang and J. M. Mendel, “Generating fuzzy rules by learning from examples,” IEEE Trans. on Systems, Man, and Cybern., Vol. 22, No. 6, pp. 1414-1427, 1992.
这篇论文在google scholar被引用3999次,是可解释性人工智能(从数据到知识)领域的经典。这个算法被称作Wang-Mendel算法,三十年来以其快速、高精度以及可解释性被广泛应用于众多领域,是行业标准、是后续算法性能比较的标杆。
其实,这个课程设计当时差点没通过,因为课程的助教(Kosko的博士生)说这个方法太简单了,不足以达到课程设计的标准,把初稿给我打了回来。后来,我不得不加了一点万能逼近的内容,才勉强过关。这就要说到下面这个数学系高级泛函分析课程的课程设计。
由于电机系的研究通常要用到很多数学,所以我们电机系的博士生通常要到数学系修好几门课程,我修的其中一门是数学系“高级泛函分析”的研究生课程。授课的这位数学系教授上课一直不停地在黑板上推公式,写的很快,也没有多的解释,假设我们都能跟上他的节奏。这门课对巩固提高我的数学分析功底是很有帮助的。我后来的模糊控制研究,以及近年来的模糊舆情网络和算法交易研究,都有许多复杂的稳定性、收敛性、以及收敛速度的数学证明,这门课对这些研究是非常有帮助的。
这门高级泛函分析也要做一个课程设计,由于当时我通过Kosko的课已经学了一些模糊系统的内容,所以我就想能不能用这门课上学的泛函分析工具,去解决模糊系统中的问题,以此做为课程设计(小的跨学科哦)。由于当时我主要研究神经网络,而神经网络之所以有广泛的适用性,是因为神经网络有个著名的万能逼近定理,即对于任意复杂的非线性函数,总存在一个神经网络,可以无限逼近这个非线性函数。那么,模糊系统是不是也具有这样的万能逼近特性呢?当时,标准的模糊系统是由几个模块搭建而成的,有些模块只是文字描述和计算机程序实现。所以,将模糊系统写成一个数学函数并不是一件直截了当的事情,而只有把模糊系统表示为一个数学函数,才有可能应用泛函分析中的工具来探讨模糊系统是否具有万能逼近性能。最终,我把标准的模糊系统写成了一个数学函数,然后应用泛函分析课程中学到的Stone-Weierstrass定理,证明了模糊系统也是万能逼近器。这个课程设计最终发表在IEEE Trans. on Neural Networks:
L. X. Wang and J. M. Mendel, “Fuzzy basis functions, universal approximation, and orthogonal least squares learning,” IEEE Trans. on Neural Networks, Vol. 3, No. 5, pp. 807-814, 1992.
这篇论文在google scholar被引用3386次,是模糊领域的经典。它从数学上严格证明了模糊系统是万能逼近器,因此与神经网络一样,适用于广泛的应用场景。这篇论文为模糊系统在各行各业的广泛应用提供了坚实的理论支撑。
是福是祸,是祸躲不过。Mendel见到我的这些模糊成果,开始动摇原来的想法了。他不再支持我将结构网络和并行分布式计算作为我的博士论文课题,而让我转做模糊。从此,我独创的结构网络(Structured Networks)离我而去,我心爱的大规模并行分布式计算也永远地离开了我。我一下子掉进了模糊的深渊,在混沌中越陷越深。
三、第三年:模糊缠身
叮叮叮、叮叮叮,办公室电话铃响了,师兄去接的,说是找我。我接过话筒,对方问我是不是Li-Xin Wang,我说是的。对方说他是Zadeh,看了我关于模糊方面的论文(Wang-Mendel算法首先是写成USC EE Report,Mendel寄给了Zadeh一份),觉得做得很好。他问我什么时间毕业,我说论文进展顺利,还有些学分没有修完。他问我毕业后有没有兴趣到他那里做博士后,我本能地回答:当然愿意了。你说,我一个刚读两年的博士生,鼻祖打电话给我,邀请我去跟他做研究,我能不答应吗?Zadeh说,很好,让我等着,就把电话挂了。一个星期后,Zadeh又打电话给我,说他已经从Rockwell专门为我申请到了经费,我可以随时过去跟他做博士后。
就这样,我于1992年年初通过了博士论文答辩,当时距我到美国读博只有两年半。由于博士学位授予要统一等到学年结束,我的博士学位证书上的日期是1992年8月18日:
由于要到Zadeh那里做博士后,我这读博的第三年(最后一年)就专注于模糊了。做模糊之初,我就想做模糊控制,因为模糊控制是模糊理论当时最成功的应用,而我在国内也是学控制的。可是,Mendel不支持我做模糊控制,希望我做模糊系统(数据建模,万能逼近,模糊神经网络等)。他给出两个理由:一是控制领域强手太多,他说他1970年代做过IEEE控制学会主席,后来不做控制而转做信号处理,一个原因就是控制领域高手太多,自己有个想法还没有眉目,别人论文已经写出来了;二是做控制的人都很反对模糊,以卡尔曼(Kalman)为首,反模糊就是支持卡尔曼,是政治正确,所以做模糊控制没有好下场。我当时年少气盛,不听老人言,心想那我就自己做了呗。所以,你看我后来关于模糊控制的论文和书,都是我一个人单一作者,这并不是我不尊重导师,而是导师不愿意和我一起趟这一塘浑水。
当时,模糊控制虽然在应用中取得了良好的效果,但当时的模糊控制器只是经验控制,性能取决于专家经验的好坏,而且不能保证最基本的稳定性、收敛性等,也不能进行优化设计。我觉得,应该将当时基于专家经验的模糊控制器作为初始控制器,在此基础上利用自适应控制方法在线调节模糊控制器的参数,来达到确保稳定性、收敛性以及最优的性能。这说起来有道理,但做起来并不容易,因为被控对象是非线性而且这些非线性是未知的,如何在线实时调节结构复杂的非线性模糊控制器,来达到稳定、收敛而且性能最优,这些都需要开创性的理论思维以及坚实的数学功底。最终,我完成了这些开创性的工作,论文发表在刚创刊不久的IEEE模糊系统会刊:
L. X. Wang, “Stable adaptive fuzzy control of nonlinear systems,” IEEE Trans. on Fuzzy Systems, Vol. 1, No. 2, pp.146-155, 1993.
这篇论文在google scholar被引用2191次,是自适应模糊控制的开山之作。
后来,我利用读博第三年后半年的相对空闲时间(从1992年年初博士论文答辩通过,到年中毕业典礼拿学位证书)以及后来的一些时间,将这套全新的自适应模糊控制理论的主要根基做完善,形成专著,由美国著名的出版社Prentice Hall出版:
L. X. Wang, Adaptive Fuzzy Systems and Control: Design and Stability Analysis, Prentice-Hall: Englewood Cliffs, NJ, 1994.
此书在google scholar被引用5740次,开创了一整套全新的自适应模糊控制理论体系,是专注于模糊控制的学术专著之中被引用最高的。此书出版之前,人们经常批评模糊控制没有理论支撑;此书出版之后,就很少有人再这么说了,因为传统控制理论所拥有的严格理论支撑,在这本书中都有,其严谨、深刻、全面的特征不亚于任何传统的控制理论。此书有中译本:
当然,这也是一本比较难读的理论专著,有许多复杂的数学证明(稳定性、收敛性、最优性等等)。几年前,一位985名校的信息学院院长给我说,当年他读博士时,大家把这本书称作“红宝书”,一代又一代模糊控制研究者就是读着这本书进入这个领域的。另外,一位大学校长给我说,当年他花了大半年时间仔细钻研了这本书,吃透每个细节,在此基础之上发表了一系列模糊控制论文,二十年来培养了一批又一批学生,他也从一名普通青年教师成为大学的正校长。人们常说,Zadeh的模糊集合养活的一批人。三十年来,我的自适应模糊控制理论也养活了不少人哦。
最后,是我在南加大电机系读博三年的成绩单。我总共修了45个学分,最终GPA是3.76/4.0。3.76的GPA还算可以吧。我第一学期的GPA是4.0,后来由于要留出大把时间做科研写论文,我给自己规定,每门课每星期课后最多只能花两个小时,所以后来有几门课没有拿到A,最终GPA下降到3.76。南加大研究生课程内容很多很难,比本科生课程更加严格。可能老师们觉得本科教育已接近普及化教育,博士是精英教育,所以对研究生课程更加认真。每门研究生课程都有一本厚厚的教材,每周都有homework,每门课一般两个midterm(期中考试)一个final(期末考试),有些课还要附加一个课程设计(比如前面第二节中提到的“神经网络与模糊系统”和“高级泛函分析”)。教这些课的老师基本上都是本学科一流的学者,教的也很认真,给我们打下了全面而扎实的基础。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-7 22:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社