学:学生,教:教师,李:李晓榕。
注重思想、原理、概念
李:我们现在进一步讨论如何增加深度。怎么学才能增加深度?有些什么办法? 教:我有个体会。不管这东西有多复杂,可能数学描述非常复杂,但是它背后的思想并不复杂。一篇论文,如果能先了解它背后隐藏的思想,再去看那东西,会容易得多。 李:背后的思想复杂,就不会有多少生命力。重要的思想都比较浅易 ,这就是我们在谈研究策略时说的简易性 。我们要注重原理、思想,“好学深思,心知其意”(司马迁之语),而不是技术细节。对基本思想、原理和概念要尽可能理解透彻,不仅知其然,而且知其所以然。“实事求是”还不够,还应“求其所以是”。这一条对加深理解至关重要。善于弄清概念是数学家的看家本领。如果有一个感兴趣的重要东西不清楚,我心里常常会不舒服,想要弄明白。在此过程中,可能会出现别的不清楚的东西,这样一环套一环地弄明白,就加深了。不过,所花的功夫也只有自己知道。我挺喜欢这个警句:小人议论他人,凡人谈论事件,伟人讨论思想 。(Little people discuss other people. Mediumpeople discuss events. Big people discuss ideas.)它简明扼要地说出不同人的区别。老在议论别人,张家长李家短,这是比较庸俗的人,爱说是非者,定是是非人。一般人爱谈论事件。真正行、高瞻远瞩的人看重的是思想。我们要力争多注重思想,避免大谈特谈事件,尽量少议论他人。 教:我们在学习时,要看清问题的本质。举个例子。线性代数有很多内容,学了之后,我们应该问:它到底是什么,能解决什么样的问题?后来我知道线性代数本质就是一个数学工具,它是矩阵的描述工具,是从解线性方程来的。所以,不应被问题的解法所局限,要把握问题的本质,抽象概括后,就会有更好的领悟。 李:说线性代数是矩阵的描述工具,不大妥当。我们讨论研究策略时强调过,就是四部曲:问题、描述、解法、评估 。首要的是:问题的本质是什么,一定要搞清。这是四部曲里最重要的,但是大家往往只注重解法。著名计算机学家DonaldKnuth说:我当学生时,老是徜徉于数学书的第一章,思考定义并尝试对之做些小改动,由此出发看看能发现什么、做些什么 。(All the way through mystudent work I had been joyfully stuck in Chapter One of my math books,thinking about the definitions of things and trying to make littlemodifications, seeing what could be discovered and working from there.) 教:以前在学线性系统的时候,做了好多题去判定一个系统是否能控、是否能观,等做了很多题以后,对于什么是能控、什么是能观,还是有些概念模糊。 李:是啊,很多时候并未搞清本质。把Controllability和Observability译为“可控性”和“可观性”比“能控性”和“能观性”更好。“能”表示主观能力所及,“可”表示客观条件容许,“能”是主动的,“可”一般是被动的,而这儿是被动的。比如说某人“可爱”和“能爱”、“可笑”和“能笑”是完全清晰而截然不同的,说某人是“可人”和“能人”根本不同,说某物“可口”而某人“能吃”,或者“他很能说,不愁没有可说之事”。同理,我们有“可控硅”而不是“能控硅”;可靠性、可塑性和可视性中的“可”都不是“能”;不可理喻、不可救药、不能自拔、不能自已中分别是“可”和“能”。一个“能控”、“能观”的系统应该是一个能够控制、观察其他东西的系统。某状态可控就是“存在一个控制,它能在有限时间内,将系统从该状态转移到任何其他状态”。某状态可观就是“该状态可由系统在有限时间内的输出(及输入)唯一确定”。系统可控和可观的本质分别是,它的所有状态可以被有效地控制或者由外部信息唯一确定。 学:汉语里有些时候被动被隐藏起来了。说“能控”就是“能够被控制”,“能观”就是“能够被观测”。“能”用得比“可”更多一点。 教:我觉得没有什么大不了的。“能控”可以理解为“能够被控制”,有必要这么死抠字眼么? 李:如果这么不求甚解,那我几乎无话可说,这决不是做学问的态度。做学问没有“一名之立,旬日踌躇”的学风是难以深入的。大家知道,可控性和可观性是控制系统理论中最基本、最重要的概念之一。照你们这么说,“他很能爱”也可以理解为“他很能够被爱”了,贾岛和韩愈也没必要苦心“推敲”到底是用“推”字好还是用“敲”字好。史学大家陈寅恪晚年双目失明,著述需要助手帮助,有时晚上想到一种写法或修改,生怕睡后忘了,不敢睡觉,直到第二天助手来了。他宁可不出版,也不许出版社更动一字。如此认真,难怪成就如此之高。高斯对用cos2 (x)表示[cos(x)]2 不以为然,认为cos2 (x)应理解为cos[cos(x)]。用cos2 (x)表示[cos(x)]2 之所以流行,我想是因为cos2 (x)到底比[cos(x)]2 简单些,而“能控性”并不比“可控性”简单。这还使我想起国际著名数理逻辑学家、计算哲学家王浩的一个关于演讲题目的故事。八十年代他在北大做演讲,曾考虑过以“中国与西方哲学”为题,但这个题目有歧义,既可理解为他的原意“‘中国’与‘西方哲学’”,也可理解为“‘中国哲学’与‘西方哲学’”。为避免歧义,他想改成“西方哲学与中国”,但这又显得前重后轻,前长后短,比重、强调不当。他颇费踌躇,为此专门请教著名语言学家朱德熙。朱说“西方哲学与中国”这个表达没有问题。即便如此,王浩仍不放心,开场时就说:“朱德熙说没有问题,那应该没有问题。但如果有问题,你们找他。”(我觉得,也许“东方中国与西方哲学”更妥,既无歧义,又可免去上述顾虑。)你看,大学者们是多么一丝不苟、反复推敲!难道这都是偶然巧合?另外,用“可”比用“能”更雅一些。这里翻译得文气一点可能更好。总之,从“信、达、雅”各方面来说,“可”都更好一点。“能”和“可”的区别也很像英语“can”和“may”的区别。不求甚解者可能也认为它们没有区别。 言归正传。要注重思想、原理、概念,对它们的理解要精益求精。此外,多问为什么有利于加深理解。仅仅知道对错,还不够。举例来说,“独立”是概率论中的基本概念,它的深层本质是什么? 教:就是两个东西不相关,互相不影响,没有关系。 李:这是拘文牵义,等于说:“独立”就是独立。这是用日常语言来解释日常的“独立”概念。事实是:联合事件的概率不好算,而各事件概率之积好算得多。不过,它们相等是有条件的。为了方便起见,这条件简称为“独立”。起这个名字,是因为它与日常生活中的相互独立(不相关、没影响)概念有不少相通之处。所以,独立事件概念的本质是:事件之积的概率等于事件概率之积。换言之,概率运算与乘积运算可交换的条件就称为“独立”。与此类似,“互斥”这一概念的本质是:事件之和的概率等于事件概率之和,互斥事件的交集为空。在这两例中,“独立”和“互斥”这两个词选得不错。尽管如此,在理论中套用日常生活概念仍可能出错。 有时,科技术语选词并不贴切,这时更应特别留心。比如,两个随机变量的“相关系数”就很有误导性。所谓“相关系数”,其实是“线性相关系数”,说到底是它们“接近于直线的程度”(可称为“似直度”)的度量,即它们的“联合分布近似地成为一条直线”的程度的度量,并非它们相关程度的度量。这儿,“相关系数为零”(uncorrelated)与“独立”(independent)有天壤之别。我经常看到社会学科、人文学科、甚至自然科学(比如生物学或生理学)的不少领域,在对实验数据的统计分析中犯这种把“相关系数为零”理解为“独立”或“无关”的严重错误。这个常见错误与“相关系数”这一名称的误导脱不了干系。另外,有些科技术语没有对应的现成的日常概念,比如随机过程的ergodicity被勉强译为“遍历性”或“各态历经性”。 总之,对于科技概念和术语,千万不要望文生义,执著于词汇的本义,虽然可以借鉴日常之义,但不能用它来代替科技术语的真正含义 。与此相关的是:似是而非、一知半解、不求甚解是治学的大忌,尤其是力求精深的宿敌。应该不懈地追求真知灼见 。 教:关于望文生义,我觉得有两方面。一是“望文生义”可能恰恰是求甚解的必经阶段。尽管刚开始时所生的“义”不是本质的义,但应该有些关联,虽然有偏差。随着慢慢积累,可以将其“义”逐渐修正到本质的义。另外,教材的作者可能就是望文生义,以讹传讹。国内导航领域的教材就没法看,只有看了国外原版才真正懂得说的是什么。 李:是的,要“想实然”而不是“想当然”,不要拘文牵义,更不该望文生义,但要循名责实、顾名思义、执名索义。“望文生义”是执著于词汇的字面义,穿凿附会,郢书燕说,曲解原意。而“执名索义”指的是透过名称、定义和描述,努力把握本质、真义和背景。还有,我们现在讨论的是如何增加深度,要求理解深刻到位,所以不该望文生义,不求甚解。泛读时不得已而“望文猜义”也未尝不可。总之,要积极执名索义,切忌望文生义。 教:照您所说,“独立”等概念的引进纯粹是为了方便,没什么大不了的? 李:能够带来方便,绝非小事,甚至可以说是“大莫甚焉”。负数的引进是为了便于做减法,有理数的引进是为了便于做除法,实数的引进是为了便于开方等运算,复数的引进是为了便于方程求根等。向量、矩阵、张量、势、群、环、域等等的引进无不由于处理某些数学问题的方便。语言、概念的产生也是出于方便。一个重要概念的提出,能够给思维提供方便,进而大大简化思维过程,那就是丰功伟绩 。 其实,几乎每一概念都含义颇深,人类知识和认识的传承离不开概念化。人类不断把以往的知识和认识提炼、浓缩为概念,后代只要理解这些概念就得到了精华,不需要纠缠于细节。所以,每一科学概念大都是丰富知识的凝聚,值得好好理解体悟 。 我想到一个例子。先问一个问题:给定一个随机变量的分布,它的20阶矩是否必定唯一? 学:不一定…… 教:肯定唯一,除非积分发散。 李:积分发散是什么意思? 教:…… 李:事实是:矩如果“存在”或说“收敛”,必定唯一。积分发散就是积分取多值,其值取决于如何求积。数学不能容忍歧义。所以,数学不考虑发散的情况。这是吸取惨痛教训后得到的。大数学家欧拉研究无穷级数,硕果累累,但也错误百出。比如,他研究级数1-1+1-1+1-1+……,结论是:它的和等于1/2。我们现在会哑然失笑。无穷级数真是有趣、神秘,它可以给出各种不同的数值,使人大开眼界。当时的混乱,不亚于后来康托尔草创集合论时给认识带来的混乱。后来,人们发现,有些无穷级数确实可取多值。为了坚持“数学不能容忍歧义”这一原则,数学家们忍痛割爱,不考虑、不理睬发散级数,只研究收敛级数,得到不少级数收敛的判据,以及不少级数的收敛值,也就是唯一值。极限、积分等概念也都类似。所以说穿了,极限存在= 极限有唯一值;级数收敛 = 级数有唯一值;积分存在 = 积分有唯一值 。注意,这儿“存在”远不如“收敛”更贴切,其实“单值”更准确。多值的积分难道不存在吗?它们大量存在,甚至比单值积分还多得多,只是数学王国迄今拒斥它们而已。为了避免歧义,数学家们“睁着眼睛说瞎话”,不承认多值积分、多值极限、多值级数的“存在”或者“意义”。 学:您都是从哪些地方看到这些说法的?当一个级数取值为无穷大时,我们有时说它发散,有时说它等于无穷大。这是为什么?这种级数的取值唯一吗? 李:不是看来的,是自己逐渐体悟出来的。无穷大并不唯一,那是一整个世界,是集合论的研究对象。一般来说,这样一个发散级数可能取各种不同的“无穷大之值”。所以,比较严格时一般只说该级数发散。然而,从“非有限大”这个含义来说,无穷大是唯一的:只有无穷大不是有限的,没有其他的“非有限大”。所以,发散到无穷大有特定的含义,与其他类的发散大不相同。正是在这种含义下,我们可以说该级数等于无穷大,因为我们只关心它是否有限,而不关心它到底是哪个无穷大。也正因为如此,比较这样两个无穷大级数的大小一般没有意义。当然,说该级数“发散到无穷大”更好。 教:为什么数学不能容忍歧义? 李:数学追求普遍适用而又明确的真理,所以,它不能容忍可能导致不同结果的合理理解或解释,也就是歧义 。这跟政治恰恰相反。数学的这种无歧纯一性要求,与科学要求分离各种因素的影响,异曲同工。它们有利有弊。不利的是,它与现实多少有些脱节,因为现实错综复杂,并没有这种纯一性。这也许部分说明了为什么有些优秀数学家对现实生活无所适从。积分不“存在”实际上是它的取值不唯一。其实,对于这样的积分,我们可以采用研究策略中的“条件法” ,增加限制条件,使其取值唯一。数学家们就是这么干的。各种随机积分就是这么得到的,这些积分在一般意义下是发散的。我们要钻研基本概念,弄清其然和所以然 。 学:您是怎么达到这一点的? 李:这要明确目标,下功夫,我还在继续不断努力中。要增加深度需要花很大的力气。关于这一点,北宋政治家、文学家王安石在他的名文《游褒禅山记》中说得既形象又明确:“入之愈深,其进愈难,而其见愈奇。……盖其又深,则其至(到者)又加少矣。……夷以近(平坦而路近),则游者众;险以远(艰险而路远),则至者少。而世之奇伟、瑰怪、非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也。有志矣,不随以止也(不随他人而停止不前),然力不足者,亦不能至也。有志与力,而又不随以怠(不随他人而松懈怠惰),至于幽暗昏惑而无物以相(助)之,亦不能至也。”他强调要有志向、有能力、有工具和方法,尽力而为。
转载本文请联系原作者获取授权,同时请注明本文来自李晓榕科学网博客。 链接地址: https://blog.sciencenet.cn/blog-687793-633432.html
上一篇:
与师生谈研究策略6:弃繁就简 下一篇:
与师生谈研究策略9:反行众道,改形换状