aiprjianyu的个人博客分享 http://blog.sciencenet.cn/u/aiprjianyu

博文

CAA模式识别与机器智能专委会通讯专家访谈:北京交通大学于剑老师访谈

已有 4201 次阅读 2019-3-15 17:12 |个人分类:访谈|系统分类:观点评述

 


 

20181217日,CAA模式识别与机器智能专委会通讯专家访谈栏目编委在线采访了北京交通大学于剑教授,下面是访谈记录。

 

1、请于老师谈谈个人的学习经历与研究经历。

我个人的学习经历和工作经历比较简单,读书时一直在北京大学,在北京大学数学学院获得学士、硕士、博士学位。博士阶段从事的是模式识别研究,所以后来能找到的工作也只能是在自动化、计算机、无线电这些领域。博士毕业后在北京交通大学工作至今。我本科、硕士学的都是数学,本科学的是应用数学,硕士学的是基础数学,博士拿的学位其实还是应用数学,但具体做的是模式识别方向。从数学转到模式识别方向,一是因为硕士毕业后,对数学的感觉已经变了,二是当时我硕士毕业后,在矿业大学当数学老师,当时考博士需要单位出介绍信,单位能出的介绍信限定报考数学。由于既要和数学相关又对研究纯数学没有了感觉,这种情况下,当时适合报考的只有两家单位。一个是北大数学学院,它的应用数学学科有一个信息科学研究所,研究的都属于计算机领域。另一个是中科院数学所,当时有Petri网研究方向,实际上也属于计算机领域。经过比较,感觉Petri网更偏数学一些,我就想研究一个和数学相关性没那么大的方向,这样一种机缘巧合就转到模式识别这个领域来了,当然我后来发现,数学基础对我从事模式识别研究帮助还是挺大的,特别是做理论研究的时候有优势。

2、请于老师谈一下目前的研究重点和特色

模式识别领域我早期做的是聚类分析,我当时的博士论文选题就是聚类有效性。目前我们研究组的工作实际上分理论、算法和应用三块,但是我个人偏重理论,因为毕竟学数学出来的,可能在理论方面相对积累多一些,对相关研究的工作也比较熟悉。当然我现在研究的方向不仅是聚类这一块,而是比以前要宽一些,但是主要集中在两个方面:一个是机器学习理论;另外一个关注的是更宽一点的人工智能基础理论研究。其中机器学习理论这一块,我们有较大的进展,在人工智能基础理论方面,也有一些成果,目前正在整理。

3、机器学习是人工智能的核心技术之一,于老师作为国内著名的机器学习专家,请谈一下当前机器学习技术对深度学习的影响,以及在未来的人工智能领域它所能发挥的作用。

严格来说,深度学习只是机器学习的一种范式。实际上,机器学习有非常多的先验假设。要用机器学习,首先它得有机器学习能起作用的条件才行,不是说任何情况下都可以用机器学习,机器学习也不是万能的。对于作为机器学习一支的深度学习来说,深度学习同样不是万能的。目前条件下,如果用深度学习,你首先得有标定的大数据,其次应具备足够的计算能力,还有一个条件是对解释性要求不高。 如果满足以上条件,目前来说深度学习肯定是最好的方法。当然深度学习也不一定就是我们说的深度神经网络,在这方面周志华老师提出的deep forest就极具特色,并不是基于通常的深度学习框架结构,建议如条件具备,可以加以研究。

至于说机器学习对未来的影响?首先,要清楚什么时候可以用机器学习。我觉得使用机器学习的前提条件是我们对任务的本质特征并不了解,我们能够描述问题的只是一些相关特征,这个时候我们才采用机器学习技术。比如在判断一个人属于老年人还是年轻人这么一个问题时,如果我明确知道了你的年龄或者你的出生年月,这个问题就不适合用机器学习来处理,因为这时它不是个有意义的机器学习问题。但是如果你给我一张照片让我判断你的年龄,这属于机器学习问题,因为照片并不能完全反映你的年龄,它只是跟你的年龄相关。有些人可能年纪很大,但是看上去很年轻,因此在只有相关特征的时候,该问题适合采用机器学习技术。当然有时候数据里面可能有本质特征,只是不知道是哪一个,我们需要把它学出来,这也可以算作一种机器学习问题,但是当你学到本质特征以后,这个问题就不再是机器学习问题。所以说当我们对某些问题了解的不够深入并不知道其本质特征或者其模型本身非常复杂时,我们通常会收集大量的相关信息,这个时候机器学习技术肯定是首选。

随着信息技术的发展,我们收集数据的能力会远远大于对事物的深入了解的能力,而且这种情况越来越多,所以我觉得未来机器学习的适用范围还会扩大,而不是减小。另外,关于最近讨论的机器学习到底能不能学到因果关系,我的理解是,因果关系和我上面说的本质特征多少有点关系,机器学习理论上来说肯定可以帮助因果关系的发现,但是机器学习不一定就能发现因果关系,首先你提供的数据特征之中,如果其中已经存在你想发现的因果关系,通过机器学习才可能发现,否则的话就发现不了。我个人的理解是,因果关系的发现和机器学习的目标并不完全一致,当然也并不完全冲突。

 

4、于老师的《机器学习:从公理到算法》一书从新颖的视角探讨了机器学习理论与方法,请于老师对该书的系统思想做个简要的概括与介绍。

我们写这本书的时候,开始的问题其实很简单,就是说怎么样提炼出机器学习的一整套理论,可以不依据或者尽量少的理论来推导出现有的算法。因为我自己教机器学习,发现其实学生学习机器学习有点困难,因为你要彻底给他讲清楚算法怎么设计?为什么这么设计?你要教会学生这个的话,你就必须把设计依据完全讲清楚,我们现在很多典型算法基于相同理论依据的非常少,导致学生学起来实际上挺困难。刚开始我并没有意识到这一点,直到有一天我跟学生讨论的时候,我才意识到,那时候我就想能不能找一套理论,根据这一套理论,我们可以把常见的算法推导出来。实际上写完这本书之后,我才知道有国外机器学习的大牛多明戈斯写了一本书叫做《The master algorithm》,中文名《终极算法》,书的封页上是爱因斯坦的一段话,“所有科学最重要的目标,就是从最少数量的假设和公理出发,用逻辑演绎推理的方法解释最大量的经验事实”。对机器学习来说,我们的经验事实就是各种学习算法。我们现在的机器学习之所以发展的比以前好得多,原因是我们现在积累了更多的可用的学习算法,而且这种算法的数量还在不断的增长,但是这些经验事实,怎么按照爱因斯坦的方式组织起来,就是个重大的问题。我们这本书快写完的时候,我们也发现不光我们意识到这个问题,美国科学院院士迈克尔.约旦和美国工程院院士米歇尔这两个机器学习大咖在2015年在《Science》上写了一篇机器学习的综述文章,文章第一段说机器学习有两个任务,其中第一个任务就是能否找到一个统管人、机器和生物学习的规律,实际上这个问题和爱因斯坦的问题结合起来你就知道,这个问题其实就是机器学习能否公理化这一个问题,如果我们能解决,那就可以回答迈克尔.约旦和米歇尔的问题。当然这是我们的书快写完了之后我才看到那个综述文章,我的书2017年出版,整个书17章,2015年的时候我已经写了十三四章,2016年我主要在写其它章节以及整个书的润色。基本上写完了才知道这篇机器学习综述,而爱因斯坦的话是直到我的书出版快一年多了才看到。

在2016,2016,2017年,很多人问我为什么要做机器学习的公理化?机器学习的公理化有什么用?那时候还不知道爱因斯坦的话,这个问题真不好回答。2018年才读到爱因斯坦这句话。 还是吃了读书少的亏啊。我的机器学习这本书由于自己这个写作能力的原因,可能没有那么容易读,但是它的基本道理是很简单的,这个基础假设也很简单:一个对象你要分类的话,一定要将它归到和它最相似的那一类;如果一个对象被分到了某一类,那一定是它最相似的类。就这两句话你把它写明白,就是公理化。以前的人虽然有类似的想法,但从来没有按照严格的方式来统一所有的算法,甚至有些人把相似性以及基于相似性的算法当成一种新的学习机制,比如《终极算法》就认为机器学习有五种学派,其中第五种学派就是基于相似性的或者叫类推学派,但实际上所有的算法都遵循这点。我们发现这一点后就给它完全形式化,再把学习算法形式化,按照我们这个形式化然后将《机器学习:从公理到算法》中所有的算法再推导一遍,这个工作量很大,我花了差不多五年的时间才做完这个工作。

5、《模式识别》和《机器学习》两门课的教材似乎有很多内容有交叠,在安排学习的时候到底应该怎么加以区分?

《模式识别》和《机器学习》内容交叠的问题实际上是人工智能方向设计课程要特别注意的问题。以前由于人工智能各个方向并不在同一个领域,比如模式识别属于自动化领域,人工智能在计算机领域,机器学习也是在计算机领域,这是一个分别。另外一个你发现,其实机器学习和模式识别有非常大的不同。它有很多相同部分,但也有很大的不同,相对模式识别,机器学习少了第一部分的数据采集,数据采集在模式识别中是一定要讲的,设计一个模式识别系统,首先要做的就是数据采集。而机器学习从来不考虑数据采集,都是假设数据已经获得了。所以模式识别和机器学习最大的分别也在这,机器学习是假设数据采集以后,假设不知道本质特征的情况下来做后面的处理。模式识别因为包括了数据采集,而数据采集的首要任务就是找本质特征,如果你能找到本质特征,模式识别任务是简单的。当然如果找不到,那就用相关特征来代替,所以数据采集部分对模式识别来说,是关系到生死存亡的大事情。数据采集完了后提取特征,在后续处理环节模式识别和机器学习就没什么区别了。此外,模式识别一定有一个应用场景,机器学习不见得有。所以说数据采集和应用场景这两部分机器学习不见得有,而模式识别必须有,除此之外,模式识别和机器学习很多的技术方法都雷同。

 

6、于老师《机器学习:从公理到算法》一书展示了于老师深厚的古文功底,请于老师从个人的学习经历谈一谈人文社科类书籍对于从事自然科学研究的作用和启发。

在书每一章加一段引领性的话并不是我的首创,很多人都这么做,只是我的书引用的古文比较多。这本书自序的目的是想说清楚我为什么写这本书?主要是想把基本的思路说清楚。但是,当时,心情还是很激动的,我自己觉得表达能力不够,用白话文的话,很难控制笔锋,可能不小心就透漏出与基本思路无关的心情。而古文比较生涩,采用古文可以掩盖个人情绪,具有比较客观的表达方式,所以我当时就选用古文来写一个自序。

我自己喜欢看哲学和文学类书籍,发现这些东西对我个人的研究还是帮助蛮大的。为什么呢?因为你无论考虑什么问题,可能你都得多层次、多视角的观察,这个方面哲学和文学对我的启发很大,实际上我之所以写机器学习那本书,跟我读的哲学和文学书都非常有关系。早些年我研究聚类,聚类最重要的是相似性,但是相似性是怎么回事,在抽象的层次上我们实际上一直没搞清楚,在抽象的层次你会发现相似性是很难说清楚的,所以我读了大量的书,包括维特根斯坦的书。我觉得维特根斯坦的书对我启发非常大,有一天我就突然想明白了。说到底是因为读了这些书之后,知道了相似性很重要,对机器学习来说很重要,对很多问题来说都很重要,可是那个相似性到底怎么回事还是没想清楚。开始我就知道:对象和哪个最相似,它就应该归于哪一类,可是这是不是最基准的准则?这个准则能用到什么程度?这些都不知道,除非你对各个算法的流程非常熟,否则你连算法中使用的相似性都找不出来,因为有些算法的相似性用的非常隐晦,隐藏很深,你得重新根据算法设计出来。所以虽然你知道有这句话,可是套不到具体的办法上。我认识到这句话非常有用以后,就想怎么把它概括起来?我觉得这跟我读的维特根斯坦以及其它人文书籍非常有关系。当然这些书不是直接发挥用处,但是它有一个潜移默化的作用,如果你要最直接有用的东西,我觉得可能还是本领域的文章对你直接的启发性更大,但是如果你想换一个视角,其它领域的这些人文社科类书籍还是很有帮助的。

7、人工智能领域人才紧缺,国家正在加大该领域人才培养的支持力度,对于人工智能领域人才的培养、人工智能专业与人工智能学科的未来发展与导向,请于老师作为代表谈谈人工智能学会和国内专家的看法与观点。

目前国家正加大人工智能人才培养,政策是非常及时的,也是非常重要的。但是我们目前也确实面临非常大的困难,一方面的困难体现在目前缺少合格的人工智能教材,这个需要全国,甚至全世界的学术同仁的共同努力才能做好这件事。目前人工智能的技术已经走在了理论的前面,对于我们学术界研究人员来说,更需要加倍努力深入理论研究。另一方面的困难是目前我们国家高端的人工智能人才缺乏,高校的师资远远不够,同时工业界对人工智能人才给出的待遇非常高,以至于我们的优秀后备力量大部分被工业界吸走了,留在高校的虽然还有很多优秀的,但你会发现真正建设人工智能学院的时候,师资力量真的还是比较欠缺,所以我希望国家在这方面出台一些政策,吸引优秀的人工智能人才能留在高校发展,加强人工智能人才培养的力度。虽然有些学校也出台了一些鼓励政策,同时这两年国内很多学校也建立了人工智能学院,但总的感觉可能还是杯水车薪,还不能解决根本问题,你想培养出一个非常优秀的人才,需要解决教材、人才和培训基地等一系列的问题。培养真正的高端的人工智能人才成本是比较高的,而且要求也比较高。

目前国家在本科专业设置上有两个和人工智能人才培养密切相关的专业,一个是“智能科学与技术”专业,这两年又新增了一个“人工智能”专业,这两个专业都挺热的。从长远来看,我觉得这两个专业合并比较好。“智能科学与技术”不见得一定要做人工智能,它可以直接研究脑科学,也就是直接研究人的智能,这和人工智能可能还不是一回事。目前这种专业设置状况并不利于人工智能的人才培养,因为规格不一致,而且脑认知、脑科学领域本来就有相关的系、所在进行人才培养。

 

8、对于期望进入人工智能领域的年轻人,请给出建议。如何循序渐进的掌握有关知识和技能?如何突破自我,做好的研究。

人工智能牵涉的领域很多,大体上来说分三个方向:人工智能理论,人工智能技术,人工智能应用。如果你准备从事人工智能理论研究,那需要掌握的知识就比较多,例如数学、计算理论、各种程序语言都要有深入的了解。如果准备从事人工智能技术,也就是人工智能算法研究的话,除了要具备足够的理论以外,要求动手的能力要强,对各种编程能力要求更高。如果你要从事人工智能应用,它的要求又完全不一样,它对各种平台技术,场景领域知识要求更多一些。

做一个好的研究者,这有不同的层次,举个简单的例子,在国际一流期刊、会议上发表文章那当然算好,如果能在CCF A类会议、期刊上发表文章,这个当然也算是好,你的研究算是与国际同行比肩了,作为一个研究者,如果你能在45岁之前都保持这个水平,应该算非常优秀,这样你的职业发展就会非常顺利。但是从做研究的角度来说,这只是一个最基本的优秀定义,因为在这个层次发的文章,属于跟踪研究的概率最大。当然刚开始从事研究的时候,可以按这种方式上路,但是走上这条路之后,我觉得还要有更高的要求。如果能够自己提炼出科学问题,甚至能够发展一个新的有价值的学术问题或学科方向,就更好了。当然我不建议年轻人刚开始就做这个事情,因为代价太大、周期太长。年轻人最重要的是要被同行认可,你一开始就自己开拓新的领域,如果同行不认可你怎么办?或者目前不认可你怎么办?十年以后也许会认可,但是作为年轻学者来说他可能没法承受,毕竟年年的考评不是吃素的,所以我并不赞成年轻人做这个事情,但是对于资深教授,我建议去做做这样的尝试。当然对有些特别优秀的年轻学者,他可以分出一部分精力来试着做这一类的研究。

9、于老师在科研、管理、科普、社会工作方面承担了大量的工作,非常繁忙,请问您在时间管理上有没有什么心得体会?

前一段时间,我们有个年轻的老师刚刚留校,跟我抱怨说根本没有时间做科研,他说整天不是教书、备课,就是开会,哪有时间做科研?我当时就祝贺他,说他已经找到了当老师的感觉。并跟他说,老师跟学生最大的不同是,学生有整块的研究时间,而老师没有。老师首先要学会一件事情,就是必须学会同时处理很多事情,要把时间规划好,学会利用零碎时间。如果能学会这一点,在时间管理上就可以做得非常好。其实我本人这方面不是做的最好的,我知道很多朋友做得比我好多了,我跟他们学到的就是要学会并行处理,要学会管理自己的时间,指导性的原则是你可以按照任务的轻重缓急,根据优先程度来处理安排。你可能有很多事情,例如要审项目、审论文,要参加会议,要上课,你可以先分类一下,比如哪一些会议我可以不参加那我就舍弃。如果是审论文,那你得规划花多长时间审完?你在规定的时间一定要完成,不能拖,到时间了熬夜我也要将它完成。另外可以充分利用晚上的时间,我以前基本上晚上11点回去,早上可能六点就到办公室了。还有就是学会利用零碎时间,例如上班路上的时间可以利用,我以前在路上经常习惯性的思考一些问题,这些问题不一定是推导性的问题,推导性的问题可能还是需要在纸上推算。而且现在的条件比以前更好,因为各种通讯手段都很发达,出差的时间都可以充分利用上。此外,还要控制好自己的情绪,有时人难免会产生厌倦情绪,特别是干一段时间感觉没什么成果,或者成果达不到预期,这个时候怎么坚持下去,我觉得这个可能更重要,我觉得还是要有乐观的心态,你要相信你投入了就肯定会有产出,你要相信这一点,但有时可能会延迟满足,比说我努力一年、两年,三年后才会有一个好的成果。

当然光努力还不行,还要想办法提高效率。如何提高效率,每个人的方式不一样,比如说可以转换工作方式,做科研累了,那就处理一点行政上的事情,处理了行政事务后,那赶紧做点学会交流的事情,这你都可以根据自己的喜好和能力去安排。



https://blog.sciencenet.cn/blog-3408357-1167760.html

上一篇:《语言的维度 :自序》
下一篇:世上、心上和纸上
收藏 IP: 218.247.253.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 08:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部