王飞跃的个人博客分享 http://blog.sciencenet.cn/u/王飞跃

博文

首届怀德海讲座:变化、学习、成人

已有 4589 次阅读 2019-5-9 07:25 |系统分类:科研笔记

首届怀德海讲座:变化、学习、成人

原创  李小双  陈虹宇


导读】2018年第一期怀德海讲座1018日在北京市朝阳区中航资本大厦举办。本期讲座邀请到英国诺丁汉大学计算机科学系教授Jonathan Garibaldi“Variation, Learning and Being Human” 为题进行深度研讨和演讲报告,历时五个多小时。Jonathan Garibaldi教授将介绍一些目前在诺丁汉大学进行的关于模糊集合和系统的相关研究与应用,也介绍了关于学习的一些思考。

嘉宾简介

Jonathan M. Garibaldi教授于1984年毕业于英国布里斯托尔大学(Bristol UniversityUK)物理系,并在1990年和1997年分别获英国普利茅斯大学(University of PlymouthUK)智能系统理学硕士和博士学位。他是英国诺丁汉大学计算机科学系的负责人,领导智能建模与分析(IMA)研究小组,并且是高级数据分析中心(ADAC)的创始人。他的主要研究兴趣是医学领域的建模不确定性和人工推理变异。他在模糊集与系统以及实际应用领域做出了许多贡献。Garibaldi教授发表了200余篇关于模糊系统和智能数据分析的论文,目前是IEEE模糊系统汇刊(IEEE Transactions on Fuzzy Systems)的主编。他在许多国际性的委员会任职,如FUZZ-IEEE, WCCI, EURO and PPSN

内 容

王飞跃教授:今天讲座的筹备花了很多时间,这是第一个试点,给大家讲讲为什么要做这样的一件事情。我们现在学术讲座非常多,大家讲完了就走了,几乎变成了一种形式走过场,但学术不能这么做。今天是怀德海讲座第一场,其实也比较匆忙,因为我们要赶这个时间点,但不管怎样这是一个新的尝试。以后每次讲座都至少是一个下午,有的可能是三天,有的还可能是一个星期,大家都在这个图书馆,在这层楼讨论,演讲,再讨论。今天的讲座将进行半天的讨论,围绕一个题目,大家深度研讨。我们从今天中午开始,请近10位专家,先在这里进行讨论,然后进行我们的讲座,讲座之后再进行深入的交流讨论。首次怀德海讲座的主讲人是Jonathan Garibaldi教授,大家欢迎!

 

Prof. Jon Garibaldi:非常感谢王教授邀请我来做这个讲座,很荣幸能够在北京做这样一个报告,我报告的题目是:“Variation, Learning and Being Human”

 

1.png

 

在讲座开始前我想展示一下我工作的诺丁汉大学,这是校园的照片。

 

   2.png

 

诺丁汉大学是一所美丽的大学,这里诞生了两位诺奖得主,一位经济学奖得主Cliver Granger,另一位Peter Mansfield由于在核磁共振成像的研究,他与美国科学家保罗·劳特伯一起获得了2003年的诺贝尔生理学或医学奖,现在这项技术已经在世界各地都得到了使用。

 

  3.png

 

诺丁汉大学在中国也有分校,位于宁波,大约有6000名学生。这里就不多讲了。

 

4.png

 

我将要以一个问题开始我的讲座,我们是如何评价一个计算机的性能表现的?如何才能说电脑或者一个程序做的不错?

 

5.png

为了回答这个问题,我们将有一些探讨。在某些领域,评价一个计算机或者是计算机程序的好坏非常简单,比如这个场景,你建造了一个下象棋的机器人,你怎样测试他是否工作的很好呢?实际上在1997年计算机程序deepblue打败了国际象棋世界冠军Kasparov。所以,当你有一个计算机系统能够打败世界冠军的时候,你的计算机系统就是最好的评价基准。这还不够,20年后,就在去年,AlphaGo打败了世界围棋大师,围棋是公认的比象棋更难的棋类游戏。

 

6.png

7.png

花了20年的时间,计算机程序达到了智能的水平,也许我们可以说打败了我们中最优秀的那些人。所以现在的计算机就像是超人,他比我们当中最好的人还要好一些。但这还不是完美的。那么,如果我们有了一个专家系统,如何知道他是否已经足够好到能够实际使用,这个问题将会困扰一段时间。

 

8.png

 

如何回答这个问题?回答这个专家系统是否已经足够好的问题,这就是我们接下来讨论的内容。

 

9.png

 

首先就是图灵测试,Alan Turing,一九五零年,只比计算机被创造出来早一点点,人工智能出现之前的时候,图灵测试的基本思想是:你有一个屏幕,你看不到屏幕后面有一台电脑和后面的人。然后你就有了一个观察者或者提问者的身份。观察者或提问者在图灵测试中与计算机和屏幕后的人通过传递信息进行交互,因为创建一个看起来像人类答案的答案太难了。他不是在谈论它看起来像不像人类,他说的是像人一样聪明。所以他在访问你,只是通过向后和向前传递问题,在完整的图灵测试中,你可以提出任何问题,什么限制都没有。实际上,在任何时间段内,都没有指定的时间限制。您可以在某个时刻继续提问,观察者必须做出选择。必须说哪个是计算机,哪个是人类.或以其他方式比如给出a是计算机或b是人类的判断,在完全图灵测试中,通过图灵测试意味着你无法猜出哪一个是一个人或是一台计算机。具有统计学意义,意味着一旦做对了,你就无法猜测屏幕后边到底是什么。从统计上来说,计算机和人类是无法区分的。

 

图灵测试据说被滥用了很多次而且误用了。人们说通过图灵测试是因为他们选择了一个特定区域。有一个特定领域存在问题,然后,如果在一定的时间限制内,比如半小时后,他们不能说他们还没有发现哪一个肯定是电脑,他们就说通过了图灵测试。但是,图灵测试有点决定了计算机是否可以模仿人类,使其与人类无法区分。一般来说,如果通过了图灵测试,你就不知道哪一个是电脑,哪个是人。

 

10.png

 

所以我将这个作为一个原则,作为测试专家系统是否足够好用的方式。并不是说他们必须获得75%的性能或80%的性能,85%的性能又或者是百分之百的性能。我们无法在专家系统上设置任何级别的性能。如果专家系统与人类专家无法区分,那么测试专家系统是否足够好用时,这就足以使用了。它不一定是完美的,但它必须和最好的人类一样好,有点像国际象棋的卡斯帕罗夫。如果你的计算机只是可以模仿kasparov,这是一个梦幻般的性能水平。在某种意义上可能会犯错误,但并不重要。

 

我们不会停止追求完美,这种完美控制着与人类专家一样出色的表现。但我认为这与人类专家一样很重要。我认为人类专家是被定义为优秀的人才,能提供高水平的人类表现。所以我并不主张测试是针对人类表现不佳进行测试。它将成为最好的人类,是特定领域中最优秀的人类。如果你的计算机系统和一个领域中最好的人类一样好,那么它就足够好用了。

 

11.png

 

接下来我们将要谈一谈专家差异(expert variation

 

12.png

 

我刚开始攻读博士学位时是在联合学院,同时进行与计算机科学和医药科学相关的研究。实际上,当时我在医院产房旁边的办公室开展研究工作,研究的主要内容是婴儿健康状态的评估。更确切的说,是婴儿在刚出生时的身体状况评估。如果婴儿生病了,他们想要知道这是怎么回事以及有多严重。由于时间限制,在这里我不对具体医疗细节进行详细阐述。但所有关于人的基本原则,我们的呼吸,我们的肺吸进氧气呼出二氧化碳。这就是生命存在的方式。

 

通常胎儿在母体中是通过胎盘和母体交换富含氧气的血液,然后自己呼吸后产生二氧化碳通过胎盘再次进入母体,通过母亲呼出体外。但在分娩过程中,当子宫收缩推动身体反应时,它会收缩,它会阻止血液供应到脐带,造成婴儿缺氧,就像屏住呼吸一样。在分娩初期,收缩活动大概每5分钟进行一次,每次持续30s。大致等同于屏息30s后休息5分钟,这种频率婴儿是可以忍受的。而到了分娩后期,随着婴儿临近排出体外,收缩活动大概每隔1分钟就要进行一次,每次持续长达1分钟,这就像是屏息1分钟后休息1分钟。你们可能觉得这没什么困难,认为自己能够轻易做到。但如果尝试将这种活动持续进行4个小时,我可以肯定地说你们是做不到的,你们无法忍受这种频度的缺氧。

 

每次进行屏息和呼吸时,新陈代谢产物在体内的循环会导致血液中氧气含量不断降低,同时二氧化碳含量持续升高。成年人经过长达4小时的上述活动后将会死亡,而婴儿必须适应这种缺氧状态,因为缺氧是正常分娩过程中的一部分。但如果婴儿被固定或缠住了而无法正常呼吸,这时将会发生什么呢?颈部被缠住时,首先身体会产生抽搐现象。随后,缺氧状态将导致除心脏和大脑外所有器官逐渐停止正常功能活动。如果持续处于缺氧状态,那么大脑将会受损并最终衰竭。而这种情况有可能在分娩过程中出现。

 

婴儿的健康出生是存在风险的,大概有5‰的婴儿最终会在分娩过程中死亡。同样,产妇也处于危险之中,虽然危险程度低很多。无论怎样还是有 5‰的婴儿脑损伤或者死亡。所以我和一组医生一起合作,我们希望知道婴儿的缺氧程度,产生脑损伤的可能性等等。没有现有的方法能够做到这一点,你也不能问婴儿如何治疗或类似的事情。所以我们需要一些方法来判断婴儿有多虚弱。我们采取的方式是从脐带中取出一些血液。

 

婴儿出生后会发生什么,婴儿从母体中分娩出来后,研究人员利用类似小型塑料夹子,分别夹住脐带与婴儿和母体连接的两端。具体来说,分别用两个夹子夹住脐带的每一端,并在夹子间分别将其从两端切断,最终得到一小段约为10cm长的脐带。婴儿与母体分离后,母体及胎盘将继续进行后续医疗处理,例如胎盘的取出等措施。之后可以从脐带中获取血液样本,放进血气机,医疗细节实际上无法直接测量氧含量和二氧化碳含量,但可以直接测量其他数字 其中之一是ph,血液的酸度。酸度与二氧化碳含量有关,血液中的二氧化碳是酸性的,二氧化碳会生成碳酸,。因此,血液中的二氧化碳越多,血液中的酸性就越强。所以,无论如何您需要下面的两个数字phBDecfBDecf是乳酸含量,是无氧呼吸时的代谢产物,我们认为这些数字基本上可以提供有关二氧化碳和氧气含量的信息。

 

13.png

 

总而言之,分析判定新生婴儿的身体状况需要4个参数的数值,即分别从动脉和静脉血液中所检测的pHBDecf。对医生来说,根据参数数值即可推断婴儿的身体状况,判断其是否因脑损伤或缺氧而濒临死亡。所以测定上述4个参数的数值并将其提供给医生,就可得知婴儿的健康状态。而事实证明,人类只能勉强分析三维数据,难以根据四维数据进行推断。这是一个非常艰巨的任务,因为人类无法构思分析四维图像。所以判定婴儿身体状况的过程听起来简单,实际上却并不那么简单,需要相当多的专业知识。

 

我们希望能够分析和推断每一次的分娩结果。但每时每刻都有婴儿降生,专家无法做到时刻在各个病房待命,所以我们想要开发一个计算机专家系统来完成这项工作。

 

14.png

 

所以在博士阶段我接到了这样的一个任务,建立一个这样的专家系统。

 

15.png

 

最后我去找我的导师,说我完成了我的系统,完成了我的博士学位。我的导师说,它工作吗? 我说,是的,你把4个血气数字输入,系统告诉你这个孩子的生病程度。 他又问你怎么知道这是对的?我说他给出的答案就是正确的。我们怎么知道这个数字是正确的?

 

记得早些时候我说这是世界上第一个,我在这个领域建立了世界上第一个专家系统。 那么我该如何测试我的系统是否足够好呢?如果正确答案的数据库中没有完美的标准,那么答案到底是什么?我坚持寻找我的答案。测试的答案是什么?无论我的系统是否足够好用,我都会以图灵测试的形式与专家进行比较。这不是完全图灵测试。我并没有说在这里创造人工智能。我只是说我们有一种专家系统验收测试。我的专家系统评估测试是我的系统和专家提供相同的答案。因此,我同世界领先的研究小组一起基于酸碱和脐带血分析的工作。

 

我非随机地选择了50个患病婴儿的案例,请团队中的6位专家分别独立对这50个病例的身体状况进行排序。序号1代表病情最严重的婴儿,序号50相应地代表身体相对最健康的婴儿。与此同时,我将相同的病例数据输入到模糊专家系统中。

 

16.png

 

  我的模糊系统也是同样的任务。而我要比较我的模糊系统和专家们的数据。

 

17.png


举例来说,6位专家(Expert1-Expert6)均将位于第三行的病例婴儿(Baby)列为序号1,判定其为病情最严重的婴儿。同时可以看到,专家系统(Fuzzy)也将其判定为序号1。而对于其他婴儿病例,专家们和系统所得的结果则存在或多或少的差异。随后,我又将结果整理为下图形式进行展示。

 

这张图直观地反映了专家之间的判定结果变化(Inter-Expert Variation)。图中,位于X坐标轴的数据是模糊专家系统所给出的排序结果(fuzzy expert system ranking)。系统将序号1判定为身体状况最差的婴儿病例,我在这个位置(左下角)用一个圆点进行标记表示。位于Y坐标轴的数据是人类专家所给出的排序结果(clinical expert ranking),均由6位专家(Clinican1-Clinican6)自行标记。我们可以看到有6个圆点被重叠标记在序号1的位置。所以,专家系统和6个人类专家均将这个婴儿判定为序号1,即均认为其病情最为严重。

 

18.png

 

专家们也会给出不一样的结果。比如我的专家系统给出的大概是序号12的婴儿,专家们分别给了9,10,11,13,14,15这些序号,六个专家分别给出了和我的专家系统不同的结果,他们彼此之间也互不相同。

 

如果你给人类艰难的决策任务,他们就会说不同的结果。即使专家认为任务困难,他们也可能会给出稍微不同的答案。你可以说他们弄错了。但不会总是有一个至关重要的错误。给他们一个艰巨的任务。如果您有不同的答案,我们会调用专家变体(expert variation)。我们开始对此感兴趣,请记住,这是图灵测试的一部分。你知道,我对专家系统的判决进行了测试。如果他很完美,它将是过原点的直线,我真的会完全同意,将所有的点都完美地放在彼此之上,就像在第一个点,但他们不是。他们开始蔓延。你得到了专家之间的差异。

 

19.png

20.png

 

在上图中,所有的判定结果圆点散布在直线周围,我们将这种情况称为专家间变化(Inter-Expert Variation)。对于困难的决策问题,有时人类会给出不同的答案。以上实验结果充分反映了这个现象。这引发了我进一步研究的兴趣,于是我又进行了另一项实验,我做了第二个实验。我找到了两位专家,只有两位专家,并期望在我们完成任务后一个月再去志愿参加这项任务。结果原来的六位专家只有两位愿意参加。在同样的时间条件下,这些婴儿的数据被打乱顺序,所以他们不可能记得原来的顺序。图中展示了相关的结果。不同颜色的三角形和圆形分别代表专家A和专家B在第一次实验和一个月后第二次实验中的所得结果。

 

可以看到,序号1的标记图形是由两个三角形和两个圆形同时叠加在一起所组成。这也和我的专家系统给出的结果一致。再次说明一下,这是最终死亡的婴儿,显然他的身体状况非常差。对于专家系统排列的序号2病例,AB给出了不同的标注意见。对于序号3B在两次实验中所得结果相同,而A则分别将其排为序号5和序号9。但不仅只有A,图中也存在AB针对同一病例均给出不同结果的情况。AB均与自己产生意见分歧,有时候甚至会有很大的分歧。

 

21.png

如果我再次测试我的专家系统,我的系统会给出完全相同的结果,意味着结果将会是在一条直线上。

 

22.png

 

因此,如果我想尝试区分我的专家系统与专家,那就是差异(或者变化)(variation)。我的专家系统没有。 他们应该是正确的,每个人都只是假设计算机总是提供百分之百的可靠性。

 

23.png

 

但是我用一个很宽的比喻,你去打牌或者下棋,你能以完全相同的方式玩吗?如果你没有尝试创造最佳策略并且最终每次都下完一整局,那么你很快就会知道你不能下棋或者每次你必须改变过程来有效的下棋。

 

24.png

 

如果计算机专家系统与其模拟的专家同样不可靠(可变),它才能通过图灵测试!。我认为我们可以将重要的事情区分为变量和仅仅制造随机错误。我们不能接受完全随机的行为,但也许我们有一些不可靠性。

 

25.png

 

我对这些问题很感兴趣,我们能否恒衡量和建模专家自身和专家之间的差异?我们能够用这些改进我们的决策过程,这就会涉及模糊集合。

 

26.png

 

现在考虑两种集合,传统的离散的集合,在自然数集合中,y轴是隶属度,当在0的时候,表示不在素数集合,当他在1的时候,表示它在素数集合。

 

27.png

 

现在考虑一个横轴是连续数的情况,判断是不是小于20,就会变成一个阶梯形的函数,小于201,大于20就是0,这个非常好判断。那么年轻这个集合要怎么定义呢?

 

28.png

29.png

 

所以在座的各位同学都是年轻人,但我会说我也是年轻人,开个玩笑。但如果按照刚刚的定义,一到20岁,就突然不是年轻人了。所以在1965年,他们觉得这并不好,就创立了模糊集合。

 

30.png

 

模糊集合一般类似上图,基本上只在y轴上有两个基本关键事项,在0-1之间能有数吗?这里可不可以有斜坡或者是我自己的函数?5岁的时候,被定义为年轻人,45岁之后就不再定义为年轻人,545岁之间,渐渐的就在年轻人的集合中越来越小。在这里25岁的时候,就是一半年轻人。

 

31.png

 

然后你可以有不同的模糊集合,年轻,中年,老年等。这里是模糊集合的示例。因此,如果你是二十五岁,就是半年轻人,半中年人,我经常开玩笑,你可以告诉我很久以前拉过幻灯片,因为现在我将把它们移到右边,我不认为很多人会说二十五岁的中年人。

 

我用模糊集合建立了我的专家系统,如果我有了这样的一个模糊集合,包含了20岁这个年龄,则其在如图所示的模糊集合中属于中年的隶属度(membership)恰好是0.2,这里是确定的,从而在某种程度上模糊集合是不模糊的。.

 

32.png

我对建模这种变化非常感兴趣,所以我建立了一个模糊集合,并把隶属度函数左右移动,由于他左右有变化,所以每次读取20岁对应的隶属度时都会有变化,变化的大小取决于你左右移动了多少。标记点就显示了这种变化。

 

33.png

 

标准的模糊系统就是你给系统一些输入X,然后运行它,运行完整个模糊系统直到你从系统中获得一个输出Y。我向你展示的经典的模糊系统是不会发生一些变化的,如果你一直给相同的输入数据,那么你将一直得到相同的输出。

 

34.png

与之对应的是,变体模糊系统是是由一些有移动的模糊集合组成的,

 

35.png

 

系统运行一次得到结果y1=f(x, t=1)后,略微移动模糊集合后再次运行系统,则得到与y1略微不同的结果y2=f(x, t=2) 。所以如果你运行这个系统n次,每次都像运行一个标准模糊集合一样去进行,你会得到n个不同的结果。N可以是3次,也可以是50次,或者成百上千次,这样就会得到一个结果的集合,

 

36.png

 

你可以对这些结果进行运算,排序,取均值,取极大值极小值,中位数、众数等这类常见数值的求取运算,最后得到新的集成的结果Yensemble。但是有一点很重要,我需要强调的就是在我们的系统中,变化很小,并不是不进行控制或者完全随机,我们只允许模糊集合偏移很小的量,随后做了一些变体实验。

 

37.png

 

当我们使用小的变化——小的偏移量来进行我们的实验时,图中展示了我们的系统的表现,彼此之间存在明显的差异。你也能看到一些变化的模式,就像在之前展现给大家的图片所示。

 

38.png

 

之后我做了一些实验,用于衡量我们的系统的差异的模式和专家给出的结果的差异的模式的匹配程度有多高。我们又进行了两个独立的实验来模拟专家变化,实验结果如上。第一个实验对6个临床专家之间分析判定结果的一致性(inter-expert agreement)进行建模分析。结果表明,若将所建立系统的模糊集合在水平方向上的摆动量设定为论域总长度的3%,则可获得最优的专家评定匹配结果。第二个实验对单个专家自身分析判定结果的一致性(intra-expert agreement)进行建模分析,得到与上一个实验结果相同的数值——3%的变化范围。

 

39.png

 

这是一个有趣的事实,如果我展现出了3%的差异,王教授也同样有3%的差异,之后来衡量我和王教授之间的区别,那也是3%,这也就是说我和王教授基本上一致的决定,仅仅有3%的不同。所以说,我认为这是一个有趣的现象,尽管专家们之间有3%的不同,但基本上专家们都在说相同的内容。问题是我们能否建模这些变化,定量的衡量一些变化。另一个问题是这些变化能否改进决策,这个非常重要。

 

40.png

 

现在我们的话题回到医学,我在这方面做了十年以上的工作,而在这里展示的内容可能是二十年间的工作成果。我工作所在的诺丁汉大学是乳腺癌医疗的世界级研究中心之一,术后治疗(Postoperative Treatment)是一项诺丁汉大学特别的专业医疗技术。这项技术用于已确诊是乳腺癌的人群的预后处理,在癌细胞切除手术后,可能所需进行的后续辅助治疗(Adjuvant Therapy),例如化学治疗(chemotherapy)、放射治疗(radiotherapy)。化疗是一种令人十分痛苦的治疗方式,有让人头发脱落等作用,他们想要尽可能的给最小的用量,所以我们只是决定是否给他们使用化疗这种治疗方式。

 

41.png

 

这是一份临床方案,是一个规则表,实际上医生会能够根据这个表格做一些决策。表格下方是乳腺癌最严重的一种状态,如果你的决策变量落在这里,推荐化疗。我觉得这里有一个很有趣的地方,如果年龄是39,则建议化疗,而如果刚好年龄是40,这时又该如何处理呢?对于40岁与60岁之间这段年龄区间,方案中并没有给出具体的治疗指导建议。在六十岁生日或者六十岁生日后一天呢?同样也没有明确的指导建议。

 

42.png

 

我们将临床方案中的规则转化为模糊规则(Fuzzy Rules),

 

43.png

 

图中说的年轻(young)就是一个模糊集合,正像我们之前讨论的关于年龄的模糊集合一样。下面我将直接跳到结果这一页

 

44.png

45.png

 

我们建立了一个模糊系统,并花了几个月的时间来优化这个模糊系统,我们最大化我们的系统和临床实践一致的数目。Y轴的数值代表系统判定与临床实验所得一致结果的数量。我们想要建立一个能够获得与专家分析所得结果相一致的系统,虽然不能做到全部完全一致,但希望使相同结果的数量尽可能地提高,也就是将Y轴上的数字最大化。X0.03表示3%的变化量,0.08表示8%的变化量,对于每一个不同的变化量,我们都将其重复进行30次并获得30个不同的结果,取出其中占多数的结果作为最终唯一的集成结果——化疗或者不进行化疗。就像问了30个专家,多数都说yes,那么最终的结果就是yes. 就像询问明天会不会下雨一样,问了所有人都说会比只问一个人来的更好。多个专家给出来的集成的结果是会优于单个给出的结果的。实验表明,当变化量取值为8%时,即在X轴方向取8%摆动量的情况下,一致结果的数量达到了最大,数值约为1140

 

接下来我要迅速的完成剩下的报告内容。我将要讨论learning

 

46.png

 

什么是学习呢?学习有很多种形式,transfer learning ,reinforcement learning等等。但是我要介绍一个观点,如果你的行为不是多样化的,那你就不能学习。学习应该被定义为做一些和之前常做的事情不一样的东西。如果你只想做一些相同的事情,那么你就不是在学习。就像你学骑自行车,当你开始的时候,你总是会摔倒,如果你从不学习骑自行车,你将会一直摔倒,所以学习发生在你的行为有一些变化的时候。这有点像强化学习,你尝试不同的事物,其中的一些能够工作并带来新的东西。所以我赞成只有当系统中存在一些变化的因素的时候,学习才会发生。

 

47.png

 

我想说一系列的模糊集合能够包含这些,所以我们想如果围绕着中点,只是变化这些集合,并没有学习发生,那仅仅是一个变化而已。

 

48.png

 

如果系统发生一些变化,并不是移动系统,那么模糊系统就会开始学习,因为这改变了中年的意义,从浅红色变成了深红色。相似的,这也意味着模糊集合的一些移动。所以为了进行学习我的模糊集合中必须要存在一些变化,

 

49.png

 

现在我们要讨论一些有哲学意味的问题,刚好这是在怀德海讲座,怀德海本人又是一个哲学家。在这个大概是上个世纪80年代的中国房间的图片中,有一些中文文字,这和英文是完全不同的,我甚至完全不能猜测这些汉字是什么意思。如果现在有一个程序能够完美地将英语翻译成中文,并将内容写下来。假设一个人不懂中文的人坐在房间中,拿起句子并运行程序,得到了翻译的结果,然后把它放进了书里,程序之外的观察员看到程序写下英文并把它翻译成中文,但很明确的是运行这些程序的人员本身并不懂中文,他们只是运行了一个计算机程序。所以Johnson说,即使一个计算机通过了图灵测试,这也并不意味着他理解了图灵测试。所以说通过图灵测试也只能说在某种程度上说计算机获得了一定的智能。

 

50.png

 

接下来是我的一些有趣的思考。我们说人类创造了人工智能机器人和有自我意识的机器人。我想了一个小实验,假设你和人工智能专家制造了一个有自我意识的移动设备,假设是一个成年的大猩猩,能够走路、交流、表现出情绪等等我们说的代表智能的一些特征,你希望能够扩展他的大脑,让他有真正的自我意识,从大猩猩的智力水平到人类的智力水平,除非你想到了怎么做。

 

51.png

 

之后你加入了智能的函数,并激活这些函数。现在你扩展了大脑的程序,并运行了一年,事实上,你只是叫它运行了一年,什么也没有做。一年后,照样走路不稳,不会说话,不能展现出任何真正能证明自我意识或者智能存在的证据。如果你思考人类,一岁的时候也不能展现出任何智能的证据,这可能说明这个想法创造了一个智能的机器。之后你突然发现,他变得智能了。为什么我们会期待一个东西突然变智能呢?

 

52.png

 

最后我们知道了什么?假设你继续你的实验,之后几个月,他真的变智能了吗?他有自我意识吗?最著名的哲学家会讨论我是有自我意识的,我知道我正在思考,我知道王教授也是有自我意识的,在座的各位都是有的,因为你们看上去会展现出幽默,所以所有的人类都是有自我意识的,以一种有自我意识的方式来思考自我意识。

 

53.png

 

想象一下一些长得不像人类的事物,但他通过了图灵测试,十年后会是怎样的,又或者再过50年,进步在哪里,可能我想找到一个正确的答案,我并不需要一个学生,我甚至不用问任何人,只用在google中输进去。那也将是智能的寒冬。

 

54.png

 

假设20年后,因特网通过了图灵测试,你可以向因特网提任何问题,他都会给你提供一个智能的答案,但那是人工智能吗?你会认为这是他们在思考,他们的自我意识存在?我们要对他像对人一样吗?

 

我的最后一个思考,我们要如何知道他具有自我意识,或者说,我们如何知道他没有自我意识。我们如何知道他是有自我意识还是武器?

 

55.png

 

我们如何知道互联网已经足够智能到坐在那里思考如何占领全世界。当前我们无法检测意识和其他东西,我们甚至可能已经建造出了有自我意识的机器,只是长得不像我们罢了。我的演讲结束,谢谢!

 

56.png


问答环节:

(由于视频不完整,问答环节不完整)

王教授:谢谢,现在轮到我们提问了。我开个头,我曾听过Jon今天讲的部分内容,但仍觉得这是我听过的最好报告之一。特别是这个报告给了一种测试专家变化的方法,专家不仅会随着时间变化,他还会随着场景变化,从而导致决策的不一样,结果也不一样了,怎么测,怎么来研究这个问题?我想用演讲结束时提到的互联网问题来回答你的问题,因为我几年前在一本中文书里有相似的关于意识和认知的论述。在"Chinese Room中国房间"的讨论中,被测人用字典进行翻译,别人就会以为他/她知道中文,但实际上不是的,根本不懂中文。现在或不久互联网可以翻译了,我可以把问题交给Google或者维基了,问题可能更困难,背后有很多不知名的人,字典人化的同时,人也字典化或维基化了,人机更难分。现在很多AI公司,就是在做这样的事情,假装在做AI,实际上是人类在完成工作。这是造假,还是实现智能唯一或之一的途径?如此下去,自然或万一形成趋势,你说什么是真正的AI

 

我的一个问题就是你否觉得-1的平方根i是不是一个真的数?如果你认为i真是一个数,那么在此意义下,机器也是有意识的或者是有想象力的。我和大家解释一下,就是关于人到底有没有意识,机器有没有思维。关于这个i, 虚数单位,是不是一个数,四百年前,没人这么干,这么干的人就是神经病。i的中文叫虚数,文雅中性,但英文是imaginary number,其实当时就有神经病的意思,不是什么好的意思,至少无奈。但是到了今天,如果现在你还认为i不是一个数,你就是神经病了!现在,可能小学生都知道i是一个数。所以,随着时间、认识的变化和技术的发展,所有的事物都会发生变化。你要认识理解相对论啊,量子力学啊等等这些,都需要接受i是一个数,没有这个,这些理论的方程都无法写出来,就这么简单。如果你想要进入智能社会,智能时代,可能就需要接受这些机器是存在一定意义下的意识或者是想象力之类的东西。

 

刚刚专家在一起的时候,讨论这个可以写个什么文章呢?我觉得可以从专家系统开始,怎么从80年代90年代那么高的期望,居然一下子就没了?但现在好多智能问题,比如无人驾驶,还包括这个医疗,需要给专家系统充分的时间去适应,就像你给小孩许多年的时间成长一样。总想让赶快成人,不行就一脚踢开,那永远长不大,至少难以智能。所以黑格尔说,人类从历史中学习的惟一的教训就是永远不吸取教训。按照这个说法,人工专家系统为什么最后完了,就是因为大家的期望太高太快了,不允许它犯错。那要犯什么错?变化,variation,专家之间有variation,专家系统自然也有variation,这些内容能不能用学习的方法,比如深度学习对抗学习平行学习的方法?现在已经有人在这么做了,如何深入?下面请大家发表意见。

 

本文由李小双、陈虹宇根据20181018日在北京举行首届怀德海讲座现场报告录音整理而成。



https://blog.sciencenet.cn/blog-2374-1177956.html

上一篇:[转载]【报名开启】第11期智能自动化学科前沿讲习班
下一篇:[转载]IEEE/CAA JAS 2019年第6卷第3期网刊已发布, 欢迎阅览!
收藏 IP: 125.34.50.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-25 13:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部