博文

【泥沙龙笔记：从民科扯到五代机及其AI历史与现状】

已有 4608 次阅读 2016-2-22 23:44 |个人分类:立委科普|系统分类:观点评述| 人工智能, prolog, 五代机

洪

以前导师常把民科的思维科学方面来信转交我们几个学生逼我们妥善回复，嘱咐：不鼓励，不打击；我们都是寄本老师的书以及推荐几本循序渐进的相关书籍。

我:

民科我见过几个，确实病得不轻为多，蛮让人心酸的。

硅谷有民科吗？

我:

我就是啊。

病的表征有：自大，迫害狂幻想，不修边幅，生活邋遢

。

工作狂，目空一切，老子天下第一。物质需求有限，生活在自己的

精神

世界。这种人不宜结婚生子，拖累一家人。但这些人，其实都是心地单纯的“好人”，无药可治，同情或无视。批斗就算了吧。

Nick

你这描述貌似职业革命家不是民间科学家

我:

其实，批斗起反作用，这些人平时不受人注意，都是越斗越勇的人。

白: 不在一个频道上，批斗个鬼啊。最好的方法就是敬而远之，晾着。

洪: 说到民科，人人自危，哪怕专业人士。估计每次在领导或群众面前吹牛皮之后，谁都会夜半扪心自问：是否夹带私货，与民科混为一谈

白: 公司里的事儿另说。不民一点，怎么活得下去。

我:那是 marketing 或自我包装、推销。

Nick: 科普和民科之间没边界？

洪: 说到民科，最大的民科估计是科学社会主义理论发明者老马。民科由此引发了一个世纪络绎不绝前赴后继的职业革命家，叹为观止。

我: 然。

当年日本的五代机计划就是民科的另一个代表。以为出了个 Prolog，机器就可以与人交谈了。美国 DARPA 等项目中，不时也会冒出个非常民科的 program。匪夷所思的民科式描述，在众多科学家面前，也可能一样畅行无阻，没人说皇帝没穿衣服。有的科学家大概是不屑或没找到好的方式评皇帝新衣，有的则是有私心，想分一杯羹。（见：说说科研立项中的大跃进）

洪: 不与民同乐，孰乐？不与民同科，孰科？

平心而论，民科中，撇开沽名钓誉之类不论，其余都是有可贵梦想者。

Nick: @wei 为啥说五代机是民科？我这几天正梳理五代机历史，你给我来点聊？

我: 五代机的论证不够，就上马了。due diligence 严重不到位。五代机的目标定在，全面的自然语言理解和机器人。当时是天方夜谭。现在也还是天方夜谭：只能说，经过这么多年的折腾，我们打开了自然语言理解的大门而已。引力波探测仪也就是打开了探索宇宙起源的大门而已（

【立委科普：自然语言parsers是揭示语言奥秘的LIGO式探测仪】）。

洪: 莫笑日本五代机，富士东芝因之起。自然语言语义及，长尾真君很给力。

白: 自然语言只是五代机的边角，五代机的中腹还是推理。边角还好存活，中腹被屠龙了。

顾: 如何自测是否是民科？

Qing: 推理问题瓶颈是理论还是工程？感觉不考虑实现的时间和空间复杂度，应该理论上能解决。

Nick: 毛老出国前也算民科吧

毛: 民科得要凭一己的物质条件以个人的名义进行研究和实验，而我80年进浙大工作以后都是由学校提供条件、以学校的名义进行。这里面有很大的不同。首先他们需要有更大的毅力和自信，这就很不容易。

白: 民科之民，不在有无单位抑或有无财物支持，而在不遵守共同标准。

毛: 但是他们往往在逻辑方面不够严密，因而常常是在哪个环节上出了大错而不自知。

独: 民科实际上在考古学这些方面容易出成果。在数学，物理学，这些非常强调知识基础和逻辑的学科没有机会。

毛: 对的，这个共同标准其实就是推理的方法和过程。这里一是推理的起点，那是专业知识；二是推理的过程，那主要就是逻辑。当然还要实验。如果这两条都做得很地道，那就无所谓民科不民科了。

独: 数学知识基础其实还可以补一下，但是严谨的逻辑推理往往被忽视，却是很难不经过专业训练获得的思维习惯。

Nick: 实用主义真理观: 共同体，共同体之内的是一党，之外的全民科。

我: 还有“被民科”的 case，时势使然。本来是正宗主流，甚至是嫡系传承，后来闹政变了，就被边缘化成民科了。说的是 yours truly。这种情形多数是认命，timing 没踩上点儿，自生自灭而已。没被灭的幸存者也可能一个人对抗一个世界（如：围脖：一个人对抗一个世界，理性主义大师 Lenat 教授）。

白: 能敢拉出来遛遛的，都不算民科，是不是足够好另说。

独: 提问：五代机现在看起来会不会被机器学习的人当成民科？

钱学森倡导研究人体功能科学，这个就是典型的民科

毛: 其实，牛顿的光学研究很像是民科，但是人家的逻辑十分严密，又有实验支持，那也就不民科了。

五代机当然不是民科。五代机其实更多地是一种主张。

我: 五代机就是科学共同体的头面人物裹挟政府炮制出来的一个大民科。因为自上而下，而且从内部发端，于是就不得不承认它的“不民科性”。窃钩者诛，窃国者侯是也。（CF：

说说科研立项中的大跃进）

换个角度看这个问题就清楚了。如果一个大民科像钱老一样以前是个权威，他成功说服了或政府或其他的投资人，上马了一个永动机的项目，或者人体特异功能项目，或者水变油的项目。十年下来，这个项目也一定促进了技术或工艺的进步，甚至可能推进科学的某个方面。不能因为钱砸到项目里面，带来了某些进步和效果，培养了人才，得到了教训和经验，就否认项目的民科本性。五代机就是如此。

毛: 完全不同意。五代机一点不民科。

我: 5代机与永动机一步之遥而已。五代机就是AI的永动机。

毛: 你这个结论才是民科。你拿什么逻辑支持？

我: 闹腾五代机的时候，我刚入行不久，看到了关于NLU和AI方面的五代机宏图（objectives），匪夷所思，热昏的胡话一般，这种忽悠，一般的民科只能是小巫见大巫。由此得到的震惊和怀疑，随着时间更加深了这种印象而已。回看历史，当时的 trigger 之一就是 Prolog 刚刚兴起带来的狂热。

毛: 我赞同昨天白老师的观点，五代机核心的特征是基于推理的人工智能。五代机的目标也许有点脱离当时的实际水平，但是你能说探索火星是民科吗。

我: 我在《语言创造简史》中提到了一点相关的东西：

QUOTE：有意思的是，有时候人会因为创制了一门新语言，就以为该工具针对的问题就已经解决了。人工智能历史上，Lisp 语言以及为其量身定制的 Lisp 机曾经刮起一阵旋风。女儿最近课上接触它，为那些没完没了的括号头疼不已，我说，难道你没看到设计者的匠心？

后来 Prolog 的设计和实现，成为日本五代机大跃进的主要依据。一时间极度乐观主义在日本精英阶层流行，人定胜天，似乎制作能说人话、能自主思考的智能机器指日可待了。泡沫破灭，五代机项目是完败，本来日本雄心勃勃要借助五代机项目赶超美国，做软件产业和IT的带头羊。其结果是与美国的距离更远。

刘: 你们争的民科有明确定义吗？编程语言属于上层建筑吧，咋会影响那么大？

我: 的确是那种感觉，当 Lisp 和 Prolog 刚出来的时候，AI 内是一股旋风，觉得终于有了逻辑神器。那旋风和由此而来的期待不亚于当下的DL（深度学习）。

毛: 用什么语言，并非五代机的核心特征。

我: 是 trigger，也是论证五代机的重要依据。

独: 不说五代机说说程序设计语言吧

毛: 对我来说，不管是Prolog还是LISP，最后都是C，都是汇编。不同的编程语言，只是使编程更方便一些而已。重要的是算法和模型。

独: 函数式编程语言带来了一个好处就是只要设定目标程序就可以自己调动。问题在于，当程序自己调动执行的时候，如何确定两点：1，型的相干性和正确性；2，语义的相干性。前者涉及的是程序运行的安全，后者涉及的是程序设计的功能。在高阶逻辑上的语义相干性是难点。这就是五代机失败的根本原因。关于前者需要学习研究type theory，关于后者，需要彻底理解计算机科学的方方面面，计算理论，符号逻辑，程序语言设计，体系架构和操作系统。因为程序语言是在这些基础之上运行的。

Nick: @独函数语言和逻辑语言都有带类型的，动态静态都有，如ml。

prolog被选中，一个原因是专家系统，日本人被费根鲍姆忽悠了。日本人要搞知识处理。prolog是最大公约数。ehud shapiro访问日本时，提出了concurrent prolog，解决了prolog并行处理。于是。。。

毛: 五代机失败并不在于所采用的语言，而在于:

1, 目标的宏伟托离当时的实际。

2, 美国人将重点放在网络，那显然抓住了痛点。这使人工智能的研究一时陷入低潮。

我: @毛老语言的重要性还是要强调。虽然最后都是机器码。高级语言的诞生使得以前不可能实现的大型软件app成为可能，虽然理论上总是可以用汇编实现一切（实际上也是，不过必须借助compiler，而不是人力而已，而compiler说到底还是手工编制的）。后来我们开发 NLP 专用语言，所谓 FSA++，体会就更深。我现在做的 parser 的开发工作，在以前用 general purpose language 做 toy system 的时候，是完全不可想象的。

独: 二进制基础上是机器语言，机器语言之上是汇编，汇编之上是高级语言如C，高级语言之上是函数式语言。

我: 再往上是领域专用语言。

毛: 不是说编程语言不重要，而是说，与算法和模型相比，只能退居二线。这也是图灵为什么伟大的原因。

独: 型的相干性这个一般不怎么被计算机科学的学者注意，因为型比较普遍，可是研究语言运行的时候，首先是考虑运行的安全，安全性的首要保证是型的安全。因为早期程序语言设计的时候不太注意型的安全性问题，这导致了函数式语言和高级语言在运行的时候，容易出现型相干性出错的异常。后者和前者的核心都是高阶逻辑。符号逻辑派人工智能的发展受阻恰是因为在这些根本问题上发现了不容易解决的困难。

毛: 编程语言解决的主要是效率的问题，而不是能不能的问题。

我: 效率算量，能不能算质，量变可以引起质变。好的语言的设计和实现，使得以前的不能成为可行。

formalism, language, data structure and algorithm 这几项有太多的藕断丝连。至少对于领域使用，恰当地区分又不割裂它们，会给系统开发带来莫大的便利。而这些关系有时候需要几十年的教训和经验做底，才能慢慢理顺。formalism 就是白老师说的 “毛毛虫”（【白硕 - 穿越乔家大院寻找“毛毛虫”】）。这也是很多年才看清眉目的东西，而多数人还在雾中。为了实现毛毛虫（formalism），需要定义和实现一个方便的专项语言（domain language），这个也是在反复摸索中慢慢体会出美与丑（style），和可行与不可行（functions）来的。

而拿这个 language 做开发的时候，data structure 是基础，algorithm 流程是秘方（trade secret，领域研究的结晶），这两者又与当时的 formalism 和 language 的定义与实现，相呼应。千转百回，还要不迷失方向。

毛: 如果要追究得更深入一些，当时对“连接主义”学派的排斥和打压当然也是个重要原因。所以，现在就应该把这个也包含进去，成为“人工智能机”，而不只是“基于推理的人工智能机”。所以，我认为，现在应该在新的基础上重启五代机的研究。

Nick: 这回该轮中国了，要不你给来个建言献策？

毛: 我曾和浙大的一些学生讨论，我问他们：假定现在还没有互联网这东西，那你们认为应该先研究发展互联网还是人工智能机？他们想了一下，都说应该先发展互联网。我再问：现在有了互联网，而且看来互联网技术发展的势头已经放缓，你们看是否应该回头加强人工智能的研究？他们都说应该。我说：这就是从80年代后期一直到现在所走过的路。在市场经济下，这条路是必然的。更何况，互联网的发展又对人工智能提出了更多更迫切的需求。

我: 重启五代机，结果是什么？还嫌AI领域泡沫不够大吗！目前，投资界和大企业是卷进去了，谷歌 brain，百度 brain，等等。真有货，不愁没有重金投入，AI目前实际的状况是已经占尽了资源的优势。几乎全领域乃至全社会都把希望寄托在 DL 上。重启五代机的直接结果就是，把国家和纳税人再卷进去。就是AI泡沫不再扩大，现有的泡沫就已经够AI领域喝一壶的了。看五年之内，到底有多少可以 deliver，ROI 合理与否。

因此，我觉得恰恰相反，应该缓行。先由着企业和投资人去折腾。不着急让政府和纳税人参合进去。冒险家做冒险家的事儿，他们有消化能力，失败了，也扛得起。把国家资源赔进去，现在是过早了。

毛: AI领域的泡沫是产业界的事。在市场经济下，产业界的狂热是一时的事，当他们看到在这方面无利可图的时候，就会安静下来。但是，作为科学和技术的研究，人工智能机不失为一个应该加以支持的方向。国家和纳税人本来就在一定程度上支持科学和技术的研究，不支持这个就支持那个，重启五代机也未必就要把国家和纳税人都“卷进去”。

Nick：国家资源应该都是先投入的，银行不敢干的vc干，vc不敢干的国家干。哪都如此。

独：问题，当统计学派高歌猛进认为无监督学习可能解决人工智能问题的时候，是否是陷入了五代机的幻想？

人工智能实现的正确路径和原则：1，在各个细分领域的专有系统中实现初步的智能处理，可以有监督，无监督，半监督；2，把各个细分领域的点滴技术进步组合起来； 3，单纯的某一个方法的改进不解决根本问题；4，对于神经元的模拟，数量的提升不解决根本问题；5，对于某一个计算模型的改进，不能够想当然的以为它会通用于其他领域；6，计算能力，存储能力，模型改进，系统基础架构的改进，领域内库的知识建立，推理机制的建立，共同构成人工智能发展的系统性工程；7，在特定领域特定任务上人工智能的优秀表现会超越人类； 8，人工智能整体上会逐渐进步，但不会实现万能的超越人类的强人工智能。

陈：计算机和人本来就是两个不同的物种，没有必要谁来模仿谁。计算机的强项在于记忆和计算，如果某天她能记住所有人类的知识，感谢大数据，为什么还需要人类的逻辑推理，因为她已经把推理之后若干步的结果都记住了。因而，人工智能这个提法，自身就在禁锢人们的思维和研究的方法

刘：同意，人总是太把自己当回事儿了。

陈：最早在CMU时我的研究方向就是基于实例的机器翻译，语音识别，等等，梦想就是复用人类积累的所有知识。

毛：case based reasoning 也是一种推理，这仍属于“基于推理的人工智能”。至于为什么需要推理，那是因为人们不想停留在数据库查询的水平上。

陈：CBR中的R，主要还是数据不足，才需要R。当然，能做R是加分。是的，人类可以不停进步，但计算机只要紧跟人类步伐就好了。三个臭皮匠，胜过诸葛亮。计算机可以有更多人的知识，看上去会比人类最聪明的人聪明。

毛：还有，是否有必要模仿人，是否把人太当回事。这个问题，我是这样看的: 人们历来认为“人乃万物之灵”，除上帝外再没有什么东西能达到人的智能水平，所以是否人造的机器能通过模仿而达到上帝所造之人的水平，本身就是个天大的问题。再说，通过让机器模仿人，可以更多地减轻人类的负担，成为更好的工具。

CBR之所以需要R，是因为C的样本数量不足，这当然也对。但是的样本数再多也只反映已经发生过的事情，一旦“老革命碰上新问题”，那就需要有R了。不幸的是，或者幸运的是，人类总是碰到新问题。

陈：一个人的新问题，可能是另一个人的老问题。

毛：我讲的是人类。

陈：人类的问题怎么定义？是大多数人的问题？

毛：有道是，世上没有两片完全相同的树叶。同理，也没有完全相同的两个人。所以，一定程度的R总归是需要的。

陈：模糊匹配在某种程度上是。语义树也是。