博文

《新智元笔记：微软小冰，人工智能聊天伙伴（1）》精选

已有 7526 次阅读 2015-12-11 02:45 |个人分类:立委科普|系统分类:科普集锦| 人工智能, 微软, 小冰, chatbot

我: 作为玩具的chatbots之类，一直有（我女儿初中就常爱上网玩），大多是业余在开发，不上台面，直到 Siri 把它溶入真正的 app-specific QA 里面。现在专门聊天卖萌解闷的小冰其实是原来那个传统的延续，没有了 QA 的内核。但时代不同了，玩具是可以有用处的。

新时代的特点是无聊的人越来越多、忧郁压抑的有增无减，每个人都有手机，云计算云存储随时随地可达。聊天小冰满足了社会的某种需求，可以看好。

对于 FAQ （Frequently Asked Questions），可以定期统计和收集，定期更新，用户体验肯定越来越好。FAQ 不需要智能，就是词典绑定。只要有用户，用的人多，体验就上去了。

培: 做chatbots的也有认真的，以通过图灵测试为目标的。他们自己是一个圈子。

白: 图灵测试要看裁判是谁

我: 关键不是裁判吧，关键是时间。聊一辈子的话，真人也有恍惚的时候。有时候我们烦了，就对不专心的下属或子女发脾气：你是聋子么，答非所问。你就根本没走心。

现在的小冰，大概能够通过两分钟测试了。当然，白老师除外。

培: 去年英国那个号称被“通过”的图灵测试就是个笑话。

我: 这么说五分钟是共同体的标准时段。小冰目前还达不到。

马: 当年图灵说的是5分钟

我: 这个5分钟认真究起来，也是很随意的标准。作为一个参照，我们面试一个人，通常是半个小时。当然面试是考察人的技术能力，不是语言能力。

马: 据说图灵测试来自当时的一个游戏，一男一女，男的假扮女的说话，其他人猜测哪个是男哪个是女，形式与图灵测试差不多（其实是图灵测试跟那个游戏差不多），当时的游戏时间是5分钟。还有就是图灵测试中30%的裁判把机器当做人就认为通过了图灵测试，这个30%也与当时的游戏有关。

我: 又玩了几次。如果不是故意为难她而是把她当作网上新认识的可能有趣的异性新朋友看待可以容忍小冰两分钟。估计再有一两年的时间她几乎可以pass图灵测试。

刘: 前言不搭后语

我: 人的容忍度与事先知情不知情有很大关系。在实际生活中遇到过比小冰更前言不搭后语的人。如果就认定她是人只不过可能有某些障碍，然后尝试与她对话以善意去理解她还是可以维持两分钟的耐心的。

吉: 小冰就是搞笑闹玩的

培: The ELIZA effect, in computer science, is the tendency to unconsciously assume computer behaviors are analogous to human behaviors. （https://en.wikipedia.org/wiki/ELIZA_effect）

我: 是的这是 AI 历史上著名的效应，说的是人天然地对AI有一种神奇化倾向，赋予机器本来没有的智能。常见的大众心理，把机械过程理解为心理过程，一堆冷冰冰的铁器被赋予了灵性。

吉: 嗯！这个伊莉莎效应对于人工智能的研究来讲有什么影响？

我: QUOTE：皮尔斯以魏岑鲍姆 (Weizenbaum) 开发的伊莉莎(ELIZA) 程序作为案例来解释“巧妙的欺骗”。虽然伊莉莎很明显并不“智能”，但它或许可以通过图灵测试。伊莉莎批判从此成为对那些看上去比实际能力要强的程序的标准批判。见【Church - 钟摆摆得太远（3）：皮尔斯论】。

也就是说，chatbots 这条路子以前是不上台面的，连开创人也反过来批判它，这不过是“巧妙的欺骗”，用了一点模式匹配，利用了人性的弱点，并不是有价值的AI科学突破。尽管如此，在大数据大存贮的今天，量变可能引起质变，至少可能真正地满足社会上的某种需求。特别是有百万千万用户的时候，会发生意想不到的进展，只要一直做下去。

最简单的进展就是自动半自动地从用户的 log 中去学习，去整理，甚至去手工编辑 FAQs，不断强化用户体验。直到有一天，连最死硬的分子，也不得不承认这种没有科学突破的 “伪AI” 的的确确地通过了图灵所定义的测试。通过了又怎样？通过了就开创了更多的实用可能性。

吉: 功能管用好用就行，就能得到用户认可，用户不太关心背后的理论或具体做法。所以有“空谈误国，实干兴邦”一说！

Jixhu: 问题是不怎么好用…试试就知道了:-)

白: 有一种好用叫顾左右而言他。

Zhou: 立委的观点我深表赞同。不管什么招，把用户抓住最重要。然后你让用户帮着你做科研。

洪: MIT做Eliza的Joseph Weizenbaum后来很快就金盆洗手，成为AI的反省者&批判者。当时他是按人本心理学家Carl Rogers的心理咨询理论建模让计算机帮助疏导病人：https://en.m.wikipedia.org/wiki/Joseph_Weizenbaum

Jixhu：wiki居然还能打开~ 昨天不是都在哀悼了么…

我: 世界上的 AI 都是“伪”的，AI 命名就是误导性的，所以也就不用再继续批判 chatbots 的 “伪” AI 了。

洪: 另一个转向掉头的AI/NLP研究者是当时在MIT后来到Stanford执教的Winograd（segey brin的导师）。他和一位智利的存在主义哲学家合作反省AI命题&方向，然后转而开创HCI（human-Computer Interaction）研究。

白: 只有单调与丰富的差别

我: 以前的经典批判是低级高级的差别。譬如 pattern matching 被认为是低级的，其他的统计 ML，特别是神经网络一路，被认为是高级的。可是在乔姆斯基眼中，二者都是低级的，因为没有运用语言句法，因为几乎所有的传统机器学习（包括神经网络）方法，本质上还是 keyword-based pattern matching，不过是加入了分布统计信息而已。于是，主要用模式匹配玩的 chatbots 就被认为不科学，是巧妙的欺骗，是伪 AI。因为那玩意儿是经验性的，碎片化的积累，不是系统性的突破。

白: 带参数的 pattern matching 就比不带参数的高级。能关联上下文的就比不能关联的高级。有个性的就比没个性的高级。有grounding 的就比没有的高级。

我: 白老师的那些都是技术指标。是专家评议可以用的标准。但是最终的标准还是从用户角度，对某一种特定的需求，看满意程度。

效果为王。“机器伴侣只要提高人类的生存质量和幸福指数，心理障碍的克服是迟早的事儿，水到渠成。”《人工智能畅想曲》。QUOTE again：苹果小蜜 Siri，还有互联网那些对话程序（chatbots）都很好玩。我们因为知道其局限性和背后的 tricks 往往小看了它们所代表的方向。得 AI 者得天下，可以从这些 “小事儿” 做起。

洪: 其实别看不起简单的，越简单或许越管用。例如洗脑方法很简单，但很奏效。关键是用来唬谁。唬一般人容易，但是唬维特根斯坦/哥德尔/图灵啥的，特别是在他们头脑清醒的时候，就特别难…

我: 洪涛说得太对了。用户的 99% 不是我们学 NLP， ML 或 AI 的人。他们看待 AI 就是从科幻小说上得来的。不管怎么科普也是对牛弹琴。那么怎么满足他们呢？怎么管用怎么来。Pattern matching 管用，就先用上。最管用最直接的有互相关联的三条：（1）词典，越大越好，强盗绑定 FAQ；（2） pattern matching，经验主义的碎片化知识积累；（3）人工：后编辑，中国劳力便宜，招一千个大学生做后台。当年 Askjeeves 的后台就招收了成百上千编辑。关键是建立一个平台，可以人机结合，优化体验。加人工不怕，增加就业，是天大的好事。不要一切事情都想到要机器学习。把不好学习的东西找人去做，什么网络流行语了，俏皮话了，常见问题了，流行思潮了，等等。可以人工去搜集，也可以半自动去搜集，让人工最后过滤、确认。

吉: 其实公司里都是这么干的。因为不这样干难生存啊！

马: 还是那句话：有多少人工，就有多少智能。做实用的系统，就得投入大量的人工。

白: 闲扯的用户和有所图的用户，带来价值是不一样的。对于有所图的用户，有些技术是必须的。这是倒推出来的。一个做玩具的公司都知道拿技术上的差异说事儿，专业人士哪能为了迁就闲扯的用户而拿技术上的差异不当回事儿。

马: 好的技术+人工数据，通过人工弥补技术的不足。

雷: 机器做粗活，人做高级。谷歌也有大量的人工活。

我: 现在的小冰娄底的东西已经有了。如果加人工，譬如 FAQ 越大越好，人工绑定，那只会提高体验，出了人工的圈儿，就掉到系统娄底那里了。虽然那些楼底的有顾左右而言他东拉西扯答非所问。但假做真时真亦假作为楼底是合格了。

白: 对话模版的数量级决定了这一行一定有大量脏活累活。但是要对得起这个数量级的话，技术应该做得更好。

雷: 同意。技术迭代。

我: 中国的好处是人多，用户多，有几百万用户持续用它没有不变好的。

【Church - 钟摆摆得太远（3）：皮尔斯论】

《人工智能畅想曲》

【再说苹果爱疯的贴身小蜜死日（Siri）】