本来是要对比NLP(自然语言处理)落地的几个方面的, 一不留神追踪到了MT(机器翻译)的早期历史以及最初的落地。 意识流效应,还是思路别断,接着讲吧。“资深” 的坏处就是所见所闻太多,容易思维发散收不住,但收得太早太快, 口传历史也就绝种了,不利于后学。
昨天说 NLP 的前多半历史就是 MT的历史,就是这样。只有到近20多年,才发展出了信息抽取、 知识图谱、舆情挖掘、问答系统、自动文摘、智能助理等, 此前的自然语言研究一切围绕 MT,甚至 NLP 成为独立领域和术语之前,所有的践行者( practitioners) 都是 MTers (AI 人工智能符号派早期的玩具系统, 在逻辑推理之外用到一点自然语言理解NLU技术, 但那是另一条线和另一班人,是两个不同的传统和传承,不在 MT-NLP 的主线上)。
30年前我入行的时候,MT 还基本是象牙塔里研究人员的玩具, 但是已处于面临应用落地的前夕。在国外,Systran 已经产品化。早期的故事是其设计者卖了个大价钱,人就从 community 蒸发了,后来发现他隐居到澳大利亚,买了个庄园优哉游哉了。 这大概是靠前IT时代的“IT技术”发迹的先驱了,所以后来 Facebook 的共同创始人发横财为逃税躲到新加坡花天酒地, 微软共同创始人买个足球队啥的,其实都是有榜样在前的。
当时在国内大家隐隐感觉这玩意儿可以应用, 但是这些议论和呼吁多在口头上, 日常研发仍大多囿于研究界老牛慢车的惯性,十年磨一剑, 闭门造车,各自为政。这时候,出现了一个奇迹, 那就是董老师的实用型MT系统【科研一号】。 这个群的小一辈如果不知道这段历史的,都应该起立, 给董老师鞠躬致敬!董老师是我一辈子特别景仰的前辈, 不仅是他的NLP学问,MT功底,他的HowNet, 更在于他的敏锐和见识。
话说当年董老师从黑龙江调到了军事科学院,继续 MT 的研发,表面上看与其他几个团队无异。当时的团队有我们语言所、 科学院计算所、广东黄老师、哈尔滨,好像还有西安、上海交大, 全国大约有不到一打的大小团队在做(传统的)规则MT, 大家一年见个面,开一次油印论文的全国会议切磋,座谈会一般。 1986年常州会议是我第一次跟导师参加这样的机器翻译全国会议 。董老师的惊艳之处在于, 他第一个走出实验室而且有自己的具体步骤, 就是大规模的开放测试。 当时多数团队还是在几百个句子的封闭集里面绕不出来, 只见树木不见森林。磨啊磨,总觉得这里不对那里不对, 不弄顺拿不出手。董老师第一个测试“大数据集”( 当然没办法与现在的大数据比,当时的大数据也就是万这个级别吧) ,然后从大测试的高度看系统应该如何改进才能最快达到可用。 这么一来,董老师心里就比较有数了, 原来不管这个系统还有多少缺陷,但数据大了就发现, 现象是不均匀的,值得下力的地方是频繁出现的有限的现象, 把这些现象磨圆,就是钢用在刀刃上,然后系统开放就不怕了。 于是,军科院开了个鉴定会,请来国内MT专家, 系统开放给专家随机测试。第一次看到了 MT 从封闭真正走向开放,大家的震惊可想而知。 圈子里叫了多年的走出实验室,这一下眼见为实了。
后来的产品落地的故事细节我不了解( 董老师有空自己给讲一讲最好了, 作为NLP应用的pioneer的心路历程),但大体脉路是, 军科院虽然名气大待遇好,当时对董老师及其技术也非常推崇, 但毕竟不是做产品的环境。于是董老师出山,加入中软, 把在军科院研制的“科研一号”MT 落地为中国第一个MT软件产品“译星”(TranStar), 这是中国 NLP 历史的重要里程碑。
其实董老师不是当时唯一NLP落地的。 与董老师前后脚的还有一位老先生,当然不像 TranStar 那样名震江湖。这一位没闹出啥响声来,算是野史了,如果不讲, 也就湮没了。这一位老先生叫刘孝叔, 不知道董老师是不是还记得他。我与他当年有过一些私交, 了解这个故事的前前后后。
刘孝叔老先生是一个电子硬件工程师,喜欢用汇编编点程序。 几乎完全不懂语言学,业余爱好只有这么一项,就是MT, 不是一般的爱好,而是一辈子的痴迷。他业余做 MT 夜以继日,非常起劲,做了很多年,但大多游离在主流之外( 当时的“主流” 就是董老师还有我的导师刘倬刘涌泉先生这些中国NLP/ MT的开山人物)。相比之下,老先生看起来多少有些“民科” 的味道,所以他不大能卷入“我们主流”的圈子来, 虽然我知道他为此做过相当的努力。
Anyway,他就一个老工程师,会编程,外语不错, 但不懂语言学,他就从查词典开始,慢慢在程序里面写了一些规则, 结果就做出了一个特别短小精悍的 MT 系统来,最大的特点是速度和鲁棒,垃圾进垃圾出。 大概是当年最紧凑快速的系统了,每个字节的存贮都精打细算, 整个流程也不深,他一切凭着感觉走做系统, 并没有啥宏观的语言学路线,自己创造了一个 test-driven 的路子,就是计算翻译出来的译文要经过几次编辑操作(增、删、 调位)才可读,然后一切努力就在减少这个编辑劳动量, 以此作为系统的 benchmarking,鞭策自己前进。 在董老师产品化的前后脚, 他到处联系看哪家愿意代售他的MT系统。与多数实验室系统不同, 他是工程师,从一开始就是朝着开放运用的角度做。 结果是有一家小的软件公司门面愿意代售,算是也落地为产品了, 也确实卖了一些,但没法与董老师的比。
到我与他有交往的时候, 他还住在东四附近一个非常狭窄的小屋子与老伴一起。 转不开身的屋子里面一台电脑,每天做 MT。老人非常和蔼可亲,爱琢磨。 记得当时他最头疼的是介词的翻译,问我有啥招儿。 我当年钻研过介词,跟他说介词要分而治之(见《机器翻译词义辨识对策》 )。介词介词, 是介于两词之间,前一词是其父节点动词、形容词或名词, 后一词是介宾 NP。动词形容词名词的 subcat 里面可以吃掉一批介词,翻译就随那些词的 patterns 走就很地道,譬如 translate NP1 into NP2, 随着 translate pattern,translate into 就翻译成“翻译成”。 剩下的介词主要看后面的名词种类来决定如何翻译, 所以名词必须分细类,譬如 down the street 翻译成“沿着街道”。这两边都没照顾到的, 那就给一个默认的宽泛译法,譬如 in 翻译成“在...里”。他虽然不懂什么是 subcat,但对我的建议特别兴奋,说这下子好了,可是“ 我的数据结构根本就没有空间去存放这些子类信息呢”。 后来他改变了捉襟见肘的数据结构,过两个月再见面时候, 高兴得手舞足蹈像个老小孩似地说, 介词的翻译质量果然大幅度提高。 回到NLP产品落地这个话题。
我问他上架后卖得怎么样?他说卖不动,有些零星的买卖, 他自己实际受益甚微,但一直放在柜台上,有当无吧。 这边译星卖得怎样,细节不知道,但是当时动静很大, 我一个小老乡在四通还倒腾过几套译星的买卖,跟我说, 是有市场的,但也不是很容易就找到批量的客户, 都是一户一户地推销出去的。
回头看中国NLP或MT历史上的这第一波产品落地, 比较清楚的是,这个不是技术的问题,而是商业模式的问题。 当时的技术和质量虽然无法与现在比, 可当时也没有免费的百度翻译或谷歌翻译可以利用啊, 而专职翻译的需求是一直存在的。MT 质量再不济,至少省了很多手工查词典的时间,如果人机配合得好, 可以节省人工翻译的成本。从这个角度看,市场肯定是存在的。 但是这种市场不成规模。因此这台产品落地的戏也就唱不大。
说到这里,可以谈谈同时期台湾同胞的MT落地努力。 台湾MT的先驱人物之一是苏教授,老NLPers大概都记得他, 当年很活跃的,他与董老师也交往甚密。 这位仁兄最津津乐道的是他几乎是唯一得到了清华大学教授职务但自 己主动辞职去创业的。把无数人羡慕的金饭碗扔在一边, 不仅仅是他的创业理想和寻求自由的精神, 还因为据说他有一个做生意的哥哥愿意资助他创业。 于是他就开了一家翻译公司。
话说苏教授开办翻译公司的事儿, 也是与董老师产品化TranStar同时期的事件, 印象还略早一点儿。苏教授比董老师晚半辈的样子, 不过也已经小有名气,风生水起的样子。 当时刚刚开放台湾同胞入境,苏是第一批来访的台胞学者。 记得他天安门转了一圈后,来语言所拜见我导师刘倬先生, 一口一个老前辈,毕恭毕敬。董老师跟我说过,不能做封闭系统, 老在一个小数据里面绕;你看人家苏克毅, 系统做出来就开办了公司,招来一批译后编辑, 被培训去与机器合作。接来一个翻译任务,先让机器跑一遍, 然后让人工编辑加工。这不就产品落地,把生意做起来了吗。 这是早期NLP落地的一个有意义的尝试。不过苏教授毕竟是书生, 他把自己的公司当成一个科研与工业结合的机构去经营。 到北京访问语言所的时候,正是 Prolog 和 unification grammars 热门的时候,苏教授一口一个 GPSG,CFG,把我们给绕晕了,后来他自己说还请过 HPSG 的人到过他的公司指导。潮流他跟得蛮紧。其实这些个 Gs 都不是接地气的技术,他就是不甘心只做生意,要显得高大上一些。 教授经商,十有九伤。我后来听说,他其实一直没法赚钱, 更不用说做大了。
MT 真正落地的转机是电子词典的兴起,而不是 MT 作为一个单独的软件去卖。这个故事说起来很有意思, 其中也有刘孝叔老先生的传奇。前面提到, 不务正业的老先生一直被“主流”不自觉地漠视, 在国内当年的主流聚会或交流中他挤不进来。 我与他的交往说起来有些 by accident,在与他成为“忘年交”之前, 早就听说过这位老“民科”。说有这么一位痴迷MT的人, 自己在家瞎鼓捣MT很多年,到处展示自己的系统, 多次想到语言所来交流,总之大多是负面的传闻。 但这引起了我的好奇心。老先生愿意接近我,现在看来, 也是把我当成主流里面的后生,接近主流大牛不成, 接近一个后生也不错。第一次怎么接头的,我忘记了, 总之是我们相互都很愿意了解对方, 我对他的系统到底与我们做的有啥不同,也充满好奇。老人家非常 nice,典型的老知识分子,我很喜欢。 后来我就成了他家的常客。
当时他用英语在国外发表了几篇他的MT系统的文章。现在看来, 他的系统没大前途,但是有短小紧凑的特点, 这在当年是一个很大的长处。到了长沙会议,大概是1988年吧, 那次开会老先生倒是带着中文论文来了,算是侪入国内主流的边缘, 还与我的导师刘倬老师有不少互动。刘倬老师很严肃的人, 又是领域一面大旗,本来是不容易亲近的。 我很惊讶这次主流和民科在一起相互都很客气和融洽。 我觉得刘倬老师一来是看老先生岁数大, 二来多少为他锲而不舍的精神所触动,对他态度很客气, 虽然谈不上有多少学术上的交流。
我与老先生此前交往就多,所以长沙经常一起上街逛和闲聊, 当时他整天琢磨的就是怎样联系电子词典公司。 那时电子词典刚上市不久,全国英语热也持续发酵, 为该产品的火热预示了前景。 长沙大街上,我陪同他去过一些门店, 询问电子词典的销售以及如何联络电子词典厂商寻求合作的事儿。 老先生是第一批想要把 MT 嫁接到这个产品去的人,他商业嗅觉蛮敏锐,可惜还是人微言轻,他的努力没有成功。 他的系统短小紧凑的特点可以弥补他的质量和深度的不足, 本应是第一批进入电子词典的最佳候选。 我看过他的MT展示,也比较过我们语言所的系统,他的是 instant,我们当时是 45 秒一个句子,没法与他比速度。 结果, 这个NLP落地历史的故事演化为中国NLP历史上的第二个里程碑 ,就是陈肇雄与香港一家电子词典快译通 签订技术转让合同的一幕。其时我人已去国,流浪路上还是注意到当时媒体的沸沸扬扬,这是一个高技术落地的大事件, 也成就了陈肇雄。报纸还专文 feature story,称陈肇雄是机器翻译的明日之星。描述他签合同的那个场面,栩栩如生,大笔一挥, 有点惊天地泣鬼神的味道。
回头看这个历史,说句实话,在当时的硬件条件下,MT 跑到电子词典去,因为不是主餐,而是副食,其实哪家的都差不多。 是孝叔老先生的系统进去,还是陈肇雄的进去,差别不大,而系统的紧凑快速则绝对是电子词典的福音。作为副食,MT的要害不是技术和质量问题, 因为当时用电子词典的人并不依仗那个 feature,那个句子翻译的 feature 更像是一个花哨,可以增加 marketing 的说辞,电子词典不仅仅是词典,而是人工智能的词典了( 当年人工智能还没臭,与新近AI热一样为媒体所乐道)。这就好比 Siri, Siri 闹出那么大动静,绝大多数人在绝大多数的时候,也就是拿 Siri 当个玩具。但这个玩具对 苹果的 marketing 有很大助益,就好比如今的Google Home 之类,都是这样的例子。是副食,不是主餐。
老先生不应该算是民科,但长期被当成疑似民科,打不进圈子来。 他欠缺专业功底,真地不懂语言学,subcat 之类他从没听说过。但是 MT 是一个应用的东西,不是科学 per se,因此作为工程师的他,凭着自己对语言翻译的感性认识, 也是可以做出一个 working system,而且特别地速度快、存贮小,紧凑到无语。 他最先想到却没能第一个打进电子词典的市场是一个遗憾。他的唯一机会是电子词典, 而且有利于他落地的那个时间窗口也不大,因为他用汇编 hard-code 的MT系统的最大特点是紧凑和开销小,应该是最容易 integrated 到电子词典去,这个好处只有电子词典初期最合适, 后来硬件的自然提升,时间优势就不在他那儿了。 那时候如果哪家电子词典最先与他合作, 估计就会搅糊了陈肇雄后来的好戏。
刘老先生的系统后劲不足,随着硬件条件的跃升,是竞争不过主流的。 但是长沙会议的时候电子词典刚出来,他满世界找合作,结果未果, 是运气不佳,不是他的技术不硬。他跟我说,这硬件的发展总是超出他的需求。 说刚开始做MT的时候可惨了,但也还是可做,螺蛳壳里做道场。 说,到了必须加大或加速的时候,硬件就已经提升到 more than he needed and expected,说这话的时候他的笑特别天真, 真地就是孩子一样。老先生虽然有热情有眼光有嗅觉,但没有影响力,词典厂家有眼无珠,否则市场本来可以早两三年推出带句子翻译功能的电子词典。
这段历史的启示是,MT 技术作为主餐去卖,虽然有市场,但规模和用户有限,戏唱不大。救了 MT 的是作为副食进入的电子词典。最后救了 MT 的当然是搜索巨头,作为免费服务,为客户粘性贡献力量。
道理就在,作为主食去单挑,落地为产品,那是硬碰硬, 免不了客户横挑鼻子竖挑眼, 除非对于少量的急切需要此类工具的人,对于大众, 任何的不完善都是抱怨和发泄的对象和理由,市场很难做大。 然而作为副食,或作为免费搭配,客户的视角就不同了, 不吃白不吃,不用白不用,当然对不完美就可以容忍了。换句话说, 你NLP落地为主食(譬如我们现在做的情报产品), 客户的本性就是看到你的缺点,因为他花银子了啊。 当你搭配为副食(一个 feature)或免费服务,客户看到的是优点, 因为这是客户以前没想到的新的feature,或新的服务。 他可以选择不用,不玩,一切还是原样。但他一旦用了, 任何得益都归于高技术创新。
高技术说到底就是半瓶水。你落地得好,客户看到的是里面的水。 你落地得不好,客户看到的是空气,什么破烂玩意儿。
当年对于电子词典的刚需是显然的。这个市场很大,竞争很激烈, 因此厂商需要不断升级。而 MT 就被当做升级的一个主要的 feature ,顺理成章,它成就了 marketing 求大求高求时髦的要求。
本来 查词典就是 MT 中的一个低端的模块, 单词或短语的翻译本来也只是句子翻译的一种简单形式。 MT 的真正难点和深度都是在句子的分析和调整上。可是落地的时候, 乾坤大反转,词典成为主食,句子翻译成为门面,这是市场决定的。 说到底,一个底层模块养活一个复杂系统,这就是市场, 这就是生活。
我们语言所也走过这个历程。一开始是跟着“译星”模式跑,要做“ 新一代”(专家词典)翻译软件的产品落地。 于是刘老师牵头与中关村的高立公司合作, 从清华大学招来一批学生, 在中关村一个地下室开始了产品落地的研发,我是其中的主力, 负责培训机器词典和规则的编写调试。后来董老师也加入了( 不知道是刘老师还是高立把董老师拉进来的), 我也有幸与董老师有了一段日常的接触并亲聆教诲。
1991 年出国前在中关村高立公司与刘倬导师(下左2)和董振东前辈 (下右1) 及高立同仁合影留念
这一段落地的实践是出了产品,也卖了,据说也赚了一些钱, 当然市场还是没做起来。 高立不亏,因为有了高技术, 带来了一些优惠政策,反正投入也不太大,后期还是小有所赚。 据说 公司最后的主食产品却是一个类似条形码的扫描器, 部署到各大超市。在我们与它合作技术开发前, 公司跟早期的其他中关村公司一样,就是靠攒机器卖钱, 从南边进货部件,组装成电脑卖。
我离开语言所以后, 刘老师和傅大姐也借着电子词典热把MT落地了一次。 那是陈肇雄快 译通里程碑事件之后, 有一家快译通的对手叫VTech与我们语言所的合作。
MT 进电子词典只是作为副食,其实质量不是关键,主要是不能没有这个 feature,而且这个 feature 的来头必须有说法, 至少当年的语言所还是一个可以拿得出去炫耀的光环。 怎么验收呢, 我当时很好奇,后来听大姐说,商人有商人的办法,说,这样吧, 你把《英语900句》都翻译好了,就算质量验收了。 一个封闭的集 合,但是的确是一个有代表性的集合,而且标准相对客观。 于是傅大姐就出差到南方两个月,专门调试这 900 句,落笔成交。
MT 的最后落地,也不是主食,而是作为搜索巨头的噱头产品, 慢慢转化为有实用价值的服务,但一直不改免费服务的本质。MT 这才真正地站住脚了。
有意思的是,作为免费服务,客户虽然也没理由抱怨太多, 但是日积月累,新一代人被训练成了用它作为习惯了, 这就隐含着客户粘性,于是MT成为搜索离不开的一个技术了。由于竞争的存在,也还必须不断加强。最后的结果是, 老牌的机器翻译公司 Systran 走向末路。作为主食的MT几乎宣告退出产品落地的舞台, 虽然不排除有些专业性很强的特别领域的机器翻译的专项软件还会长 期存在下去。
搜索巨头MT的兴起和Systran的末路当然也可以从商业模式 、主食副食以外的技术路线上来看,简单说, 那就是统计对规则的胜利,是主流对前主流的胜利。 但这个胜利还不能算干净彻底,因为很显然的,主流MT遭遇瓶颈, 前主流有返潮或合流的迹象。这个董老师比我有发言权。 归结到一句话,离开句法和结构的MT必然遭遇瓶颈。 目前缺乏结构支持的主流MT产品或服务, 必须要走与结构相结合的道路, 无论这个结构来自于规则派还是统计派。
把酒话桑麻的最后一个插曲是,当年看奥运会的新闻, 偶然遇到一则百岁老人做奥运志愿翻译的新闻, 一看原来是刘孝叔他老人家。奥运那年他整100岁, 照片上看还精神抖擞的样子。 老人家一辈子清贫,一辈子不务正业,一辈子痴迷MT, 心态特别好,所以高寿。
总结说就是,MT 作为 NLP 最悠久的应用,历史上看作为主食的产品落地一直没有做大过, 而作为副食(产品的 一个 feature 或免费服务)不仅在市场站住了,而且是市场离不开的东西了。 因此,如果历史是未来的镜子, 那么NLP作为主食的情报挖掘卖钱的行当也会有市场, 但也做不大。真正能做大的是,把 NLP 落地为副食,一个竞争和marketing不可缺少的、 逐渐转化为越来越大使用价值的副食。这样来看,NLP 做得再好,也还是当配角的料, 而且这个配角会比当主角要鲁棒强大得多。
不知道通过这个回顾反省可以不可以得出如下结论: B2C 企业消化和发挥 NLP 的舞台要比 B2B 的舞台大很多,因为后者是硬碰硬的主食,而前者是副食。 作为副食,NLP 可以玩出很多花样,制造很多 noise or buzz,而且客户看到的是水,而不是空气。 也有助于技术人的自我陶醉、欣赏、自大和圆满。
转载本文请联系原作者获取授权,同时请注明本文来自李维科学网博客。 链接地址: https://blog.sciencenet.cn/blog-362400-984502.html
上一篇:
《泥沙龙笔记:谈parsing的深度与多层》 下一篇:
【泥沙龙笔记:没有结构树,万古如长夜】