博文

《立委随笔：做一条程序狗，外加哲学猫》

已有 3395 次阅读 2017-10-13 05:42 |个人分类:立委科普|系统分类:科研笔记| 大数据, NLP, 机制, 迭代, 设计哲学

最近脑海里老浮现卓别林的摩登时代的镜头。软件工程的摩登时代就是大数据迭代。我就迷信这个迭代。

自从工程架构师把 pipeline 转起来以后我就可劲儿往里面填数据（raw data），填鸭似的反正是 raw 的，领域数据不嫌多。结果就造成摩登时代的再现。Server 不用吃喝连油都不用加，24 小时在那儿转呀，人停机不停。人就被赶着去看结果做 regressions 测试呀。人的本性，眼里揉不得沙子。只要醒着，看到毛病就冲动，忍不住会动系统，就好像是本能迭代。气还没喘匀新一波结果又出来了。好奇心杀不死科学家，但能杀伤码农呀，赶紧去看结果。real world 大数据嘛啥都有结果肯定是喜忧参半。看到高兴处可以得意片刻，更新 baseline，让进步消失在数据海洋中。不高兴呢，就本能要改进系统，于是陷入人机交互的迭代“死循环”。

人被数据赶着走等于是被 bug reports 赶着走，只不过缩短了 reporting 的过程把客户的可能抱怨化为开发者自我的反省。只要数据真实对路（来自应用领域），量足够大不怕 over-fitting，bugs 至少是扎眼的 bugs 就会消灭在萌芽中，消灭在摩登时代的开发工程流程中。在如此流动型连续迭代中提升品质，多么爽，时时刻刻都有成就感。

只不过累得成了狗。程序猿成了程序狗。

但累，并且快乐着。

聪明的 AI 科学家希望这个迭代过程是全自动的。这边只要不断喂粗饲料（raw big data），那边就无数次迭代出来一个智能理解系统，多么美丽的神话。据说机器认识猫就是这么出来的，的确非常激动人心。希望某一天机器理解语言也能这么给整出来，比儿童学语言，效率高亿万倍。在那一天到来之前我就做条狗跟摩登时代拼了。

胡乱感慨一句。

昨天跟老搭档聊天谈做研究的人与做产品的人的不同。他非常感慨特别是年轻人说这些年轻人大多名校毕业特别聪明做 AI 大数据算法玩的很溜。可就是不懂工程迭代的必要性也没那个耐心。老以为 AI 产品可以一蹴而就。

大哲牛顿（Nutan）啊在深思。

猫和狗很有比照懒猫勤犬。但一个埋头拉车；一个老在深思，做哲学家，路都不屑看，可脑袋并没闲着。

哲学，尤其是对体系架构以及机制（formalism）的设计哲学（design philosophy），其实是极端重要的，否则程序狗再勤奋，也成不了大事。哲学猫架构好了话，程序狗多多益善。否则就可能叠床架屋，知识越多越不堪重负，最终导致系统报废，这是有前车之鉴的。

记得某年某月有个面试官问过我，假如经费没有限制，你希望做什么？这种所谓考验想象力和创造力的题目听上去很弱智：你说老实话吧，显得没高度，说大话吧，譬如学着谷歌说要解决人类长生不老的终极问题，或者学着扎根伯格的口气说要彻底根除人类疾病，或学 Elon Musk 说要帮助地球人移民外太空的话，又有些痴人说梦，因为这个世界只有不到10个超牛才有说梦而不被视为白痴的资格和本钱。其实心里的答案也是有的，就是：假如经费没有限制，我就做个50% AI 哲学猫和50%的 NLP 驯兽师，然后雇佣并培训 1001 条程序狗，买断天下的领域大数据，每天就指挥程序狗做各个领域的语言理解的迭代，扫平语言障碍，建成世界大同的巴比伦通天塔。

【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【李白之39：探究自然语言的毛毛虫机制】

【科研笔记：NLP “毛毛虫” 笔记，从一维到二维】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1080554.html

上一篇：【李白宋毛72：NLP的测不准与追求完美】
下一篇：本月底（25号）在深圳给个中文NLP的学术主题演讲