《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委随笔:做一条程序狗,外加哲学猫》

已有 3395 次阅读 2017-10-13 05:42 |个人分类:立委科普|系统分类:科研笔记| 大数据, NLP, 机制, 迭代, 设计哲学

最近脑海里老浮现卓别林的摩登时代的镜头。软件工程的摩登时代就是大数据迭代。我就迷信这个迭代。

自从工程架构师把 pipeline 转起来以后 我就可劲儿往里面填数据(raw data),填鸭似的 反正是 raw 的,领域数据不嫌多。 结果就造成摩登时代的再现。Server 不用吃喝 连油都不用加,24 小时在那儿转呀,人停机不停。人就被赶着去看结果 做 regressions 测试呀。人的本性,眼里揉不得沙子。只要醒着,看到毛病就冲动,忍不住会动系统,就好像是本能迭代。气还没喘匀 新一波结果又出来了。好奇心杀不死科学家 ,但能杀伤码农呀,赶紧去看结果。real world 大数据嘛 啥都有 结果肯定是喜忧参半。看到高兴处 可以得意片刻,更新 baseline,让进步消失在数据海洋中。不高兴呢,就本能要改进系统,于是陷入人机交互的迭代“死循环”。

人被数据赶着走 等于是被 bug reports 赶着走,只不过缩短了 reporting 的过程 把客户的可能抱怨化为开发者自我的反省。只要数据真实对路(来自应用领域),量足够大不怕 over-fitting,bugs 至少是扎眼的 bugs 就会消灭在萌芽中,消灭在摩登时代的开发工程流程中。在如此流动型连续迭代中提升品质,多么爽,时时刻刻都有成就感。

只不过累得成了狗。程序猿成了程序狗。


但累,并且快乐着。

聪明的 AI 科学家希望这个迭代过程是全自动的。这边只要不断喂粗饲料 (raw big data),那边就无数次迭代出来一个智能理解系统,多么美丽的神话。据说机器认识猫 就是这么出来的,的确非常激动人心。希望某一天机器理解语言也能这么给整出来,比儿童学语言,效率高亿万倍。在那一天到来之前 我就做条狗 跟摩登时代拼了。

胡乱感慨一句。

昨天跟老搭档聊天谈做研究的人与做产品的人的不同。他非常感慨 特别是年轻人 说这些年轻人大多名校毕业 特别聪明 做 AI 大数据 算法玩的很溜。可就是不懂工程迭代的必要性 也没那个耐心。老以为 AI 产品可以一蹴而就。


大哲牛顿(Nutan)啊 在深思。

猫和狗很有比照 懒猫勤犬。但一个埋头拉车;一个老在深思,做哲学家,路都不屑看,可脑袋并没闲着。

哲学,尤其是对体系架构以及机制(formalism)的设计哲学(design philosophy),其实是极端重要的,否则程序狗再勤奋,也成不了大事。哲学猫架构好了话,程序狗多多益善。否则就可能叠床架屋,知识越多越不堪重负,最终导致系统报废,这是有前车之鉴的。

记得某年某月有个面试官问过我,假如经费没有限制,你希望做什么?这种所谓考验想象力和创造力的题目听上去很弱智:你说老实话吧,显得没高度,说大话吧,譬如学着谷歌说要解决人类长生不老的终极问题,或者学着扎根伯格的口气说要彻底根除人类疾病,或学 Elon Musk 说要帮助地球人移民外太空的话,又有些痴人说梦,因为这个世界只有不到10个超牛才有说梦而不被视为白痴的资格和本钱。其实心里的答案也是有的,就是:假如经费没有限制,我就做个50% AI 哲学猫和50%的 NLP 驯兽师,然后雇佣 并培训 1001 条程序狗,买断天下的领域大数据,每天就指挥程序狗做各个领域的语言理解的迭代,扫平语言障碍,建成世界大同的巴比伦通天塔。


【相关】

[转载]【白硕 – 穿越乔家大院寻找“毛毛虫”】

【李白之39:探究自然语言的毛毛虫机制】

【科研笔记:NLP “毛毛虫” 笔记,从一维到二维】

【语义计算:李白对话录系列】

《朝华午拾》总目录





https://blog.sciencenet.cn/blog-362400-1080554.html

上一篇:【李白宋毛72:NLP的测不准与追求完美】
下一篇:本月底(25号)在深圳给个中文NLP的学术主题演讲
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 14:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部