《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【泥沙龙笔记:没有结构树,万古如长夜】

已有 3136 次阅读 2016-6-15 02:47 |个人分类:立委科普|系统分类:教学心得| NLP, 结构树

毛:
尼克写定理证明,
立委就写机器翻译。
尼克捧冰冰,
立委就捧圆圆。
好,掐的好。
很佩服你讲的那位刘孝叔。那位刘老前辈,其实不能算民科,他是跨行。他不知道那些术语,但是里面的原理应该是明白的。

我:

毛老师要不是搭个茬,我还以为我又自言自语syndrome了。其实本来也是尼克挑的头,非说要写NLP掌故 这些掌故我们有一肚子呢。结果话唠的话匣子开了,尼克却溜了

Nick:
没溜。我就是抛个砖。再说过去几周累坏我了,抛完砖眯瞪一小觉。
我:
你鼓个掌我也不白唠一大阵啊。
Nick:
好!
毛:
他是孤军奋战。要是有几个研究生跟着,就要好得多。这是硬件出身的人的通病。我最初也是搞硬件的,所以很能体会他的心态。
Nick:
咦!
毛:
尼克貌似在天津学成了三句半的把式。
我猜他是用汇编写的,你们的说不定是basic?

我:COBOL

Nick:
为啥cobol?
我:
我毕业设计用 BASIC 不带编译的,interpreter 的那种。我导师用 COBOL,原因就是里面有一个 index 的file 可以用来查词典,好像是里面有个 built-in 的蛮高效的 hash,省得自己动手做词典存取了。为了这个方便,COBOL 的啰嗦也就忍受了
毛:
怪不得性能这么差
洪:
cobol是最早的数据库语言,自带数据库啥的
我:
后来我们在中关村高立落地的时候,清华那帮码农就把 COBOL 转成 C 了
毛:
其实也算不上是数据库语言,就是个记账算账的语言。
我:
老一代的写程序也没有任何环境,一切都是在那里凭着悟性和经验做调试。导师连 text editor 也不知道,只会用系统带来的一个 utility 叫 edline,一次只能编辑一行,先要找到程序的那个行 然后慢慢去一个字一个字的改。我从研究生院毕业留到刘老师身边以后,第一个大贡献是带来了WordStar 的中文版,里面有八个功能键,囊括了基本编辑的最基本的需要,查找、替换、存贮等,结果我们研究组的开发调试效率大幅度提高。
人说,你怎么这么啰嗦啊。把酒话桑麻啊 经历的太多吧。浑身没有一处没摔肿过,只剩嘴巴了。
发现不管走过多少弯路,跌过多少跟头,每次重新从头建系统,都弥补了以前的种种遗憾。
昨天吃 Panda Express,有两个 fortune cookies,领导现在很迷信,从来不放过看,而且严格分你我,说那个是你的fortune,这个才是我的。
刘:
我曾经想过,我们这些做nlp的老人,可以写一些回忆录性质的文字,集结成册发表出来,给我国nlp的发展留下一些印记,要不然很多事情大家都会忘记了
我:
打开她的一看,是 You will soon get recognition you deserve
我说 好哇,她说我会有什么recognition呢?要有也是你给我的。
我的 fortune 一打开,她就喜形于色,曰:You will have financial independence and ......
领导问经济独立啥意思,我说就是我一辈子累了,催我早退休,无忧无虑带你周游世界去。
领导来劲了,说,光旅游也不行,退休了还是找有意思的事儿做,你要做啥呢?
我说 NLP 啊。董老师前辈不还是天天调系统,乐此不疲吗?
领导说:那还有个啥劲头,退休了跟没退休一样
我说 还是不一样
退休前是为他人做nlp,退休后可以为他人也可以为自己做nlp
所谓自由,不过如此了。
nlp 在多数拼音输入里的默认就是 你老婆,是跟我们一辈子到死的东西,甭管深度神经如何取代程序猿,它取代不了我的乐趣。岁数大精力不如年轻人了,容易打瞌睡,但是一开发调试系统,那劲头,年轻人也不过如此吧。这就是 passion 的力量。
正如资本家是人格化的资本,大数据是物化的语言共同体。语言的铁律是约定俗成,怎样量度约定俗成,大数据的统计,但是这不是说一切都是流动的,统计的。大数据反映出的约定俗成,不是无法无天的任意。
马克思描述了价格与价值的关系,说价格是随市场供需浮动,看得见摸得着,可以量度。但是价格不是从天上掉下来的,而是围绕着价值这个核心上下舞动,无论它偶然会离谱到怎样的天上地下,价值永远是个指挥棒在遥控着它的向心趋向。
大数据的语言也是如此。约定俗成也围绕一个看不见的指挥棒 这就是董老师说的逻辑语义。以及ontology 乔姆斯基的 UG 语词在变动,语言不同,语词也不同,词典绑架,蛮不讲理。但是语词反映的概念则是基本恒定的。概念里面的本体关系是全世界共同的。把这些概念动态联系起来表达的思想是全人类一致的。这个“思想”可以用一个 universal 静态的概念体系,加上动态的逻辑语义,来表达,是为 semantic represenation但这些都是看不见的。看得见的就是大数据。
所谓 deep parsing 就是把看得见的表达思想的语言形式,转换成(decode) 看不见的语义逻辑的表达。幸运的是,这种看不见的似乎不可捉摸的东西,早已有大同小异的语法结构树作为形式表达。我们不需要创造一个全新的表达,这些表达早已 worked out。参见:《泥沙龙笔记:漫谈自动句法分析和树形图表达》,《乔氏 X 杠杠理论 以及各式树形图表达法》, 【科普小品:文法里的父子原则】 。
很难想象没有前人的机构树表达的计算语言学和NLU会是怎样的景象。

没有结构树,万古如长夜。


【相关】

【把酒话桑麻,MT 产品落地史话】

泥沙龙笔记:漫谈自动句法分析和树形图表达

乔氏 X 杠杠理论 以及各式树形图表达法

科普小品:文法里的父子原则

语言创造简史

【泥沙龙笔记:NLP 市场落地,主餐还是副食?】

泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故


【置顶:立委科学网博客NLP博文一览(定期更新版)】  

《朝华午拾》总目录





https://blog.sciencenet.cn/blog-362400-984714.html

上一篇:【把酒话桑麻,MT 产品落地史话】
下一篇:立委 NLP 频道 开张大吉 域名 liweinlp.com
收藏 IP: 192.168.0.*| 热度|

1 徐令予

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 11:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部