我: 弯曲的数据静悄悄啊,静悄悄,那就砸一锤子吧
中文处理的模块化纠结- 李维的博文
这个算是开发者笔记,跟前一阵子谈的分层系统是一个话题(见《新智元笔记:NLP 系统的分层挑战》)。就是这种相互缠绕一锅粥但又不得不模块化的纠结。结论是:对于深度分析(deep parsing),分层模块化是铁律,但是这并不是说,里面缠绕着的关系可以生生割裂。这对矛盾的解决,主要在 “接口” 。这一锤子先砸在这里。
点名啦,请毛老 comment: "大型软件工程中的模块化是铁律,怎样强调也不过分。但模块化不等同于可以忽视客观世界中的相互依赖的千丝万缕。这对矛盾看得越透,分寸拿捏越容易到位。模块化设计时抓大放小,模块接口和调适时不忘细节,才是辩证法的正道。"
马列学得好的人都爱把辩证法放在口边。
毛: @wei 你是要聚众滋事还是怎么滴?你明知我是马列学得好的,可是我何曾把辩证法放在口边?至于模块化,那当然是铁律。
我: 辩证法放在口边的人都是跑江湖的,说的就是变戏法。可盗亦有道,戏法不仅仅是变出来的。世界是连续的,你要模块化,就是用离散去模拟连续。@毛 你是怎么对付连续呢?藕断丝连,怎么连?用什么数据流去连?string 是肯定不行的。
雷: 数据流流的是同质的stuff吗?黄河九十九道弯。流呢?有下家接着。
我: 总之是,unstructured data 不可以做接口。一定要 structured
南: @wei 为什么说世界是连续的?
我: 有人把 structure 放到 XML 里面来担当这个责任。XML 是为不同系统之间设计的一个看上去蠢蠢的但是容易看清的东西,不是为同一个系统的模块间设计的。GATE 用这个也是不得已,因为 GATE 就是一个学者的玩具,为了省得口舌啰嗦,把模块用 XML 显性连接,是最简单的办法,self-evident,但那不是正道。
回 @南,世界连续在我是公理。问题应该是,耶,世界怎么到这里疑似断裂了呢?
毛: 世界真是连续的吗?想想量子力学?
雷: 何为连续,何为断裂?心理感受吗?
我: 譬如颜色,颜色是连续的。但是分成七色或者三色,就是离散逼近连续的无奈了。
据说 sexuality 的最近研究成果也是连续的,以前有两种,同性恋异性恋。后来变成5种,再后来变成20多种,最后发现其实是连续的。
雷: 心理物理法研究的是心理与物理的对应。
远看两种也是连续的,近看什么都不联系。 南: 世界是否连续,有得吵
雷: 哈哈,我们来自不同的星球
白: 群主对那啥最有发言权
Qing: 毛老说的不错,毛老内核行家,当然都是模块化了。立委说的也对,模块也要一直改,实在不行就要加新接口。所以,我支持模块化,但是不开源的我不大敢用,因为改不了。
谢: 世界是否连续过去吵了三百年,从牛顿时代开始,到爱因斯坦时代终结,量子力学终结了世界是连续的认知历史
白: 和粒度有关,没有绝对的模块化。
Qing: 而且这里粒度没有人能够掌握的足够好。而且大家对粒度的需求也不一样。
Nick: 也可以倒过来说: 连续是离散的近似。有些离散问题连续化之后简单了。
南: 例如积分电路。尼克大师今天居然不去乌镇?
【相关】
科学网—中文处理的模块化纠结- 李维的博文
《新智元笔记:NLP 系统的分层挑战》 2015-12-09
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-943718.html
上一篇:
《泥沙龙笔记:怎样满足用户的信息需求》下一篇:
NLP University 开张大吉