《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

泥沙龙小品:搞自然语言的,不能过度思维

已有 2810 次阅读 2015-10-21 01:50 |个人分类:立委科普|系统分类:教学心得| NLP, 自然语言

过度思维是语言学家的通病,很多人不可救药。

语言这个东西不能做过度的思维实验(乔姆斯基鼓励并身体力行通过“内省"去探索语言机制和共性,副作用很大)。搞自然语言的,还是数据制导(data-driven)靠谱,这一点统计派的一直坚持是对的。

自然语言不是形式逻辑,人话到不是人话、合法到不合法,是一个渐变的连续区间,有相当大的模糊地带。语言的“规则”从任一条延长线上都可以找到几乎无穷的大小不同的边缘现象或例外,哪怕是很细的规则也会被语用场景 override,这种情形在头脑里永远可以想出来的。
过度思维的结果是,不知道从哪里着手去建立一个语言模型,很容易自我绑缚。
如果是从数据出发,数据制导,很多我们以为是困扰的问题,就看不见了。

看不见当然不等于不存在,很可能是长尾(long tail)问题。长尾现象也不能真地完全回避。系统开发初期可以忽略,但长远来看不能无视。不过,技术上看,长尾问题只要有一个垃圾机制可以应对即可,通常是用某个用法词典(词汇制导的手段)。至于实际上用不用这个垃圾机制,值不值得用,用到什么程度,那是一个工程和产品级别上的决策,而不是技术上的决策。因为这涉及长尾开发和维护的成本及其对效率的影响,能不能 justify 所带来的小幅提升质量的好处。

小结一下就是,自然语言系统的开发者要克服过度思维的干扰。技术上要保证的是长尾有一个应对的地方,如果真想应对的话。这个地方最好离开系统核心越远越好,这样做语言模型的时候就不会被过度思维所困扰。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-929692.html

上一篇:泥沙龙小品:关键词必须革命,没商量的
下一篇:《泥沙龙笔记:再聊关键词和SVO》
收藏 IP: 192.168.0.*| 热度|

2 武夷山 bridgeneer

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 22:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部