《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

没有语言学的 CL 走不远

已有 4590 次阅读 2014-7-10 13:53 |个人分类:立委科普|系统分类:教学心得| NLP, 语言学, 手工

很多人看不上语言学。看不上是因为觉得用不上或没必要,有时候,某些任务基于关键词的系统(实际上是隐形知识系统)与基于知识的系统(实际上是显性知识系统同样可以完成,质量可以匹敌,而且前者开发周期短,也更鲁棒。看不上更深一层的原因是不了解,对于缺乏理解的东西,忽视是比较便利的对策。语言学这门学问,要想抓住它,说简单也简单,说难也难,看上去不文不理的,除了田野工作的积累和触发外,还需要某种悟性才能在宏观把握理论精髓,在微观操作知识系统。从索绪尔对语言原则的概括,到乔姆斯基的天马行空,一眼看过,往往不得要领,硬着头皮看下去,又太枯燥,缺乏一种立竿见影的痛快。


见过在 CL(Computational Linguistics)/NLP (Natural Language Processing)这行有年头的部分精算师(统计学家),甚至语言学基本概念都缺乏,令人诧异。但是无视或忽视语言学迟早还是要陷入语言知识的泥坑。一袋子词加上ngram序列的统计模型确实可以逼近和模拟浅层的语言知识,以至于使人忘记了隐藏其后的语言学。但是那里有个天花板,没有语言学的CL是冲不上去的。

【外一则】手工系统和机器学习的两条路线之争


谈两条路线的斗争,也是老生常谈了,但由于有谷歌用手工这个话题,才有更多人愿意听。

此前,很多人包括我自己,都被忽悠了(吴军写过《数学之美》,文章写得极好,富有趣味和煽动性,激励了很多年轻粉丝,其中就灌输了谷歌的成功是数学和统计算法的成功,非常唯美,偏颇之处是完全不提谷歌的实用主义),以为谷歌必然是机器学习的,排斥手工的。Page rank 算法是搜索的基础,与手工系统无缘。直到最近才知道,在工业界,实用和效果才是铁律。谷歌搜索这么重要的产品,绝不会去盲目追求学界的潮流。手工好用,就用手工,他们不傻。

谷歌这件事对于 hand-crafted 的主流偏见,是一个反动,这个 endorcement 非常有价值,可以引用作为手工系统之活力的有力旁证。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-810605.html

上一篇:说说电线中的“电流”是如何流的
下一篇:《旧文翻新: 骨科三奇例》
收藏 IP: 192.168.0.*| 热度|

4 张骥 武夷山 陈辉 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 02:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部