|||
很多人看不上语言学。看不上是因为觉得用不上或没必要,有时候,某些任务基于关键词的系统(实际上是隐形知识系统)与基于知识的系统(实际上是显性知识系统)同样可以完成,质量可以匹敌,而且前者开发周期短,也更鲁棒。看不上更深一层的原因是不了解,对于缺乏理解的东西,忽视是比较便利的对策。语言学这门学问,要想抓住它,说简单也简单,说难也难,看上去不文不理的,除了田野工作的积累和触发外,还需要某种悟性才能在宏观把握理论精髓,在微观操作知识系统。从索绪尔对语言原则的概括,到乔姆斯基的天马行空,一眼看过,往往不得要领,硬着头皮看下去,又太枯燥,缺乏一种立竿见影的痛快。
见过在 CL(Computational Linguistics)/NLP (Natural Language Processing)这行有年头的部分精算师(统计学家),甚至语言学基本概念都缺乏,令人诧异。但是无视或忽视语言学迟早还是要陷入语言知识的泥坑。一袋子词加上ngram序列的统计模型确实可以逼近和模拟浅层的语言知识,以至于使人忘记了隐藏其后的语言学。但是那里有个天花板,没有语言学的CL是冲不上去的。
【外一则】手工系统和机器学习的两条路线之争
谈两条路线的斗争,也是老生常谈了,但由于有谷歌用手工这个话题,才有更多人愿意听。
此前,很多人包括我自己,都被忽悠了(吴军写过《数学之美》,文章写得极好,富有趣味和煽动性,激励了很多年轻粉丝,其中就灌输了谷歌的成功是数学和统计算法的成功,非常唯美,偏颇之处是完全不提谷歌的实用主义),以为谷歌必然是机器学习的,排斥手工的。Page rank 算法是搜索的基础,与手工系统无缘。直到最近才知道,在工业界,实用和效果才是铁律。谷歌搜索这么重要的产品,绝不会去盲目追求学界的潮流。手工好用,就用手工,他们不傻。
谷歌这件事对于 hand-crafted 的主流偏见,是一个反动,这个 endorcement 非常有价值,可以引用作为手工系统之活力的有力旁证。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:51
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社