《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

再谈应该立法禁止切词研究

已有 5831 次阅读 2015-6-30 07:27 |个人分类:立委科普|系统分类:教学心得| 切词

毛: @wei 有没有现成的中文 NLP 开源软件项目?

毛老那么有闲啊,不打算写书了?蹚中文这浑水。历史的经验,淹死的多,stuck 的更多。一般都是 stuck 在切词或短语之中,离 deep parsing 还八丈远呢。

所谓中文信息处理,三四十年来,一多半的resources投入了所谓切词研究。所以,我写过博文,呼吁立法禁止切词研究

雷: 呵呵,功夫不够,方向也有问题

一个子领域吞噬过多的资源,似乎还是个无底洞的话,不是领域的错,是人的错。

毛: @wei 没有,我没有这个时间精力,退休后想看的东西也已太多。我只是听你们这么讲就想作为“天下大势”知道一下。

里面的原因之一是,切词后面的步子怎么走,心里没底,也看不到全景。那么,没完没了地折腾切词,正好给自己一个不思进取的理由。

雷: 是统计的错, 或过分追求数学模型

切词与POS类似,做到一定程度,没有再做下去的价值。你做个98%,我做个98.5%,so what?

在实际现场,一个模块的适应能力,开放性,协调性,比那些个数字 benchmark,不知道要重要多少。

POS for POS sake,tokenization(segmentation)for tokenization's sake,不知道误导了多少年轻人。

雷: @wei 完全同意。全体的事,不是局部用力

切词基本沦落为游戏了。研究到今天,它既不能真正推进科学,也没有啥用处。

早在 n 年前,就有这方面的集大成者,从理论到实践,都讲透了。此后的切词基本就是消耗能量,混一些发表。所以说,应该立法禁止。

雷: @wei 哈哈,立委立法

我是认真的。

我做中文系统的时候,抛弃了 Basis 切词以后,很快就跨过了切词,根本没觉得切词是瓶颈。

当然,你在任一特定时刻拿放大镜看我的结果,一定会发现偶然会有所谓 “切词错误”。微观上,这个现象还有,但宏观上,这个不是问题。因为除了上帝,没有一个 (NLP)系统是完美的。也就没有必要要求每一个模块的完美性。

关键的关键是:(1)这个错误多大程度上影响了系统的目标;(2)有什么补救或快速维修的办法。

在这两点上有把握,那么这个问题就不是问题了。



【相关博文】

科学网—应该立法禁止切词研究:=)

【置顶:立委科学网博客NLP博文一览(定期更新版)】




https://blog.sciencenet.cn/blog-362400-901597.html

上一篇:自给自足是NLP王道
下一篇:泥沙龙笔记:儿童语言没有文法的问题
收藏 IP: 192.168.0.*| 热度|

3 武夷山 许培扬 魏焱明

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-23 09:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部