|||
毛: @wei 有没有现成的中文 NLP 开源软件项目?
毛老那么有闲啊,不打算写书了?蹚中文这浑水。历史的经验,淹死的多,stuck 的更多。一般都是 stuck 在切词或短语之中,离 deep parsing 还八丈远呢。
所谓中文信息处理,三四十年来,一多半的resources投入了所谓切词研究。所以,我写过博文,呼吁立法禁止切词研究。
雷: 呵呵,功夫不够,方向也有问题
一个子领域吞噬过多的资源,似乎还是个无底洞的话,不是领域的错,是人的错。
毛: @wei 没有,我没有这个时间精力,退休后想看的东西也已太多。我只是听你们这么讲就想作为“天下大势”知道一下。
里面的原因之一是,切词后面的步子怎么走,心里没底,也看不到全景。那么,没完没了地折腾切词,正好给自己一个不思进取的理由。
雷: 是统计的错, 或过分追求数学模型
切词与POS类似,做到一定程度,没有再做下去的价值。你做个98%,我做个98.5%,so what?
在实际现场,一个模块的适应能力,开放性,协调性,比那些个数字 benchmark,不知道要重要多少。
POS for POS sake,tokenization(segmentation)for tokenization's sake,不知道误导了多少年轻人。
雷: @wei 完全同意。全体的事,不是局部用力
切词基本沦落为游戏了。研究到今天,它既不能真正推进科学,也没有啥用处。
早在 n 年前,就有这方面的集大成者,从理论到实践,都讲透了。此后的切词基本就是消耗能量,混一些发表。所以说,应该立法禁止。
雷: @wei 哈哈,立委立法
我是认真的。
我做中文系统的时候,抛弃了 Basis 切词以后,很快就跨过了切词,根本没觉得切词是瓶颈。
当然,你在任一特定时刻拿放大镜看我的结果,一定会发现偶然会有所谓 “切词错误”。微观上,这个现象还有,但宏观上,这个不是问题。因为除了上帝,没有一个 (NLP)系统是完美的。也就没有必要要求每一个模块的完美性。
关键的关键是:(1)这个错误多大程度上影响了系统的目标;(2)有什么补救或快速维修的办法。
在这两点上有把握,那么这个问题就不是问题了。
【相关博文】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社