《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

应该立法禁止切词研究 :=)

已有 7922 次阅读 2011-12-6 05:56 |个人分类:立委科普|系统分类:科研笔记|关键词:中文,分词,自动处理,NLP| NLP, 中文, 分词, 自动处理

RE: 切词当然是第一关。这个没弄好,其他的免谈


现如今中文自动分析的瓶颈早已不是切词了
日期: 12/05/2011 15:43:43

半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失察。应该立法禁止切词(word segmentation or tokenization)研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。

海量词库可以解决切词的90%以上的问题。

统计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.

或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules:负负可以得正),这当然要看系统设计者的经验和智慧了。

中文处理在切词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。

深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。同时先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。



【相关博文】

再谈应该立法禁止切词研究 2015-06-30

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-515339.html

上一篇:再说苹果爱疯的贴身小蜜 死日(Siri)
下一篇:也说说北京的天气

3 许培扬 黄富强 柏舟

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-9-18 13:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部