半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失察。应该立法禁止切词(word segmentation or tokenization)研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。
海量词库可以解决切词的90%以上的问题。
统计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。
再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.
或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules:负负可以得正),这当然要看系统设计者的经验和智慧了。
中文处理在切词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。