很多年了,由于工作的原因,一头扎进英语处理的海洋沉浮,直到近两年,英语已经无可再做,该做的差不多都做了,不该做的也神农尝草,遍历辛苦,再往后就是 incremental 的修补和维护了。大山大水已然身后,总之是 second to none,而且已经大数据(big data)大规模实用化了(Internet scale, with products globally distributed),应该可以放下。近几年来,随着白发的繁盛,岁月的流逝,忧虑之心油然而起。弹指一挥,逝者如斯,怕这辈子没有机会回到中文处理上来,那将抱憾终身。
都说中文是世界上最诡秘、最玄妙、最不讲逻辑,总之是最难机器处理的语言。有人甚至声称中文无文法,中文理解全靠“意合”(semantic coherence),非常识推理(common sense reasoning)不能,是对自然语言理解(NLU)和人工智能(AI)前所未有的挑战。目的地如此高远,而现状却非常悲惨,中文处理整个领域深陷在汉字串切词的浅层漩涡长达数十年不能自拔。切词算什么?最多算万里长征的前十步而已(参见【立委随笔:应该立法禁止分词研究 :=)】)。
出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】(Li, W. 1989. “A Dependency Syntax of Contemporary Chinese”, BSO/DLT Research Report, the Netherlands),概括了几乎所有的重要句型,纸上谈兵地画过无数的中文依存关系句法树。那应该是中文依存关系形式化研究的真正开拓期,如此说来 yours truly 也可以算是中文处理研究的化石级元老了。现在回看当年的图画,对照最近在机器上实现的依存句法分析器(dependency parser),一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于看到了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。