|||
这是一个跨越1/4世纪科研美梦终成真的现实故事。故事的主人公做助理研究员的时候,满怀热情,不知天高地厚地为世界上最微妙的语言之一现代汉语,描绘了一幅自然语言理解(NLU)蓝图,其核心是对千变万化的中文文句施行自动语法分析。这幅蓝图距离现实太过遥远,其实现似乎遥遥无期,非人力可为。然而,1/4世纪之后,积累加机缘,天时和地利,主人公终于实现了这个理想,正在投入真实世界的大数据应用。The mission impossible accomplished.
二十五年了,中文之心,如在吾庐,一日不曾忘记!拔高一点说,对于语言学家,中文之心可以说是梦萦魂牵的海外流浪人的中国心。
喝令三山五岳开道,中文处理,我回来了!
出道之初的上世纪80年代,我为一家荷兰的多语机器翻译BSO项目,参照英文依存文法,设计过一个【中文依存文法】,涵盖了现代汉语几乎所有的重要句型,画过无数的中文依存关系句法树,看上去真地很美。但那只是纸上谈兵。虽然设计这套文法是为机器处理,真要实现起来谈何容易。事实上,在当时那只能是一场科研美梦。这一梦就是25年!
现在回看当年的蓝图,对照最近在机器上实现的依存句法分析器,一脉相承,感慨万千。年轻时就有绿色的梦,那么喜欢树,欣赏树,着迷画树,好像在画天堂美景一样体验着绿之美,梦想某一天亲手栽培这颗语言学之树,为信息技术创造奇迹。如今终于迎来了实现的曙光,天时地利人和,研发的辛苦与享受已然合一,这是何等美妙的体验。
请欣赏青年立委当年“手绘”的粗糙又精致的句法树蓝图的几段截屏(可怜见地,当时只能用纯文本编辑器数着空格和汉字去“画树”,就如我年三十在机房数着字符描画山口百惠并用IBM-PC制成年历一样)。对照新鲜出炉的中文句法分析器全自动生成的婀娜树姿,我不得不说,美梦成真不再是一个传说。
(1) 25年前的蓝图(美梦):
25年后的实现(成真):
(3)25年前的蓝图(美梦):
25年后的实现(成真):
(4) 25年前的蓝图(美梦):
25年后的实现(成真):
但那时我在上海也有一个惟一的不但敢于随便谈笑,而且还敢于托他办点私事的人,那就是送书去给白莽的柔石。
(5) 25年前的蓝图(美梦):
25年后的实现(成真):
(6)25年前的蓝图(美梦):
25年后的实现(成真):
初稿(
):
【相关篇什】
【汉语依从文法: 维文钩沉(25年前旧作,浏览器下请选用国标码 GB 阅读以免乱码和图形失真)】:
【立委科普:语法结构树之美(中文例示)】
【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社