|||
这几天做中文 parsing 实验,弄来洪爷的长诗《人工智能忧思录》,做了一半,洪爷求饶,于是罢手。但意犹未尽,于是想到弄点古文古诗练练手。要不《古文观止》试试?于是乎,想到苏轼名篇《前赤壁赋》,当年我可是倒背如流的。
哈哈 “冯虚御风” 是有个姓冯的乘虚去御风 呢!这个好玩,这个上瘾。又想到李白的这篇:
有人把它翻译成白话,那就对比一下?
这玩意儿不能上瘾,否则非走火入魔不可,明明是针对现代白话,特别是社会媒体的,搞些古文进来,既牵扯了精力,又增添了系统维护负担,还是尽早收手。收手前,忍不住还是尝试了一下古文中最艰涩的骚体,当年我也倒背如流过的屈原的《离骚》:
确实够乱的,与前面的自动分析大体靠谱不同,对于骚体,目前的自动分析器 parser,是大体不靠谱。罢了罢了,这肯定是退休以后的好活计,可以kill很多time的。从《离骚》想起我以前写过一篇寻根随笔《立委随笔:圣皋陶之苗裔兮》。我祖上也是阔过的,连孔夫子都尊为先圣呢。要不怎么都码农了还不忘舞文弄墨呢。
洪爷道:你可以做用双语对齐对照parsing的方法处理古文。现在古文今译版本多多。你的parser若能找出些翻译错误,算你能耐。那样的话,屈老夫子会很高兴;否则,他估计得带些粽子再次投江。有诗为证:
离骚美人香草藏,
parsing恐成一锅汤。
伟爷剥粽费思量,
别惹屈原再跳江。
说正经的,后学可不能学老夫聊发少年狂,会误事的。对于parser的研发,测试什么,什么就进入雷达,进入雷达了既丰富了数据,但也可能成为负担,因为并非进入雷达的句式都具有代表性的。其结果是,如果一个现象极为罕见,进入雷达并合适处置了虽然是好事,但却要一直维护它尽管其实没有啥价值。这还不算糟糕,最糟糕的是,进入雷达的现象不仅仅罕见,而且与常见的现象有直接冲突。这时候系统就达不到全局最优。因此,做系统的时候,dev corpus 的选取很有讲究,该踢出去的应该踢出去无视。一般不随便参入过多的狭窄领域数据或风格特别的数据。
为民生,为信息革命,为 put a ding in the universe,还是用黑科技去横扫金融医疗等大数据更靠谱吧。罢了罢了,美人香草,再见,《离骚》!
【后记】今天又琢磨这事儿,觉得骚体的艰涩多源于古今词汇的异同,而非句法的艰难:老祖宗几千年前的词汇系统较之今日有了太多的变迁。论句法,其实骚体比现代汉语简单,大多是短句或短语构成,中间由语气词“兮”连接,词典到位后,写个句法parsing骚体并不难。以《离骚》开篇一段论,“帝高阳之苗裔兮” 就是个带所有关系修饰语的NP,“朕皇考曰伯庸” 不过是一个简单的 SVO 小句。“摄提贞于孟陬兮” 就是个时间状语,“惟庚寅吾以降” 也就是个句首有时间状语的SV小句。“皇览揆余初度兮” SVO,"肇锡余以嘉名" 就是个带有宾语和补足语的动词短语VP,这个简单的句型可以从动词“锡”的subcat(【锡NP1以NP2】)得来。类似的 subcat 也可以轻易搞定下面两个VPs:名余曰正则兮,字余曰灵均。
【相关博文】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社