《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

古文古诗自动分析试水 精选

已有 3692 次阅读 2016-3-4 23:39 |个人分类:立委科普|系统分类:生活其它|关键词:parsing,离骚| parsing, 离骚

这几天做中文 parsing 实验,弄来洪爷的长诗《人工智能忧思录》,做了一半,洪爷求饶,于是罢手。但意犹未尽,于是想到弄点古文古诗练练手。要不《古文观止》试试?于是乎,想到苏轼名篇《前赤壁赋》,当年我可是倒背如流的。

哈哈 “冯虚御风” 是有个姓冯的乘虚去御风 呢!这个好玩,这个上瘾。又想到李白的这篇:

有人把它翻译成白话,那就对比一下?

这玩意儿不能上瘾,否则非走火入魔不可,明明是针对现代白话,特别是社会媒体的,搞些古文进来,既牵扯了精力,又增添了系统维护负担,还是尽早收手。收手前,忍不住还是尝试了一下古文中最艰涩的骚体,当年我也倒背如流过的屈原的《离骚》:


确实够乱的,与前面的自动分析大体靠谱不同,对于骚体,目前的自动分析器 parser,是大体不靠谱。罢了罢了,这肯定是退休以后的好活计,可以kill很多time的。从《离骚》想起我以前写过一篇寻根随笔《立委随笔:圣皋陶之苗裔兮》。我祖上也是阔过的,连孔夫子都尊为先圣呢。要不怎么都码农了还不忘舞文弄墨呢。

洪爷道:你可以做用双语对齐对照parsing的方法处理古文。现在古文今译版本多多。你的parser若能找出些翻译错误,算你能耐。那样的话,屈老夫子会很高兴;否则,他估计得带些粽子再次投江。有诗为证:

离骚美人香草藏,
parsing恐成一锅汤。
伟爷剥粽费思量,
别惹屈原再跳江。

说正经的,后学可不能学老夫聊发少年狂,会误事的。对于parser的研发,测试什么,什么就进入雷达,进入雷达了既丰富了数据,但也可能成为负担,因为并非进入雷达的句式都具有代表性的。其结果是,如果一个现象极为罕见,进入雷达并合适处置了虽然是好事,但却要一直维护它尽管其实没有啥价值。这还不算糟糕,最糟糕的是,进入雷达的现象不仅仅罕见,而且与常见的现象有直接冲突。这时候系统就达不到全局最优。因此,做系统的时候,dev corpus 的选取很有讲究,该踢出去的应该踢出去无视。一般不随便参入过多的狭窄领域数据或风格特别的数据。

为民生,为信息革命,为 put a ding in the universe,还是用黑科技去横扫金融医疗等大数据更靠谱吧。罢了罢了,美人香草,再见,《离骚》!


【后记】今天又琢磨这事儿,觉得骚体的艰涩多源于古今词汇的异同,而非句法的艰难:老祖宗几千年前的词汇系统较之今日有了太多的变迁。论句法,其实骚体比现代汉语简单,大多是短句或短语构成,中间由语气词“兮”连接,词典到位后,写个句法parsing骚体并不难。以《离骚》开篇一段论,“帝高阳之苗裔兮” 就是个带所有关系修饰语的NP,“朕曰伯庸” 不过是一个简单的 SVO 小句。“摄提于孟兮” 就是个时间状语,“惟庚寅吾以降 也就是个句首有时间状语的SV小句。“皇览揆余初度兮” SVO,"肇余以嘉名" 就是个带有宾语和补足语的动词短语VP,这个简单的句型可以从动词“锡”的subcat(【锡NP1以NP2】)得来。类似的 subcat 也可以轻易搞定下面两个VPs:余曰正则兮,字余曰灵均。


【相关博文】


老革命遇到新问题,求饶洪爷打油翁 

【让机器人解读洪爷的《人工智能忧思录》(1/n)】

【泥沙龙笔记:机器 parsing 洪爷,无论打油或打趣】

【立委科普:语法结构树之美(之二)】

《立委随笔:圣皋陶之苗裔兮》


【置顶:立委科学网博客NLP博文一览(定期更新版)】







http://blog.sciencenet.cn/blog-362400-960514.html

上一篇:老革命遇到新问题,求饶洪爷打油翁
下一篇:【泥沙龙笔记:人脑就是豆腐,别扯什么递归了】

10 武夷山 李颖业 刘全慧 徐令予 黄永义 赵克勤 庄世宇 章成志 陈辉 李世春

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-21 19:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部