||
立此存照(1)
应某校学报(社科版)编辑部老师的多次热情邀请,终于花大量精力,挤时间写成了一篇有关“技术文学”方面的学术论文(共分为两部分)。但是,此文在政审时被拒,理由是:对红歌不敬!真令人哭笑不得,如此学术环境,何来创新?没有创新,何来中华民族的腾飞?请问,全国有谁比BXL更崇尚红歌?结果,真实情况又如何呢?为对各方负责,现将此文一字不动地发表如下(下文是第一部分),既供大家批判,也作为一个历史存照吧。
说明,本人绝对理解学报编辑部的普通老师们,但是对这种仅仅依据官员个人好恶,且毫无标准可言的所谓“政审制度”表示鄙视!但愿十八大以后,国内的创新环境能够得到实质性的改善。
技术文学初探(1)
―――怪文研究
杨义先
(北京邮电大学信息安全中心)
摘要:本文初步探讨了几类奇特的文学作品,它们都有一个共同的特点,那就是更适宜于借助计算机(或人工智能)的手段来创作,或者说,这些作品具有明显的技术(非文学)属性。
关键词:技术文学,计算机创作,人工智能
Research On the Technical Literature (I)
------ How to writing the strange Chinese articles by computer
Yi Xian Yang
(Information Security Center, Beijing Univ. of Posts and Telecomm.)
Abstract: This paper aims to indite some very strange Chinese articles, called the technical literature articles(TLA), by computer or artificial intelligence. The TLAs are more suitable to be written by computer than by human beings.
Key Words: Technical Literature, Computer Inditing, Artificial Intelligence
(一) 引言
何为“技术文学”?至今,虽无严格的定义,但是,至少有两重含义,其一,“技术”+“文学”,即,用技术手段来创作文学作品;其二,“技术文学”可理解为研究“技术文”的学问。因此,“技术文学”又称为“机器文学”或“计算机文学”,其终极目标是要实现机器创作,中期目标是机器写微博,近期目标是机器写短笑话,当然,这绝非易事!
何为“技术文”?抱歉,仍无严格的定义,因此,本文只能用一些具体的实例来展示所谓“技术文”的“文学特性”和“技术特性”,同时,给出若干“机器创作”的思路和方法。从这些实例中,读者可以体会到中国文化是多么博大精深,各种“怪文”是如何层出不穷、举不胜举!
(二) “蒙太奇”文
这是“技术文”的第一个形象例子。我们知道,若把电影胶片反向播放,将出现奇特的“反动”效果(即,电影蒙太奇[1]),而这种效果在文学作品中也仍然有效。比如,请看如下对话:
女:你真的爱我吗?
男:当然,苍天作证!
女:我会失望吗?
男:不,绝对不会!
女:您会尊重我吗?
男:绝对会!
女:你不会说话不算数吧?
男:不要太疑神疑鬼了!
当读者按正常顺序(从上到下)逐句阅读时,将会看到两位如胶似漆的恋人之间的“肉麻”对话;但是,当读者从下到上反序逐句阅读时,看到的却是一对男女分手前歇斯底里的吵架!
显然,用机器来创作“蒙太奇”文并不难,只需要建立一个对话库,该库中的每个元素是由一个提问与该提问的回答所组成,而回答时必须态度明确,或“是”或“否”。于是,当问A答A时,就出现正向的对话;而当问A答B时,便出现了蒙太奇效果。
批量生产“蒙太奇”文的关键是:使计算机能够判断各个问答之间的逻辑连贯性就行了,而这又可以通过细化“对话库”来轻松实现,因此,本文不再细究了。当然,“对话库”细化的工作量确实不小。
(三) 回序文
回序文是一种更精细化的“蒙太奇”文,此时“蒙太奇”效果是由逐字阅读原文而产生的。即,一篇文章,“从前到后”阅读时产生一个“结果A”;但是,“从后到前”逆向阅读时,又产生另一个“结果B”。
目前,“结果A”=“结果B”的回序文已有不少,比如,上海自来水来自海上,前门出租车租出门前,黄山落叶松叶落山黄,下山牧马人马牧山下,海南护卫舰卫护南海,香山碧云寺云碧山香,京北输油管油输北京,……。
“结果A”≠“结果B”的回序文也很多,比如,众多的“回序词”:水中船,桌上箱,我画他,猫咬狗,……。此外,历史上还有许多奇妙的回文诗[2]也是回序文的典型代表,比如,诗友李自焕写的一篇名为《赏荷》的诗,正序阅读是:扬歌轻舟藏处远,影红缀流映青天。香荷沃野遍翠绿,翔鸭戏水荡风闲。而该诗逐字逆向阅读出来便是另一首诗:闲风荡水戏鸭翔,绿翠遍野沃荷香,天青映流缀红影,远处藏舟轻歌扬。
从理论上说,用机器来创作回序文并不难,只需要建立相应的“回序词”库和“回序句”库,然后,将这些库中的元素串接起来就行了。
批量生产回序文的关键有两个。其一,“回序词”库和“回序句”库的建立需要花费很大的工作量,也很难完全依靠机器实现。其二,如何使计算机能够判断串接后的回序文在逻辑上是合理的“人话”[23]。
(四) 单音文
如果某篇文章中的所有“字”都发同一个“音”,那么,这样的文章就称为“单音文”。显然,除了中文之外,可能全世界很难再有别的文字能够产生如此奇妙的文章。
历史上,最著名的单音文作者可能要数“中国语言学之父”赵元任(1892,11,3—1982,2,24)老先生了!他一生创作了五篇单音文,比如,最具代表性的单音文之一便是《施氏食狮史》[3]:石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,氏始试食是十狮。食时,始识是十狮,实十石狮尸。试释是事。
不难看出,这篇《施氏食狮史》完全仰仗于赵元任老先生无与伦比的文字功底,一般人很难企及!
但是,如果借助计算机,那么,单音文的创作难度将大幅度降低(仍然也很难),因为,从理论上讲,只需要将某音的所有同音字(一般字数都不多,很难超过50字)放入一个库中,然后,让机器来自动排序便可产生相应的“同音句子”。当然,其核心难点是:机器如何判断一串同音字组成的内容是“人话”![23]
根据《新华字典》,当代汉字共有400余个音,事实证明,几乎每个音都能够产生一篇单音文,因为,至今,我们已经测试了150个音,无一失败[4]。
下面结合今年(2012年)“两会”期间有关交通、税收、反腐倡廉、教改医改、物价等热点话题,我们在此展示几篇借助计算机撰写的单音文。为了读者阅读,我们特意(1)以微博方式来撰写每篇文章,因为,太长的单音文,阅读很困难;(2)给每篇单音文取了一个启发性的标题。建议读者先阅读标题,并进入标题所暗示的意景后,再开始阅读正文,这样趣味性和可读性将更强。
“两会”特别报道之“交通”:嘟,…,嘟,嘟…!堵,毒堵,都堵,堵都,渎都,黩都。独堵,独都堵,都督堵,妒堵督,睹都堵,读堵都。都督笃堵,毒渎独都;都堵肚堵,肚妒都督;独犊杜堵,赌椟杜堵;堵堵都督,督督堵度。杜堵赌杜牍,都督黩堵都;笃犊督堵都,堵都堵堵堵!嘟,嘟,…..
“两会”特别报道之“反腐倡廉”:贪,贪昙,贪檀,贪毯,贪炭,贪碳,…,贪…。谈贪,探贪,袒贪(忐贪→坦贪),摊贪,…。叹贪!弹贪?贪坍,贪瘫,贪潭坍!贪谈贪,贪弹痰,贪叹贪,贪探贪,忐贪坦。覃贪探谭,谭贪探覃;覃贪谈谭贪,谭贪弹覃贪;覃贪忐,谭贪忐。覃袒谭,谭袒覃,谭、覃坦!
“两会”特别报道之“微博”:封,封!疯封,封讽,封风,封沨,封烽。甮封奉,甮封丰,甮封逢;逢讽封,逢缝封,逢賵封。丰俸封讽,甮封丰俸;风峰疯封,奉峰甮封;疯封讽峰,逢奉甮封;俸丰奉丰,俸峰奉峰;丰逢丰俸,奉峰逢峰。丰奉俸甮封,讽风峰疯封!甮封,甮封,…;封,封,…。
“两会”特别报道之“物价”:涨,涨!璋涨,樟涨,獐涨,杖涨,帐涨,幛涨;璋章涨,樟杖涨,獐掌涨,幛帐涨。张嫜帐胀,仉丈帐胀;张掌仉丈,仉丈掌张。张仉掌仗瘴:张仗杖障仉,仉掌张樟杖;张彰仉帐蟑,仉彰张嶂蟑;漳礃长帐仗,…。涨长张仉帐,帐嶂障张仉。张帐胀,仉帐胀,帐胀,涨,…。
“两会”特别报道之“税”:征,争征,狰征,睁征,整征,郑征,政征,诤征,峥征!征钲,征筝,征怔,征症!争征怔,狰征症,狰争症,争峥征,蒸挣征。挣?拯?征证?征政?整征?拯征政?征证睁?整争征征?拯狰征症?争征铮狰征,睁征铮整征,郑征铮政征。诤征政?诤征?征,征,…。
“两会”特别报道之“医改与教改”:蹒,蹒,…,胖蹒,胖蹒,….。盼!蹒盘磐,蹒盘畔,蹒盘泮,蹒盘爿;胖盘磐,胖盘畔,胖盘泮,胖盘爿。盼,盼!!蹒攀磐,胖攀磐;蹒判畔,胖判畔;蟠判畔,蟠判泮。盼,盼,盼!!!蟠叛盼,蹒叛盼,胖叛盼!盼判蹒盘,盼判蹒攀,盼判蹒蟠!盼,…,盼,…。
(五) 同音文
两篇文章称为同音文[5],如果它们的发音完全相同,但是,内容和含义又完全不同!
人们虽然对同音文的研究很少,但是,同音字和同音词绝对是现在网上的潮语,比如,“同学”与“童鞋”、“有才华”与“油菜花”等。
同音短句的例子是“分久必合,合久必分”与“汾酒必喝,喝酒必汾”。
到目前为止,借助计算机,我们找到的最长的同音文的另一半是“穴媳擂蜂好膀恙,忪于革命,衷于挡,爱增芬茗,怖望苯,痢肠奸腚,痘痔疡。痢肠奸腚,痘痔疡!”(为了不引起误解,此处略去了家喻户晓的同音伴文,以表明此处仅是严肃的学术研究,并无它意)。
以上例子至少说明:同音文是肯定存在的。但是,如何撰写同音文确实是一个未解决的难题,不过,在计算机的帮助下,其撰写难度应该可以大大降低。欢迎有兴趣的读者继续深入研究同音文。
(六) 千字文
所谓“千字文”[6]是由常见汉字写成的文章,其最大特点是:每个汉字在文章中最多只能出现一次!
历史上,第一篇千字文是南朝梁武帝时期(502 —549 年),员外散骑侍郎周兴嗣奉皇命从王羲之书法中选取1000个字,编纂成文。此文的开篇部分是:“天地玄黄,宇宙洪荒,日月盈昃,辰宿列张;寒来暑往,秋收冬藏,闰馀成岁, 律吕调阳;云腾致雨,露结为霜,金生丽水,玉出昆冈;….”。
实在佩服古人,不知道他们当初到底是怎么撰写出来的如此奇文!
但是,如果借助计算机,那么,千字文的创作,从理论上来说,是完全可行的。实际上,基本思路是:从待用字库中选出一些字,组成字串,然后,判断是否为“人话”[23]。若是“人话”,那么,将此句放入另一个“句库”,同时,将此句中的字,从原“字库”中删除;若不是“人话”,那么,重新从“字库”中选取字串,重复上述过程,一直到“字库”中的字全部被用完为止。
(七) 机器写藏头诗
国人对藏头诗并不陌生,历朝历代的文人骚客乐此不疲。但是,也许很多人并不知道,如今藏头诗已经可以轻松地由计算机瞬间生成[7]。仔细分析后,计算机可以按如此思路轻松生成藏头诗:首先由人工方式生成一个比较庞大的诗句库;然后,当用户锁定需要隐藏的字串后,计算机便根据该串中的字,在诗句库中找出满足藏字条件的诗句;最后,将这些诗句一一拼接就行了。此思路也完全可以应用于前述的“蒙太奇文”和“回序文”的计算机生成法。
(八) 单字文
单字文[8],即,由单独一个字的不同读音写成的文章。至今,最著名的“单字文”可能要算下述三副对联了。1)上联:长长长长长长长(读法:Chang Zhang Chang Zhang Chang Chang Zhang );下联:长长长长长长长(读法:Zhang Chang Zhang Chang Zhang Zhang Chang);横批:长长长长(读法:Chang Zhang Zhang Chang)。2)上联:朝(zhao)朝(chao)朝(zhao)朝(chao)朝(zhao)朝(zhao)朝(chao);下联:朝(chao)朝(zhao)朝(chao)朝(zhao)朝(chao)朝(chao)朝(zhao);横批:朝(zhao)朝(chao)朝(chao)朝(zhao)。3)上联:行(hang)行(xing)行(hang)行(xing)行(hang)行(hang)行(xing);下联:行(xing)行(hang)行(xing)行(hang)行(xing)行(xing)行(hang);横批:行(xing)行(hang)行(hang)行(xing)。关于如何借助计算机来撰写这种单字文,目前还没有思路,所以,此处暂且作为一个未解决的难题提出吧。
(九) 单字单音文
单字单音文,这是一种比上一小节中所述的“单字文”更绝的文章,它由单独一个同音字的不同音调写成。至今,最著名的“单字单音文”也是这样两副对联。1)上联:好(hào)好(hǎo)好(hào)好(hǎo)好(hào)好(hào)好(hǎo);下联:好(hǎo)好(hào)好(hǎo)好(hào)好(hǎo)好(hǎo)好(hào);横批:好(hào)好(hǎo)好(hǎo)好(hào)。2)上联:种(zhǒng)种(zhòng)种(zhǒng)种(zhòng)种(zhǒng)种(zhǒng)种(zhòng);下联:种(zhòng)种(zhǒng)种(zhòng)种(zhǒng)种(zhòng)种(zhòng)种(zhǒng);横批:种(zhǒng)种(zhòng)种(zhòng)种(zhǒng)。关于如何借助计算机来撰写这种单字单音文,目前还没有思路,所以,此处也暂且作为一个未解决的难题提出吧。当然,模仿上述对联,利用其它汉字来写对联(无论是“单字文”或“单字单音文”)都不难,只是计算机的威力难以发挥,无法体现“技术文”的技术含量,所以,此处不再研究它们了。
(十) 短笑话
笑话本不属于“怪文”之列,但是,由于“批量生产笑话”的巨大商业价值,以及“机器写笑话”的高技术含量,还有文献[9]的意犹未尽,我们在此节再继续简述有关机器写短笑话的一些想法[10-22]。
我们注意到这样一个事实:用“字”写成的文章最精确(比如,法律);用“词”写成的文章最实用(比如,论著);用“意境”写成的文章最美妙(比如,易经)。因此,利用微博,在短短140字内要让机器自动写出引人发笑的文章来,一种可行的思路是这样的:首先选择两个互相冲突的意境(比如,下面例子中就给出了一些配对的冲突意境);然后,针对每个意境,建立相应的意境库;如果这两个意境库中的文字内容刚好在形式上一致了,那么,一个可笑的“包袱”便产生了。由此可见,“机器写短笑话”的重点和难点便是建立这种相互冲突的意境库。下面通过若干实例来简述,如果在微博中营造出了两个相互冲突的主流意境后,确实将产生“笑果”。这些实例既展示了营造相互冲突意境的要点,也对如何运用和驾驭意境有一定的参考作用。
例1)快话慢说:阿慢报火警。喂,是119吗?(是!)小伙子发音真标准,回头我推荐你去广播电台工作。劳驾,打听一件事,家里着火了是归你们管吗?(对!)我爱人出门忘了关煤气,32分钟,不对是31分钟前,当我感到异样时,寻热找去才发现厨房在冒烟,那个烟之大呀,我从来没见过…,(呀!接线生吐血身亡)。
例2)慢话快说:阿快讲课。闪上讲台后,老师说:同学们好,今天这节课,必须讲完本学期的数学、物理、化学、生物和英语等课程。大家务必认真听课,否则考试不饶人!数学我讲三角、几何、代数和微积分;好了,现在,请翻开物理书,自学第1-100页;已经学完的同学同时拿出化学、生物和英语。行了,今天到此,下课!
例3)短话长说:气象台报天气。中央电视台,中央人民广播电台,各位观众,各位听众,台湾同胞、海外侨胞们,大家好!在报告今天的最高温度之前,首先让我们共同回顾一下当前的世界局势,抱歉,我还忘了自我介绍呢,本人男,身高1米有6,未婚,该言归正传了,今天是个阳光明媚的好日子,最高温度是…(时间到)
例4)长话短说:地震局长接受记者专访。问:这次日本九级地震令世界震惊,请您先分析一下本次地震的成因吧。答:挤!问:地震又引发了高达30余米的海啸,造成大量人员伤亡和财产损失,请问该如何构建海啸防护体系?答:跑!接着海啸破坏了核电设备,造成大量核辐射,什么控制办法最有效?答:埋!记者无言…
例5)小话大说:幼儿园阿姨初见男友。叫什么名字呀?(王雄伟!)多大啦?(30!)做什么工作呀?(拳击!)家里兄弟姐妹几人呢?(无!)你爸爸或妈妈今天陪你来了吗?(No!)平常有什么爱好呀?(书!)每月能挣多少钱钱呀?(?2500)家里有房房和车车吗?(?有?)你都看上我什么了呀?(拜,逃!)
例6)大话小说:宝宝评妈妈。妈妈做的鱼真好吃,下次做鱼不放刺就更好了。妈妈真胆小,那么大了还要爸爸陪睡。妈妈不乖,经常看见您咬爸爸。妈妈不公平,不让我在墙上乱写乱画,可您自己却对着镜子在脸上涂鸦。妈妈,您枕头下放的那些卷起的白色气球是怎么玩的呀?长大后我才不娶媳妇呢,给妈妈省一个吃饭的人。
例7)好话坏说:比尔.盖茨N宗罪。马克思痛恨的当代最大资本家,创立微软公司剥削全世界,发明视窗操作系统挤死众对手,持IE浏览器诱百姓上网成瘾,与英特和IBM等相勾结绑架IT界,刚过50就匆匆退休享清福,与赌神巴菲特合伙设立巨额基金恐吓穷人。其罪行罄竹难书,单凭网上**泛滥,就足够罚他坐穿牢底。
例8)坏话好说:高俅赞。自学成才的足球明星,吹拉弹唱的全能冠军,以108场全胜纪录当仁不让地成为不败政治角斗士。作为宋朝军委主席,他乐于助人,特别喜欢无偿替他人永远保管钱财,其子也自愿帮林冲照顾了老婆。他锲而不舍地令众好汉上梁山剿匪,不料宋江等连连变节。做人难,做好人更难,只做好人难上加难!
例9):正话反说:批包公。生得丑,不是你的错,但是,因此而“铡美”就不对了。男女平等要落实,两口子闹别扭也不能太偏袒秦香莲嘛。斩亲侄,有独吞嫂娘遗产之嫌;杀驸马该不是想…?也有不廉之嫌,至少收受过宋仁宗的贿赂,如今合肥的包河就是物证。私设“龙头铡”更是威胁高干生命,矛头直接中央,该当何罪?
例10):反话正说:拉登喊冤。苍天呀,公道何在?我一个干瘪老头怎么啦,他堂堂世界超级大国到处追杀我十余年!哦,导演了911就有罪?那为什么电影2012剧组就平安无事?污蔑我们是恐怖分子,其实我们是一些松散的国际自愿者。这次你美国的金融危机,该不会又怪罪于我们这些不用手机和住山洞的人消费不力吧?
例11):外话内说:月亮代表我的心(科学家版)。你问我爱你有多深,我爱你有几角,我的情不假,我的爱也真,地球卫星代表我的心;(此处重复第1,2句),我的情不移,我的爱不变,(此处重复第5句);轻轻一个两嘴相遇,已经打动我的心,深深的一段情,叫我思考到如今(此处略去一百字,….)。
例12):内话外说:刘姥姥回乡传经。千万别娶城里姑娘做媳妇,她们很穷,衣不蔽体,骨瘦如柴。千万别入高楼一层那个铁门,小孩子进去,转眼间开门就被变成老爷爷了!务必自带手帕,否则得用手纸擦嘴!甭买冰棒,入袋后,它撒泡尿就跑了,只留下根小棍。街上神经病特多,他们边走边对着手里的小瓦片说话。
(十一) 结语
中国文学确实太奇妙了!但是,遗憾的是,我国当前采取了文理分科的教育方式,致使很少有人能够同时精通文理两科,而且,文科学生和理科学生也很难彼此沟通。作者偶然发现,其实,如果充分利用计算机和人工智能等理工科知识,完全可以大大降低许多文学作品的创作难度。希望本文能够吸引相关文学工作者和科技工作者的注意,促进文理合作,争取开辟我国文学研究的一片处女地。
实际上,腾讯公司成功研发的“搜搜舞文弄墨”具有重大意义,它不仅表明计算机确实可以撰写藏头诗,而且,更重要的是,使“技术文学”的深入研究看到了曙光,同时,也明白了相关的工作量是非常巨大的,必须有文学工作者的鼎力合作,比如,众多“元素库”的建立就肯定无法单独由理工科学者和计算机来完成!
参考文献
[1]百度百科,蒙太奇简介,http://baike.baidu.com/view/242081.htm
[2]百度百科,回文诗简介,http://baike.baidu.com/view/46546.htm
[3]赵元任,《施氏食狮史》,http://baike.baidu.com/view/1076786.htm
[4]杨义先,单音微博赏析,http://blog.sciencenet.cn/blog-453322-547823.html
[5]杨义先实名微博,挑战文学博士,http://weibo.com/2007962507(2012年3月15日)
[6]百度百科,千字文简介,http://baike.baidu.com/view/23443.htm
[7] SOSO,舞文弄墨,http://labs.soso.com/app.q?app=makepoem
[8]百度知道,长长长长,http://zhidao.baidu.com/question/1482016.html
[9]杨义先,王小捷,机器自动生成“微博笑话”初探,北京邮电大学学报(社会科学版),2012年2月,第14卷第1期,25-29页。
[10]杨义先,史上最难读懂之博文,http://blog.sciencenet.cn/blog-453322-482822.html
[11]杨义先,“微博背影命题”的逆向探索,http://blog.sciencenet.cn/blog-453322-478045.html
[12]杨义先,十二生肖韵文(微博版),http://blog.sciencenet.cn/blog-453322-476833.html
[13]杨义先,借力朱自清,开启“微博背影命题”研究,http://blog.sciencenet.cn/blog-453322-466167.html
[14]杨义先,封笔微博正命题,http://blog.sciencenet.cn/blog-453322-463538.html
[15]杨义先,微博顺口溜,http://blog.sciencenet.cn/blog-453322-461785.html
[16]杨义先,微博串串烧,http://blog.sciencenet.cn/blog-453322-456397.html
[17]杨义先,醉游云南临沧,http://blog.sciencenet.cn/blog-453322-440630.html
[18]杨义先,颠覆的魅力,http://blog.sciencenet.cn/blog-453322-432592.html
[19]杨义先,化高兴为力量,http://blog.sciencenet.cn/blog-453322-431064.html
[20]杨义先,微博也疯狂,http://blog.sciencenet.cn/blog-453322-428934.html
[21]杨义先,四大名著(微博版),http://blog.sciencenet.cn/blog-453322-427892.html
[22]杨义先,微博改变世界之前,http://blog.sciencenet.cn/blog-453322-426341.html
[23] 晋耀红著,HNC(概念层次网络)语言理解技术及其应用,科学出版社,2006年4月,第一版,北京,第1次印刷。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-20 13:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社