||
出诗表
―――机器文学新进展
杨义先
北京邮电大学信息安全中心主任
灵创团队带头人
摘要
借力“大数据”,我们虽不能让哑巴说话,但确实可以让文盲写诗,而且,只需一分钟!不信?请读此文!(当然,为了让文、理、工、农、医等各科读者都能够读懂,我们只在此叙述原理和实例)
(一) 前言
机器文学的最终目标是:用机器创作文学作品!初听起来,好像不靠谱,但是,到目前为止,机器已经可以进行(或辅助)一些特殊的文学创作,比如,撰写史上最牛的千字文[1],破解史上最难璇玑图[2],撰写同音文[3],研究“影文”[4]和语言动力学[5]等。
事实证明,规矩越多的文学体裁,就越适合于计算机发挥其特长。对“平仄”和“押韵”有严格要求的五言和七言诗,也许要算“规矩很多”的文体了吧,因此,本文就来研究如何用机器创作律诗。(注:本文的研究思路和方法完全适用于“机器撰写各种词牌名的词”,但是,由于词牌名太多,超过一千个,而且每首词的字数也不少,对我这个“诗盲”来说,要想建设相关的“意境库”就太难了,所以,本文不考虑这些“词”)
(二) 五言绝诗“出诗表”
2.1)仄起五绝首韵“出诗表”实例
仄起五绝首韵出诗表的结构如下表1.1所示。
第一句 | 第二句 | 第三句 | 第四句 | ||||
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 |
1羞玉 2流泪 3窈窕 4雪满 5月色 6愁空 7浮云 8伤别 9哀苦 0回首 | 1未曾看 2斩楼兰 3寄燕然 4水生烟 5凤楼酣 6暗无边 7绕林间 8竟不还 9贵乡还 0泪遥传 | 1燕然 2芙蓉 3鸳鸯 4梅花 5江南 6春风 7佳人 8斜阳 9西湖 0微霜 | 1水月牵 2寻岳仙 3哀苦寒 4觉夜寒 5嬉笑牵 6独去闲 7上酒船 8流泪泉 9不可攀 0走百川 | 1凤楼 2故情 3染香 4雾花 5水晶 6雪恨 7落花 8卷珠 9相思 0当年 | 1人不见 2留不住 3追往事 4空怅望 5谁念我 6肠断处 7多少恨 8空相忆 9凝望久 0都莫问 | 1白玉 2夜郎 3多苦 4一笑 5憔悴 6无限 7寂寞 8惟有 9疑是 0远忆 | 1晚妆残 2莫留连 3憩言欢 4望长安 5老红颜 6醉不眠 7见苍山 8蔽青天 9涕衣沾 0齿开难 |
⊙仄 | 仄平平 | 平平 | ⊙仄平 | ⊙平 | 平仄仄 (非韵) | ⊙仄 | 仄平平 |
表1.1 (仄起)五绝(首韵)出诗表
基于上述的表1.1,任何傻瓜都可以按如下两步轻松写诗:
第一步,任意选取一个八位数,比如,毛泽东的生日18931226,然后,把该数代替表1.1中的X1X2X3X4X5X6X7X8,于是,获得了如下的表格1.2
第一句 | 第二句 | 第三句 | 第四句 | ||||
1 | 8 | 9 | 3 | 1 | 2 | 2 | 6 |
1羞玉 2流泪 3窈窕 4雪满 5月色 6愁空 7浮云 8伤别 9哀苦 0回首 | 1未曾看 2斩楼兰 3寄燕然 4水生烟 5凤楼酣 6暗无边 7绕林间 8竟不还 9贵乡还 0泪遥传 | 1燕然 2芙蓉 3鸳鸯 4梅花 5江南 6春风 7佳人 8斜阳 9西湖 0微霜
| 1水月牵 2寻岳仙 3哀苦寒 4觉夜寒 5嬉笑牵 6独去闲 7上酒船 8流泪泉 9不可攀 0走百川 | 1凤楼 2故情 3染香 4雾花 5水晶 6雪恨 7落花 8卷珠 9相思 0当年 | 1人不见 2留不住 3追往事 4空怅望 5谁念我 6肠断处 7多少恨 8空相忆 9凝望久 0都莫问 | 1白玉 2夜郎 3多苦 4一笑 5憔悴 6无限 7寂寞 8惟有 9疑是 0远忆 | 1晚妆残 2莫留连 3憩言欢 4望长安 5老红颜 6醉不眠 7见苍山 8蔽青天 9涕衣沾 0齿开难 |
⊙仄 | 仄平平 | 平平 | ⊙仄平 | ⊙平 | 平仄仄 (非韵) | ⊙仄 | 仄平平 |
表1.2 “毛泽东生日”所对应的出诗表
第二步,从表1.1的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就行了。比如,在表1.2中,就应该从第1、2、3、4、5、6、7、8列里,分别取出第1、8、9、3、1、2、2、6个“字串”(见表1.2中的红字部分),最后,串接起来的文字便是如下五言绝诗:羞玉竟不还,西湖哀苦寒;凤楼留不住,夜郎醉不眠。
读者可以自行用本人的生日数字来轻松写诗。为了增加趣味性,我们再举几个例子:
数字π=3.1415926,从表1.1所对应的诗是:窈窕未曾看,梅花水月牵;水晶凝望久,夜郎醉不眠。
根号2=1.4142135,从表1.1所对应的诗是:羞玉水生烟,燕然觉夜寒;故情人不见,多苦老红颜。
共和国的生日19491001,从表1.1所对应的诗是:羞玉贵乡还,梅花不可攀;凤楼都莫问,远忆晚妆残。
八宝山的电话号码88259666,从表1.1所对应的诗是:伤别竟不还,芙蓉嬉笑牵;相思肠断处,无限醉不眠。
黄金分割数0.6180339,从表1.1所对应的诗是:回首暗无边,燕然流泪泉;当年追往事,多苦涕衣沾。
递增数列12345678,从表1.1所对应的诗是:羞玉斩楼兰,鸳鸯觉夜寒;水晶肠断处,寂寞蔽青天。
关于五言绝诗,除了表1.1所述的“仄起五绝首韵”之外,还有其它的一些格律,比如,下一小节2.1)所述的“平起五绝首韵”、“仄起五绝首句不入韵”和“平起五绝首句不入韵”等四种情况。为了节省篇幅,我们仅再述一个“平起五绝首韵”的出诗表例子。
2.1)平起五绝首韵出诗表实例
平起五绝首韵出诗表的结构如下表1.3所示。
第一句 | 第二句 | 第三句 | 第四句 | ||||
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 |
1炎凉 2孤房 3多情 4肠断 5桃花 6愁绝 7秋啼 8凄凄 9昔时 0嫦娥 | 1水月牵 2梦日边 3独去闲 4乐世间 5哀苦寒 6醉上山 7上酒船 8指波澜 9流雪山 0寻岳仙
| 1遥看 2风雨 3流水 4依旧 5芳草 6春色 7杨柳 8心事 9不似 0回首 | 1若浮烟 2有人还 3通人烟 4乱紫烟 5同交欢 6漱瑶泉 7动寒川 8去不还 9跳白猿 0染香丹 | 1桃李 2杳渺 3秀色 4独有 5萧飒 6流泪 7粉泪 8花草 9何事 0半落 | 1人间世 2君知否 3谁知道 4须知道 5空惆怅 6斜阳处 7空凝伫 8人何处 9天长久 0空回首 | 1瑶泉 2天涯 3微茫 4云霓 5仍怜 6香炉 7无花 8悠悠 9蹉跎 0苍生 | 1羞长安 2清且安 3夜已残 4蚀影圆 5岂敢安 6绣木兰 7骄破天 8怒上天 9伤别年 0舞御前 |
平平 | ⊙仄平 | ⊙仄 | 仄平平 | ⊙仄 | 平平仄(非韵) | 平平 | ⊙仄平 |
表1.3(平起)五绝(首韵)出诗表
若借助表1.3,那么,仿照前面的方法,我们可以得到
毛泽东的生日18931226对应的诗是:炎凉指波澜,不似通人烟;桃李君知否,天涯绣木兰。
数字π=3.1415926对应的诗是:多情水月牵,依旧若浮烟;萧飒天长久,天涯绣木兰。
根号2=1.4142135对应的诗是:炎凉乐世间,遥看乱紫烟;杳渺人间世,微茫岂敢安。
共和国的生日19491001对应的诗是:炎凉流雪山,依旧跳白猿;桃李空回首,苍生羞长安。
黄金分割数0.6180339对应的诗是:嫦娥醉上山,遥看去不还;半落谁知道,微茫伤别年。
八宝山的电话号码88259666:凄凄指波澜,风雨同交欢;何事斜阳处,香炉绣木兰。
递增数列12345678对应的诗是:炎凉梦日边,流水乱紫烟;萧飒斜阳处,无花怒上天。
(三) 五言律诗“出诗表”
与“五绝”类似,“五律”格律诗也有四类:“仄起五律首韵”、“平起五律首韵”、“仄起五律首句不入韵”、“平起五绝首句不入韵”等四种情况。为节省篇幅,我们也仅仅叙述一个例子,即“仄起五律首韵”出诗表,见下表1.4所示。
第一句 | 第二句 | 第三句 | 第四句 | ||||
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 |
1雨落 2水覆 3买醉 4笑尽 5萧飒 6风景 7山空 8香袖 9独宿 0今古 | 1指长天 2扫青天 3上青天 4愿年年 5忆当年 6想当年 7似当年 8待明年 9照当年 0别三年 | 1松鸣 2幽哀 3君情 4玲珑 5珠袍 6云愁 7新妆 8风飘 9孤房 0窗竹 | 1岂敢安 2羞长安 3清且安 4羞玉颜 5多苦颜 6彩女颜 7憔悴颜 8尽欲言 9花自言 0不可言 | 1花落 2采薇 3相思 4得心 5从君 6笑隔 7荷花 8怅然 9织锦 0长歌 | 1遥相望 2空怅望 3离别处 4行乐处 5肠断处 6回首处 7凝望处 8游子意 9不得意 0不尽意 | 1我醉 2久坐 3素手 4春草 5含绿 6眷我 7遥寄 8珠泪 9惆怅 0流水 | 1亦不还 2去无还 3始应还 4去不还 5送君还 6难追攀 7相牵攀 8空登攀 9好庐山 0见青山 |
⊙仄 | 仄平平 | 平平 | ⊙仄平 | ⊙平 | 平仄仄 (非韵) | ⊙仄 | 仄平平 |
第五句 | 第六句 | 第七句 | 第八句 | ||||
Y1 | Y2 | Y3 | Y4 | Y5 | Y6 | Y7 | Y8 |
1罢笑 2试问 3春昼 4窈窕 5百草 6黄鸟 7流水 8浅画 9孤凤 0轻倚 | 1谁知道 2须知道 3怎知道 4还知道 5不足道 6高飞尽 7啼不尽 8星芒尽 9孤帆影 0随弓影 | 1思君 2霜衣 3珠玑 4腰肢 5飘零 6天涯 7千春 8美酒 9沉吟 0红妆 | 1梦日边 2到日边 3生紫烟 4乱紫烟 5写远川 6纳百川 7了不闲 8万事闲 9长空闲 0心自闲 | 1几何 2翠微 3隐然 4长歌 5春风 6采桑 7折芳 8愧遥 9从君 0月出 | 1千古恨 2多少恨 3留不住 4追往事 5谁念我 6空相忆 7如两忘 8君不见 9如梦中 0空相待 | 1忽忆 2莫洗 3瀑布 4翠影 5桂树 6归去 7醉后 8对影 9美酒 0邀我 | 1落兴酣 2雪恨难 3卷珠帘 4笑折旋 5奉琼筵 6炼砂丹 7侍轩辕 8造天关 9坐雕鞍 0见三泉 |
⊙仄 | 平平仄 (非韵) | 平平 | ⊙仄平 | ⊙平 | 平仄仄 (非韵) | ⊙仄 | 仄平平 |
表1.4 (仄起)五律(首韵)出诗表
与前面的表1.1类似,此处的表1.4也可以让任何傻瓜按如下两步轻松写诗了:
第一步,任意选取两个八位数(或者一个16位数),然后,把它们分别代替表1.4中的X1X2X3X4X5X6X7X8和Y1Y2Y3Y4Y5Y6Y7Y8;
第二步,从表1.4上半部分的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了五律诗的前面四句;从表1.4下半部分的第Yi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了五律诗的后面四句,于是,五律的全诗就完成了。
比如,毛泽东和江青的生日分别是18931226、19140317,那么,将它们放入表1.4中,就应该从上半部分的第1、2、3、4、5、6、7、8列里,分别取出第1、8、9、3、1、2、2、6个“字串”,将它们串接起来的文字便是如下五言律诗的前四句(雨落待明年,孤房清且安;花落空怅望,久坐难追攀),然后,从下半部分的第1、2、3、4、5、6、7、8列里,分别取出第1、9、1、4、0、3、1、7个“字串”,将它们串接起来的文字便是如下五言律诗的后四句(罢笑孤帆影,思君乱紫烟;红妆留不住,忽忆侍轩辕)。将这前面各四句串起来,就完成了全诗:雨落待明年,孤房清且安;花落空怅望,久坐难追攀;罢笑孤帆影,思君乱紫烟;红妆留不住,忽忆侍轩辕。
数字π=3.1415926 53589793对应的诗是:买醉指长天,玲珑岂敢安;从君不得意,久坐难追攀;百草怎知道,飘零万事闲;沉吟如两忘,美酒卷珠帘。
根号2=1.4142135 62373095对应的诗是:雨落愿年年,松鸣羞玉颜;采薇遥相望,素手送君还;黄鸟须知道,珠玑了不闲;隐然空相待,美酒奉琼筵。
党和共和国的生日19210701、19491001对应的诗是:雨落照当年,幽哀岂敢安;长歌凝望处,流水亦不还;罢笑孤帆影,腰肢长空闲;几何空相待,邀我落兴酣。
黄金分割数0.6180339 88749894对应的诗是:今古想当年,松鸣尽欲言;长歌离别处,素手好庐山;浅画星芒尽,千春乱紫烟;从君君不见,美酒笑折旋。
镜像数列12345678 87654321对应的诗是:雨落扫青天,君情羞玉颜;从君回首处,遥寄空登攀;浅画啼不尽,天涯写远川;长歌留不住,莫洗落兴酣。
八宝山的电话号码88259666、88259777:香袖待明年,幽哀多苦颜;织锦回首处,眷我难追攀;浅画星芒尽,霜衣写远川;从君如两忘,醉后侍轩辕。
(四) 七绝“出诗表”
与五言类似,七言格律诗也分为“七言绝诗”和“七言律诗”,它们又可再细分为“仄起首韵”、“平起首韵”、“仄起首句不入韵”和“平起首句不入韵”等情况。但是,从基于大数据的“出诗表”角度来看,它们的原理都是一样的,因此,为了节省篇幅,我们仅给出如下表1.5中的(仄起)七绝(首韵)“出诗表”:
第一句 | 第二句 | ||||
X1 | X2 | X3 | X4 | X5 | X6 |
1羞玉 2流泪 3窈窕 4雪满 5愁空 6浮云 7伤别 8哀苦 9昨夜 0美酒 | 1愁绝 2池花 3秋啼 4嫦娥 5桃花 6瑶泉 7天涯 8微茫 9云霓 0烟涛 | 1落九天 2直上天 3夜已残 4方未还 5旧物还 6蚀影圆 7绣木兰 8粉泪淹 9浮云翻 0笑紫燕 | 1绿烟 2美人 3床前 4玉阶 5月明 6浮云 7月光 8浣纱 9春风 0落叶 | 1夜郎 2憔悴 3寂寞 4秋色 5风雨 6揽涕 7愁水 8醉舞 9杳渺 0白兔 | 1似真仙 2寂无言 3拜龙颜 4蛾眉妍 5复茫然 6话孤眠 7复谁怜 8恋君轩 9两相欢 0万人欢 |
⊙仄 | 平平 | ⊙仄平 | ⊙平 | ⊙仄 | 仄平平 |
第三句 | 第四句 | ||||
Y1 | Y2 | Y3 | Y4 | Y5 | Y6 |
1凤楼 2故情 3染香 4雾花 5蓬莱 6画屏 7荷花 8海棠 9蜀琴 0梦魂 | 1明镜 2流水 3素绢 4芳草 5春色 6杨柳 7玉碗 8翡翠 9芳树 0荡漾 | 1枯松倒 2君知否 3嫣然笑 4落花絮 5空惆怅 6伤心碧 7千秋梦 8难忘酒 9峨眉雪 0别君去 | 1桃李 2莺羽 3梅梢 4骏马 5五岳 6粉泪 7花草 8绝艳 9巨海 0醉月 | 1白雉 2悲鸟 3几度 4惟君 5瀑布 6孤灯 7风景 8欲尽 9秋霜 0蓬莱 | 1愁空山 2流雪山 3醉上山 4望远山 5楚舞欢 6绕碧山 7入远山 8伤别年 9问当年 0学少年 |
⊙平 | ⊙仄 | 平平仄 (非韵) | ⊙仄 | 平平 | ⊙仄平 |
表1.5:仄起七绝首韵“出诗表”
与前面的表1.1类似,此处的表1.5也可以让任何傻瓜按如下两步轻松写诗了:
第一步,任意选取两个六位数(或者一个12位数),然后,把它们分别代替表1.5中的X1X2X3X4X5X6和Y1Y2Y3Y4Y5Y6;
第二步,从表1.5上半部分的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了七绝诗的前面两句;从表1.5下半部分的第Yi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了七绝诗的后面两句,于是,七绝的全诗就完成了。比如,
数字π=3.14159 265358对应的诗是:窈窕愁绝方未还,绿烟风雨两相欢;故情杨柳空惆怅,梅梢瀑布伤别年。
镜像数列123456 654321对应的诗是:羞玉池花夜已残,玉阶风雨话孤眠;画屏春色落花絮,梅梢悲鸟愁空山。
黄金分割数0.61803 398874对应的诗是:美酒瑶泉落九天,浣纱白兔拜龙颜;染香芳树难忘酒,绝艳风景望远山。
根号2=1.41421 356237对应的诗是:羞玉嫦娥落九天,玉阶憔悴似真仙;染香春色伤心碧,莺羽几度入远山。
(五) 原理浅析
古人早就发现了这样一个“事实”:熟读唐诗三百首,不会吟诗也会吟!但是,古人并不知道,这个“事实”的基础就是现在风靡全球的“大数据”。通过熟读众多诗词,人们便在头脑中无意识地建立起了针对各种意境的“字串库”,然后,在需要时,触境生情把库中现成的“字串”取出来,就拼接成诗了。
借助“大数据”的各种整理和挖掘技术,针对相关的意境,遵守事先约定的各种平仄格律等要求,完全可以为每个用户独立地建设和维护一个专用的“意境库”。比如,若选取“爱情”为“意境”,那么,利用“大数据”就可以收集人类在爱情的各种情况下(热恋中、失恋中、暗恋中……)都会有什么话语,至少可以收集诗人们的同类现成诗词,对这些“话语”经过机械加工,即按平仄音韵等条条框框来改造,于是,基础“意境库”就完成了。当然,在每个人的使用过程中,“大数据”还可以根据用户的爱好和习惯和“意境库”进行精细化处理,使得每个人,以傻瓜方式“写”出来的诗,也具有个性特点。其实,本文中的表1.1至1.5中每列的内容就是各种“意境库”,我们把它们以“死的方式”(不是以软件程序方式)表现出来的目的是:让读者可以更加直观地了解“傻瓜写诗”的原理。所以,“出诗表”软件真正面市后,它的操作就只需要用户随机输入相关的数串就行了。
“机器能够写诗”的另一个原因是:人其实是很容易被“骗”的,当你先申明某个字串是诗时(即,把相关的心理暗示传递给了读者),人们就会努力去想像这些字串中的“诗意”,那怕这些字串其实是“狗屁不通”。这种“主动受骗”的现象很少出现在阅读散文、小说等其它文章的过程中。
“大数据”的神威其实早就被广泛利用了,比如,大家熟知的“搜狗输入法”,就采用了搜索引擎技术,从网络的“大数据”中迅速找到“热词”或用户自己个性化常用词,于是,机器好像就能够预知你的心思,提前把你要的词展现出现,使得输入速度、词库广度、词语准确度等方面都有了实质性的提高。又比如,谷歌公司最近推出一种崭新的机译方法:将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语言的结构,然后与另一种语言的结构进行对比,从而扩充和完善现有的双语语料库,于是,彻底颠覆了语言翻译的基本思路。
甚至有人预言,随着“大数据”的迅速发展,今后,你不必学医就能够诊病并开处方了(当然,外科手术还得由专门的医生来实施)。
总之,用“大数据”来写诗,特别是写那些清规戒律很多的“格律诗”,其实应该是意料之中的事情。欢迎各位网友八仙过海,研究出更多的“机器写诗系统”,由于本人是“诗盲”,因此,相关的“意境库”肯定粗制滥造,希望不要误导大家。
本网站(或页面)的文字允许在CC-BY-SA 3.0协议和GNU自由文档许可证下修改和再使用。
(六) 参考文献
[1] 杨义先,史上最牛“千字文”,
http://blog.sciencenet.cn/blog-453322-695722.html
[2] 杨义先,破解史上最难璇玑图,
http://blog.sciencenet.cn/blog-453322-667745.html
[3] 杨义先,玩转同音文,http://blog.sciencenet.cn/blog-453322-676506.html
[4] 杨义先,“影文”的发现与猜想,
http://blog.sciencenet.cn/blog-453322-685751.html
[5] 杨义先,字距猜想:“语言动力学”的起点,
http://blog.sciencenet.cn/blog-453322-698008.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 19:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社