yangleader的个人博客分享 http://blog.sciencenet.cn/u/yangleader 教授,博士生导师,北邮信息安全中心主任

博文

字距猜想:“语言动力学”的起点 精选

已有 7956 次阅读 2013-6-9 16:55 |个人分类:机器文学 |系统分类:科研笔记| 起点, 动力学

字距猜想:“语言动力学”的起点

杨义先

北京邮电大学信息安全中心主任

灵创团队带头人

 

                    (一)            背景

俺真有点怀疑马老祖宗的论断:人与动物的根本区别是劳动。实际上,人类的全部内涵可概括为两个要素:“言”与“行”。并且,成立如下定律,

定律1)“言”与“行”其实是基本一致的。虽然确有“言行不一”的情况,但是,从整体统计规律看,长期生活在谎言中的人不多,而且也很痛苦。因此,可通过对“言社会”的分析,来了解“行社会”。比如,在“言社会”中,若“政府”与“贪腐”这两个词经常“碰面”的话,那么,很有可能“行社会”就“亚健康”了;

定律2)“言”与“行”是相互影响的。人类通过各种“行”,获得若干经验,然后,以文字、图表、音视频、物品等“言”(或可以转化为“言”)的方式,把“经验”记录下来并(异地)传承给后人,以此影响后人的“行”。

定律3)“言”是可以继承的。“行”却不能继承,至少说“行”无法异地直接继承,即,必须以“言”为媒介。因此,人与动物的根本区别在“言”而不在“行”,当然,就更不在“劳动”这种特别的“行”了。

定律4)“言”的稳定性远远好于“行”。甚至几千年前的经文、遗物等“言”,至今都还在(对“行”和“言”)发挥影响重要作用,当然,也在不断地产生新“言”。特别是在当今“大数据时代”,每天产生的新“言”量,大大地超过了人类早期数百年的“言”量总和。

 

(二)            字距猜想

关于“行”的社会,过去人们认为完全杂乱无章,但是,现在却发现,“行”的社会其实是一个紧凑的“小世界”,即,

6度社交空间猜想[14]:任何两个人,都可以经过至多六次引荐,便能够相互认识。

虽然作为一个数学猜想,“6度社交空间猜想”的表述非常不严谨,但是,事实证明该猜想在指导诸如Facebook、微博、Twitter等社交网络的建设和发展过程中扮演着非常重要的角色。而且,该猜想表明,至少在某一点(“相互认识”这一点)上,“行”社会是小尺度社会。

互联网是“言”社会中的第一大“国”,此外,诸如档案、影视、文艺等也都是“言”社会中的不同“国”。既然,根据上述定律1),“言”的社会与“行”的社会基本一致,那么,在“言”社会中也应该有类似的“6度空间猜想”,即,

字距2度猜想:任何两个字AB,要么,它们在同一个词中(此时称为AB的距离为1);要么,可以找到第三个字C,使得AC在同一个词中,同时,BC也在一个词中(此时,称为AB的距离为2)。

与“6度社交空间猜想”相比,此处的“字距猜想”显然更加清晰。虽然至今仍然未能证明其正确性,但是,也没能找到反例。注:真心欢迎大家来找反例吧,即,找到两个字,使得它们之间的距离既非1,也非2

在研究上述“字距2度猜想”时,作为工科人员,俺惊奇地发现,原来在汉语语法研究中,没有“字”的概念,代之却是所谓的“语素”、“词”、“短语”、“句子”等“似曾相识而又非”的概念。虽然直观含义最清楚的是“字距2度猜想”,但是,为吸引语文研究者们的注意,俺把上述猜想分解为如下几种情况:

语素级2度猜想:任意两个语素AB,要么它们在同一个词中(此时称为AB的距离为1);要么,可以找到第三个语素C,使得AC在同一个词中,同时,BC也在一个词中(此时,称为AB的距离为2)。

词级2度猜想:任意两个词AB,要么它们在同一个短语中(此时称为AB的距离为1);要么,可以找到第三个短语C,使得AC在同一个短语中,同时,BC也在一个短语中(此时,称为AB的距离为2)。

短语级2度猜想:任意两个短语AB,要么它们在同一个句子中(此时称为AB的距离为1);要么,可以找到第三个短语C,使得AC在同一个句子中,同时,BC也在一个句子中(此时,称为AB的距离为2)。

如果上述“2度猜想”正确,那么,

1)“言社会”将比“行社会”更紧凑。而且,在“言社会”中各种概念更确定,相关数学工具和建模理论将更有用武之地,当然,必须承认,至今对“言社会”的动力学理论几乎是一无所知,但是,只要有足够强大的需求驱动,“语言动力学复杂性理论”的诞生一定不会太遥远了。

2)由于“言”的继承性和“言”对“行”的影响性,将导致,“行”的可预测性。换句话说,虽然“个人命运”不一定能“算”出来,但是,从统计学观点来看,人群的命运是“可算”的。童鞋,俺可不是在宣扬“封建迷信”哟。

3)直接改变“行社会”,难度较大,甚至基本上不可能;但是,相比而言,“言社会”的改变就容易多了,比如,朝鲜正在施行的禁言、封网、“注水”等。对“言社会”的篡改,其影响将肯定漫延到“行社会”中,并最终改变“行社会”,虽然有一定的时滞;同样,如果融入到全人类的统一“言社会”之中,那么,若干年后,“行社会”也就真正“与国际接轨”了。

4)人们对“行社会”的“6度社会空间猜想”已经做了多年研究,并取得了不少成果,相信其中某些成果可以应用于研究“言空间”的“字距2度猜想”;同时,由于“言社会”的确定性更好,相信今后在“言社会”中的成果将更加深刻,而这些“更深刻”的成果,又将有助于“行社会”的研究。

 

(三)            几点说明

1)虽然上节是以中文为例来表述“字距2度猜想”的,但是,其实,该猜想与语种无关,因为,各语种之间是可以翻译的,即用数学术语来说,它们是“同构的”,所以,只需考虑一种语言的“言社会”就行了。当然,最好不用朝鲜语的“言社会”,因为,朝鲜的“言社会”已经受到了过度的强制性人为篡改。

2)“字距2度猜想”还处于相当幼稚的阶段,理论基础、模型等都是空白,但是,随着大数据时代的来临,对它的研究将越来越必要。相信在“语言动力学”研究方面,在不远的将来,一定会发表一批高水平的学术成果,甚至可能登上《Nature》或《Science》这样的世界顶级刊物。童鞋们,不要轻易放弃这个机会哟!

3)证明“字距2度猜想”的可能思路有如下几种,其一,语文方法,比如,找反例来否定该猜想;其二,数学方法,仿照“6度社交空间猜想”的数理统计法;其三,生物学方法,从人类的智能水平来考虑,比如,众所周知的“言不达意,词不达言”这个事实就表明,当今人类“言”的表述水平还不高,也许再经过若干世纪的进化后,人类的“言”水平将大幅度提高,“言社会”将更加复杂,到那个时候,“言社会”的维度数将有所增加;同理,反推,也许人类早期(比如,甲骨文或更早的时期)的“言社会”是一个很简单的0度孤立空间呢,这时只有“语素”,压根就还没有“词”。

4)自去年起,俺开始研究“技术文学”[1][2],即,以计算机、数学等自然科学手段去研究文学中的一些经典问题,并先后解决(或部分解决)了微博正命题[3]、微博逆命题[4]、微博背影命题[5],破解了著名的苏轼璇玑图[6]、史上最难璇玑图[7][8][9],解开了苏蕙璇玑图的“心”结之谜[10],解决了计算机撰写“千字文”的核心理论问题[11],建立了史上最大的同音文库[12],提出了影文猜想[13]以及本文中的字距猜想等等。总之,这些事实足以说明:技术文学是靠谱的,即,确实可以用“科学”来研究“文学”。因此,欢迎更多的科学家和文学家一起来开辟这一新的科研领域。当然,不可否认,用“科学”来研究“文学”也是一个高风险工作,不但研究难度大,而且还需要相当的胆量。实际上,“技术文学”的许多成果已经并将继续召来众多网友的肆意谩骂(比如,见[11]的网友评论等),但是,与布鲁诺和哥白尼等用“科学”去碰“神学”的科学家们相比,咱们已经相当幸运了,至少生命无忧吧。

 


本网站(或页面)的文字允许在CC-BY-SA 3.0协议和GNU自由文档许可证下修改和再使用



 

(四)            参考文献

 

[1]杨义先,技术文学初探(1):怪文研究,

http://blog.sciencenet.cn/blog-453322-620434.html

[2]杨义先,技术文学初探(2):微博研究,

http://blog.sciencenet.cn/blog-453322-620437.html

[3]杨义先,封笔微博正命题,

http://blog.sciencenet.cn/blog-453322-463538.html

[4]杨义先,史上最难读懂之博文:“微博逆命题”的“问答法”解决方案,

http://blog.sciencenet.cn/blog-453322-482822.html

[5]杨义先,“微博背影命题”的逆向探索,

http://blog.sciencenet.cn/blog-453322-478045.html

[6]杨义先,破解苏轼璇玑诗图:机器文学新进展,

http://blog.sciencenet.cn/blog-453322-660604.html

[7]杨义先,破解史上最难璇玑图(1):机器文学新进展,

http://blog.sciencenet.cn/blog-453322-667745.html

[8]杨义先,破解史上最难璇玑图(2),

http://blog.sciencenet.cn/blog-453322-667749.html

[9]杨义先,破解史上最难璇玑图(3),

http://blog.sciencenet.cn/blog-453322-667797.html

[10]杨义先,揭开苏蕙璇玑图的“心”结之谜,

http://blog.sciencenet.cn/blog-453322-670316.html

[11]杨义先,史上最牛“千字文”,

http://blog.sciencenet.cn/blog-453322-695722.html

[12]杨义先,玩转同音文:机器文学新进展,

http://blog.sciencenet.cn/blog-453322-676506.html

[13]杨义先,“影文”的发现与猜想,

http://blog.sciencenet.cn/blog-453322-685751.html

[14]百度百科,六度空间理论,

http://baike.baidu.com/view/357796.htm

 

 



https://blog.sciencenet.cn/blog-453322-698008.html

上一篇:全韵七言版《小学生标准字典》千字文
下一篇:杨呆子支招--促使社会公平、无怨的数学算法
收藏 IP: 59.64.255.*| 热度|

10 武夷山 彭真明 陈安 李本先 武爱 曹裕波 张能立 曾杰 EroControl ahmen

该博文允许注册用户评论 请点击登录 评论 (7 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 09:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部