|||
本来觉得英语的脏词那么多,西人对性的恶趣味似乎不逊于国人,以性为主体的粗口与国骂也差不多。不过,仔细调查以后发现,还是国人的骂法更具 多样性,更加恶心。特别是问候对方女性亲属的国骂,其变体成千上万,非写规则不能抓全。词典中所列的,不过是粪坑一角。
另一个有意思的发现是,国骂之所以称作国骂,不仅是其出现频次高,是很多人的口头禅,更因为其被中华各地区(江浙、上海、广东、福建、台湾等等等等)和民族所广泛采纳。其内核结构都是同样的(常省略的置于括号内):
(代词“我”【主语】) + 动词“问候”【谓语】 + 代词“你”【定语】) + 女性亲属(“妈”为最)【宾语/定语】 +(女性私处【宾语】) // e.g. (我) 草你马 (B)
变体是如此之多,要写出模式规则去匹配种种国骂是一个不小的工作,大概可以作为计算语言学专业的学生的 project 呢。我以前的博文给了几条这样规则的样本,大概只能抓百分之七八十吧。如今互联网时代了,要想收集各种国骂的资料不难,有不怕恶臭的语言学后生有两三周时间,应该可以尝试写出比我的样本规则查准率查全率都更强的正则表达式来。
不过,下面收集的主要是中文词汇层的不雅用语,作为肮脏语言研究的一个开始。短语层、语句层以及更高级的损人表达方式留到以后去研究。
【说明:下表太多敏感词,只能以图形方式示意了】
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社