《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

肮脏语言研究:汉语篇(18岁以下勿入)

已有 3874 次阅读 2014-9-18 19:56 |个人分类:立委科普|系统分类:科研笔记|关键词:粗口,脏字,骂人,不雅| 骂人, 脏字, 粗口, 不雅

本来觉得英语的脏词那么多,西人对性的恶趣味似乎不逊于国人,以性为主体的粗口与国骂也差不多。不过,仔细调查以后发现,还是国人的骂法更具 多样性,更加恶心。特别是问候对方女性亲属的国骂,其变体成千上万,非写规则不能抓全。词典中所列的,不过是粪坑一角。

另一个有意思的发现是,国骂之所以称作国骂,不仅是其出现频次高,是很多人的口头禅,更因为其被中华各地区(江浙、上海、广东、福建、台湾等等等等)和民族所广泛采纳。其内核结构都是同样的(常省略的置于括号内):

(代词“我”【主语】) + 动词“问候”【谓语】 + 代词“你”【定语】) + 女性亲属(“妈”为最)【宾语/定语】 +(女性私处【宾语】)    // e.g.   (我) 草你马 (B)


变体是如此之多,要写出模式规则去匹配种种国骂是一个不小的工作,大概可以作为计算语言学专业的学生的 project 呢。我以前的博文给了几条这样规则的样本,大概只能抓百分之七八十吧。如今互联网时代了,要想收集各种国骂的资料不难,有不怕恶臭的语言学后生有两三周时间,应该可以尝试写出比我的样本规则查准率查全率都更强的正则表达式来。

不过,下面收集的主要是中文词汇层的不雅用语,作为肮脏语言研究的一个开始。短语层、语句层以及更高级的损人表达方式留到以后去研究。

【说明:下表太多敏感词,只能以图形方式示意了】



【相关】

肮脏语言研究:英语篇 

科学网—社会媒体比烂,但国骂隐含舆情- 李维的博文

【置顶:立委科学网博客NLP博文一览(定期更新版)】




http://blog.sciencenet.cn/blog-362400-828894.html

上一篇:语言学小品:结婚的远近距离搭配
下一篇:京城里最好吃的饺子

1 曹聪

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-26 22:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部