随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

[学生发稿啦]“像鲎一样的爱情”你能看懂吗?

已有 3780 次阅读 2013-9-4 11:04 |个人分类:Computational Linguistics|系统分类:科研笔记

http://jlwb.njnews.cn/html/2013-09/03/content_1503062.htm

http://sun.njnu.edu.cn/news/2013-8/223359_870318.html

你有没有发现,我们平时说的很多比方,其实字典里根本查不到这层释义。比如,用“像猪一样笨”来形容某人愚蠢,现有字典中对于“猪”的解释只是:哺乳动物。头大,鼻和嘴长,眼小耳大,脚短,身体肥。肉可供食用,皮可制革等等。

“属于事物的认知属性范畴的词,一般是不见于字典或词典中的。”这样的认知空缺,在外国人学习汉语时、计算机对语言的自动识别上容易存在偏差。为此,南京师范大学语言学及应用语言学专业的6名同学组成了一个名为“汉语知识库建设”的科技创新实践小分队,展开了对100万词条的认知属性标注。他们的目标是建立一个“认知属性语料库”,并且实现可视化查询与呈现。

计划对100万词条人工标注

“项目立项后,我们先对1000个词条进行适应性训练,熟悉分类标准。”该实践小分队的徐亚芳同学介绍说,在暑假开始前,小组内部已经讨论和制定了一套标注规范,把词条认知关系定为九类,分别为正常属性、特指属性、相悖属性、附属属性、比喻属性、类别属性、比较属性、其他属性和错误。

以正常属性为例,如果词条是刀――锋利,锋利是刀自身带有的属性,所以标为正常属性。据悉,小分队进行标注的100万词条全部来自网络用语,主要通过“像A一样B”这个结构获取,希望通过标注A与B之间的认知关系,来理清特定词语的凸显特征。词语的认知属性是特定语言使用者文化、思维方式的结晶。

整个暑假,小分队的6位同学都沉浸在对词条的人工标注工作中。为何会进行这样的实践活动?该小组同学解释说,词语的认知属性知识库的建立有利于外国人学习汉语词语,对对外汉语教学具有积极意义,此外,对于计算机理解语言的真实含义,隐喻、反讽等修辞手法的自动识别等都有可利用的价值。

“像鲎一样的爱情”是什么意思?

“以‘刀子’这一词条为例,标注中有从刀子的动作角度进行描述的,比较典型的像刺、割、划、插、刻、切、剜等;也有从刀子的特性角度进行定义的,比较频繁的有锋利、锐利、凌厉、尖利等;还有从刀子给人带来的感受进行刻画的,主要以疼、痛以及含有这两个词特征的其他词语为主。”

参与标注的吉志薇同学介绍说,像这类标注很有实用价值,比如指导学生的作文,丰富他们的语言表达等。同时,她也认为通过这次标注,还能够发现人们对特定事物或现象的观点、态度等。

像蚂蚁一样小、像桌子一样大……除了这些常规的比方外,还有些词条很新颖,比如“像鲎(hou,四声)一样的爱情”。“第一次看到这个词条时很新奇。”邢翠鹃同学介绍说,搜索后才知道,鲎是一种壳似坚甲尾似剑的古老的海洋动物,成年后总是一雌一雄而且上雄下雌地结伴而行。

“它们朝夕相伴,形影相随,在海中,当你遇到结伴的成年鲎时,只要你抓住雌鲎的尾巴轻轻一提,伏在雌鲎背上的雄鲎也自然会跟着被提起来,因为它不会独自溜走,而是临危不惧,如痴如醉地紧紧抱在雌鲎的身上,这好像是在决计为雌鲎殉情似的。”

经过一个暑期的努力,标注项目的一期工作也已经接近尾声。据了解,近年来,语言学已经进入到科学与技术的互补时代,语言资源的建设为机器翻译、自然语言处理提供了大量的语言材料,为最终实现人机交互提供了可能性。

(马燕 刘蓉)

---------------------------------------------------------------------------------------------

ps:感谢暑期标注实践组的同学,让标注有了社会科普的味道。

再补充下数据库可视化,看看“爱情”的黄色标签哦


再比较下猫狗猪的异同:)   需要放大网页(Ctrl+)看




https://blog.sciencenet.cn/blog-39714-722226.html

上一篇:science报告:农业出现于伊朗扎格罗斯山麓(有感)
下一篇:给南京地铁涨价小算一笔
收藏 IP: 223.65.190.*| 热度|

2 章成志 张云扬

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 15:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部