随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

第二本书出版啦!《词语认知属性的知识库构建和应用》

已有 3750 次阅读 2017-9-12 13:58 |个人分类:Computational Linguistics|系统分类:科研笔记



认知属性是什么东东?有必要折腾一个新概念吗?

好吧。请问懒、笨、肥在词典里查的到吗?而大家是不是经常把某人比作猪呢?猪的这三个属性,是纯粹客观的吗?也许是,呢?猪难道不比老鼠聪明吗?可人们反而觉得老鼠机灵些。所以借用认知语言学的思想,在属性前加了认知二字,体现出语言社团对某事物或概念的认知。

认知属性有用吗?有必要建库吗?

有了-这样的信息,我们可以做很多事情哦。首先,可以看看其他语言里的猪有哪些属性,和汉语一样吗?其次,反过来查的事物有哪些,可以帮助小学生、留学生造比喻句嘛。当然,也可以在计算机上玩起来,在人机对话的时候既懂得骂人,也知道被骂。为了能用,这库可不能太小,至少得收录几千词才好用。但是拍脑袋的方法比较慢,也难以得到比较一致的属性,怎么办?

要语料,靠百度。我们从百度上定制了“AB一样C”的搜索模板,下载了500多万条“B-C”实例。然后经过人工校对和整理,得到了23万多条带有概率信息的词语-认知属性对,覆盖了1万多个词语和1万多条认知属性。比如的认知属性图是不是很大

是不是大的看不清了?好吧,查个少点的,看看“懒”的事物有哪些。

想查更多的认知属性吗,请访问作者编程制作的网站cognitivebase.com,也可扫描文末二维码直接访问。

有了这个库,可以做一些认知语言学的研究。比如形容词的语义选择限制,借助知网HowNet的语义体系,全自动地获取语义类的限制。下图给出了“辛苦”的对象的语义类分布,主要是人和一些繁重的劳动,也有牛、蜜蜂等动物。


找找认知上相似的词语呢?我们提出了认知相似度的概念,运用认知属性的二次扩展方法,根据属性再次扩展出词语,可视化套件会自动地把共同属性多的词语聚在中心位置。查查猎豹,得到了很多相似词语,注意火箭闪电也在其中,这可是传统方法很难得到的结果。


还可以英汉双语对比哦!作者从google抓取了大量了英文“词语-属性”对,看看英汉共有的部分吧。

当然,也可以查英汉对译的词。为了避免显示不下,选了一个简单的“羊”。

认知属性库提供了大量的主观数据,可以用于语言学和心理学研究。书中针对副词+名词结构进行了考察。一般认为,能进入很中国、特土匪之类的副名结构的名词,需要有较为丰富的属性特征。但由于属性特征数据库的缺失,这一研究未能有效展开。本书则基于认知属性库的大量数据,对前人论文中的99个名词逐个考察,验证了属性特征说的正确性。同时,也提出了副名结构的这种转喻需要顾及转喻的本体(副名结构前面的主语),主语的类型往往需要和喻体词语进行匹配,才能更有效地激活转喻。

书中还有基于认知属性库的原型范畴研究,在理论上也做出了百科知识、语言知识和日常感知知识的三大分野,以及对新兴的分布语义学的介绍与展望。这里不一一展开,待后续推送,欢迎继续关注。

教师节特图





https://blog.sciencenet.cn/blog-39714-1075578.html

上一篇:中文AMR语料库的构建工作简介
下一篇:古汉语语料库《左传》于10月19日在LDC发布
收藏 IP: 221.226.47.*| 热度|

1 武夷山

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 20:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部