mashutian的个人博客分享 http://blog.sciencenet.cn/u/mashutian

博文

CCL2014参会报告---马舒天

已有 2935 次阅读 2014-10-23 10:21 |个人分类:会议|系统分类:科研笔记

第三场特邀报告是北京大学的周晓林教授做的汇报,他的题目为“Processing Construction-basedPragmatic Constraints during Sentences Comprehension”。主要介绍了神经语用学和句子理解等相关知识,以及如何通过心理学实验发现人们在进行语用理解时,大脑神经的状态变化。

汇报人首先介绍了心理学的相关知识。心理学研究的方法主要有三种,自然观察法、个案研究、问卷调查与量表调查和实验研究。其中,实验研究主要是为了探索因果关系,首先控制、平衡无关变量(额外变量),通过操纵感兴趣的自变量,观察因变量上的效应,来建立自变量与因变量之间的因果关系。

语言心理学家主要研究的有这样几个方面:1.我们理解并且产生我们所要说或者要写出来的语言的过程,是指某一秒的状态;2.这些过程中产生的语言输入和输出的表达,对状态的描述;3.完成这些过程所需要的知识;4.小孩子是如何发展自己的语言学的知识和说语言的过程;5.语言理解、产生和获取的神经科学(认识系统)。

周晓林教授提出某些句法结构除了具有其本身所组成单词的词意,还单独含有的一些抽象意义。语言理解通常被视为一个过程,从语言和额外的语言信息集成信息来源,建立状态或事件被描述的心理表征。因此对于语言处理过程的神经认知研究的目的,一方面是阐明人们在做出语言推理时大脑是如何运作的,比如,根据知识、谈论以及社会化的上下文来挖掘一句话扩展出的意思。另一方面,处理人们语言认知错误或者失败的情况,比如化解人们在语言输入以及语用理解时发生的冲突现象。在研究中,他们使用了与事件相关电位(ERP)和功能性磁共振成像(fMRI)技术研究大脑如何约束句子理解。在实验中,创建了一个不合适的条件和一个未指定条件和比较两个控制条件的低预期性描述一个事件。研究结果揭示了微分大脑机制使语用推理和处理在句子理解语用失误。

 

最后一场特邀报告是微软亚洲研究院首席研究员Junichi Tsujii,报告题目为“Linking Text with Data and Knowledge Bases”。报告主要关于实体链接,句子解析和知识还有段落释义。

首先主要讲了如何从大量的生物医学信息中挖掘文本,将生物医学信息变为医药科学信息。人们主要有两种研究方向,一个是理性主义的理论导向研究,另一个是经验主义的数据导向研究。随着统计机器翻译的提出,越来越多的研究趋向于数据导向,但是这个实际上对研究不会有实际性的改变,因此报告中提出要将数据与理论结合起来。

那么大量的文本和知识之间如何建立关联?一种方式是从文本(新闻,文章)中挖掘出知识,并可以建立成库(FreebaseYagoMSRAWikipediaKS)。另一种方式是从知识库中trigger出文本。文本的“MS”在知识库中可能表示IT公司“Microsoft”或者医学上的“Multiple Scierosis”(多发性硬化),研究者需要将这样的文本在知识库中通过类别-实体的形式表示出来,进而从对实体之间的关系挖掘发展到对实体之间的关系表达进行挖掘。

后来Junichi Tsujii简单介绍了将句子解析存储到文本数据库中的过程。比如一句话“MS bought last month the companywhich had been sued by Apple two years ago.”语义化的表示前半句动作是buyagentMSobjectthe companytimelast month。后半句中的动作是sueagentAppleobjectthe companytimetwo years ago。这句话中的两个实体是{SM, Apple}E-id-100{MS, Microsoft, MSFT, MSFT Corporation,etc.}E-id-123{Apple, Apple Inc, AppleComputer Inc…etc.}。共同出现的是the companyE-id-500{Skype},规范化时间last month{June/2011}two years ago未规范。动作识别是buyM&A(arg1:MS, arg2:Skype).这个事件连接起来就是M&A(arg1: E-id-100, arg2: E-id-500),作为Event-id-1234。这样的句子解析虽然提高了精确度,但是速度仍然很慢。最后讲了不同等级的段落释义,分别是语法、语义、推论和世界知识。他们将段落解析成树形结构,对于段落之间的比较也就是树形结构的比较。

通过实验最后得到的结论是,数据引导的技术与理论引导的框架可以结合起来运用到系统中。大量的知识资源可以被人们利用起来,推理的统计模型同样变得易于运用。基于知识的推理与自然语言处理结合起来将会成为自然语言理解的实际框架。

 

听的几个分会场的报告

一种基于弱监督学习的论坛子对话分类方法

本文的研究对象是MOOC平台上的用户帖子,研究思路是将按照时间排序的帖子(线结构)重新排列为按照对话关系排列的帖子(树结构)。

作者给出了这样的研究方法。首先,将T个线索的m个帖子{p0,p1,…pm-1}组成的每个pi对话行为类别标记为ci。而对话行为的类别分为QuestionAnswerReproductionOther。在每个类别下,对其对话功能进行进一步划分,比如Question这一类进而被划分为Question-QuestionQuestion-AddQuestion-CorrectionQuestion-Confirmation

作者将论坛中的帖子进行完全标签,选择基于广义期望准则的条件随机域模型为若监督学习方法。选用的特征有,词特征:TFIDF;结构特征:initiatorposition;语义特征:qmarkemarkurlpostSimTitleSim;发帖人特征:UserRank。分别利用结构特征,简单语义特征,语义相似度特征的不同组合对论坛上的子对话分类。

 

社交网络账号的马甲关系辨识方法

目前普遍使用马甲关系识别方法有,账号名识别与语言风格识别。而账号在社交网络中的相关信息主要有四种:1.账号注册信息,对账号某些相关的信息进行利用;2.账号发言文本,通过文本的内容对作者进行识别;3.账号的某些特定行为(登陆,点击等)。4.账号之间的社交关系。前面两种信息使用的过程较多。

文章中的识别方法的第一步是特征提取,网络文本特征提取:将单个文本中所有字的n-gram作为特征统计计算得到的文本对应的向量。账号回复关系的特征提取,将被回复的账号作为特征,统计计算得到关系的特征向量。将每两个用户组成一个pair(i,j)ij均有马甲且属于同一组则判断为正,否则判断为负,最后求出马甲组。

 

基于单文本指代消解的人物家庭网络构建

社会关系网络在当今信息化社会中具有重要作用,报告者提出传统的社会关系网络分析(Social Network AnalysisSNA)着眼于以人为个体,忽略了家庭作为一个整体对社会网络的影响。文章从构建家庭网络入手,在新闻语料中挖掘人物家庭关系。

自举学习的过程主要是:模式发现,模式评估,实例发现与实例评估。首先,模式发现是指给定种子A,B,抽取文本“…. A的妻子B….”,抽取模式得“<Husband>的妻子<Wife>”。模式评估是指采用PMI衡量模式p与人物对{x,y}之间的关联强度,每个定义模式p可信度与每个实例i的平均关联程度有关。实例发现是指利用已有的模式发现实例,实例评估的过程引入了打折因子。

基于指代消解的人物家庭网络融合有三步:人名精确匹配,重名消歧和多名聚合。将具有相同名称的人名作为连接点,通过连接点将不同的人物对联系起来,同时计算同名人物之间的余弦相似度,去掉低于某个阈值的同名人物,最后在家庭内部采用最小编辑距离的方法进行人物的多名聚合,当人名之间的相似度大于某一阈值,将它们归入同一指代链,并形成最终家庭。句子“A的妻子B”与句子“A和他的妻子B”实际上指的是一个意思,但是往往会出现指代错误。另外,文章中还运用英文中的中心理论{前向中心,后向中心,优选中心},距离,先行语和指示语特征等。

 



https://blog.sciencenet.cn/blog-1497049-837942.html


下一篇:南师大报告——基于社交数据挖掘的用户理解 陈恩红
收藏 IP: 222.190.117.*| 热度|

1 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 12:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部