||
8月7日至12日赴德国柏林参加了ACL(国际计算语言学大会),有所收获,杂记如下。开会地点洪堡大学。这是德国语言学的重镇,洪堡是语言学界出了名的大牛,人文精神、语言、民族、文化的论述非常精彩。洪堡兄弟的座像屹立在大学门口,分别代表了人文与科学,这与ACL语言与计算的主旨相得益彰。
来自加州大学的Amber Boydstun教授的主题演讲,她不是NLP领域的大牛,但引进了语言学家Lakoff的Tone和Framing理论,进行基于网络语料的计算机处理技术。虽然技术方面不够前沿,但是对语言学理论的运用是亮点,说明计算语言学大会对语言学理论的重视,希望更多地将语言学和其他学科的理论和方法引入NLP。
第二天的主题演讲是爱丁堡大学的Mark Steedman,他介绍了分布语义学,区分了基于collocation和denotation的两种方法,在神经网络模型的技术实现下,探讨了在QA、机器翻译、知识图谱等领域的应用。语义、神经网络皆为当前研究热点,该报告获得了在场观众的较大反响。
今年的终身成就奖颁给了斯坦福大学Joan Wanda Bresnan教授,以表彰她在词汇功能语法上的工作。她 1966 年本科毕业于里德学院哲学系,1972 年获得麻省理工学院语言学博士学位(指导老师是乔姆斯基)。她曾在马萨诸塞大学阿默斯特分校、麻省理工学院和斯坦福大学担任教职,现在是斯坦福大学的人文荣誉退休 Sadie Dernham Patek 教授及斯坦福大学语言与信息研究中心(CSLI)高级研究员。她是词汇功能语法( lexical-functional grammar)的主要设计者之一。与乔姆斯基不同,她将统计方法引入语言学研究,并对语言类型学颇感兴趣。1999年担任美国语言学会会长。
最佳论文是 E. DarioGutierrez (加州大学伯克利分校)、Roger Levy(MIT)和 BenjaminK. Bergen(加州大学圣迭戈分校)的《FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression》(使用字符串度量学习进行核回归以寻找非任意性的形式-意义系统)
最佳学生论文是英国剑桥大学工程系的 Pei-HaoSu, Milica Gasic, Nikola Mrksic, Lina Rojas-Barahona, Stefan Ultes, DavidVandyke, Tsung-Hsien Wen, Steve Young 的《On-line Active Reward Learning for Policy Optimisation inSpoken Dialogue Systems》(用于口语对话系统中策略优化的在线主动奖励学习)
这两篇论文体现了统计学习模型用于NLP依然是学界的重心。
在会议的其他时间里,旁听了semantic parsing的session,这个领域依然存在较大不同,分析技术有CCG+logic form,lamda,AMR等几种,个人还是倾向于AMR,对CCG没有好感。甚至不明白为何CCG受到一些人的追捧。
我自己投稿并参加的workshop是linguistic annotation workshop(语言标注)。这次会议的报告的内容多为标注一致性问题,某种特殊语料的标注方法问题等。在会上与一些学者进行了交流,感觉到AMR并不为大家所了解,还有很多工作值得做。
可惜由于会议只被批准六天,第一天的tutorial和最后一天的workshop都没能听到,只能通过网站材料自学了。
这次会议最大的收获在于,了解了学界发展的方向。统计学习方法成了绝大多数paper的核心内容,而神经网络算法更是占据了主流技术范。我自己算法不精,觉得更新很快。计算机背景的学者感觉累,新的模型不断涌现,不停地引进和调参,大有疲劳感,感慨“追不动了”。可我觉得更新速度快是好事,说明算法在不断地改进,效果也在不断提升。计算语言学就是需要新的方法(主要是算法)来解决计算问题。而目前的算法距离语义分析、理解和生成都很遥远。现在的算法很不合格,需要根据自然语言处理对算法提出定义和要求,而不是今天从机器学习领域引入个算法,明天从计算数学那边来一个算法。稀里糊涂,模模糊糊,只要结果好一点点,就可以造就一篇好paper。
另外,语言学的式微不能只靠特邀主题报告来象征性的拯救一下,需要语言学家自己去更新知识构成,做出真正的语言计算研究。说来容易,做起来的话,则可以在语言资源、语义表示、语义理论上多下功夫。就像Hinton研究神经网络一样,信仰和坚持才能有所成就。不管是神经网络的热潮还是低潮,都在坚持自己认为正确的方向,天天摇摆,一事无成。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:35
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社