||
记语言资源国际顶会LREC2018日本之行
-----------------------------------------------------------------------
按:参加国际会议不容易,学生的文笔不错,转帖于此。
-----------------------------------------------------------------------
作者:宋丽
首次海外学术交流的经历,献给了日本宫崎,5月7日-12日,第11届语言资源与评测大会(LREC 2018),在感受文化的冲撞的同时,与世界各国的学者交流学术思想,探讨研究难题,非常荣幸!
LREC是语言资源(LRs)和人类语言技术(HLT)评测方面的国际顶级会议。研究生期间,我一直从事着语言资源方面的研究,也有幸参与过几次国内计算语言学界的会议,这些会议大多侧重于算法。然而资源和算法是互相促进的,国内却几乎没有聚焦在语言资源建设上的会议。LREC则是侧重于语言资源,且涉及到全球各种语言的国际性盛会。今年正巧是LREC的20周年,我很高兴能有机会参与本届大会。
程序委员会主席Nicoletta Calzolari致辞
大会开幕式上,著名的捷克语言学家Eva Hajičová被授予了Antonio Zampolli奖,这是国际最重要的语言资源奖。她在布拉格树库方面做出了突出贡献,对捷克语的描写,特别是非投影、图结构的句法、语义表示方法,进行了一系列有成效有影响的研究,推动了多种语言的句法语义表示理论与语言资源建设。
Eva Hajičová被授予Antonio Zampolli奖
作为语言资源方面的顶级会议,本次大会不乏语言资源界的学术大佬们的身影,除了Eva Hajičová外,word2vec的作者Tomas Mikolov,FrameNet的领头人Collin Baker,语音学院士Hiroya Fujisaki,以及国内语言学界的黄居仁、李宇明教授等国内外知名学者都汇聚到一起,共襄盛举。他们之中不乏高龄,但仍旧不停奔波于各个会场,听报告、提问、与人交流,从他们身上,我深深地体会到了对学术的极大追求和学无止境的态度。
Collin Baker在海报展示环节与作者交谈
李宇明教授在“一带一路”语言资源与评测研讨会上发言
虽然有多位学术大牛参会,但本次会议并未单独安排大牛们的专场汇报,除去个别特邀报告以外,其他的口头报告均根据内容分成了不同的session,在不同的分会场同时进行。参会的学者大多都是根据报告内容进行选择,不停辗转于不同的分会场,就这样在匆忙之中度过会议。由于有不少同时进行的session的内容是相关或有重合的,所以很遗憾我没能把感兴趣的报告听全,好在可以在会后查阅他们的论文以作补充。
得益于这是一场国际性语言学会议,有各种语言、各个学派的参与,我了解了多种语言和学派目前的资源建设和研究情况,体会到了文理思维和不同学派在学术思想上的激烈碰撞。总结我所听到的口头报告、看到的海报,以及与其他学者的交流,我有以下几点认识:
首先,我发现语言学研究已经深入到各种语言,各种现象,各种方法,可谓百花齐放,我们在研究中存有疑问的轻动词、同指、词典构建等问题在这次会议中都有所涉及。各种资源的构建形式各不相同,这样的状态其实有利也有弊,一方面,不同形式的语言资源能适用于各种不同的应用;但另一方面,形式各异的资源难以整合,因此也出现了将相关资源进行对应的研究,如将CoreNet映射到WordNet,PropBank与AMR的对齐等。
其次,资源和算法是密不可分的。人工智能的普及已然成为必然趋势,要想人工智能更好地为人类服务,需要语言自动技术的支撑,而自动技术离不开大量的语言资源和算法的结合。即使LREC是以语言资源为主题的会议,其录用的论文中也有大量关于算法的论文。而且,缺少结构性和可计算性的资源在会上受到了较大的质疑。资源其实就是为自动分析服务的,我们构建资源时绝不能脱离计算,必须要打破建资源的人和搞算法的人互不理解的状态。
再次,针对不同语言的研究其实存在共性的难题,比如指代消解、时间空间的表示等,大家都在尝试寻找解决办法,但仍然没能找到完美的处理方案。其实,目前并不存在完美的语言理论和计算方法,未来我们或许可以打破思路,允许多种思想并存,将方法结合,让它们各自发挥优势,互相促进。
对比这次参会和我曾经参与国内语言学会议的经历,我还有两个明显的感觉。第一,高级别会议的学术氛围更为浓厚,即使是海报展示和茶歇环节,大家也都在激烈讨论,不放过一分一秒。这种情况在我以前参与过的会议中不常出现。我们应当改善这种状况,让会议交流时间得到有效的利用。第二,国际会议能更直观地体现出东西方文化的差异,西方学者喜欢聚成一团,积极提问,热烈讨论,东方学者则大多羞于表达;对于学术问题,西方学者更喜欢推陈出新,东方学者则更倾向于择善从之。我认为在学术研究和交流的方式上,我们需要向西方学者学习。
此外,我们的论文《An Easier and Efficient Framework to Annotate Semantic Roles: Evidence from the Chinese AMR Corpus》有幸被LREC的第13届亚洲语言资源研讨会(ALR 2018) 会议录用。ALR是亚洲语言资源方面的重要国际会议,是本届LREC的一个专题研讨会,我在会上对论文内容做了报告。这篇论文基于一种新的整句语义表示方法——抽象语义表示(AMR),研究谓词的语义角色问题,根据5000句中文AMR标注语料统计出了谓词词典的动态覆盖情况;通过与中文命题库(CPB)标注语料库的对比发现,AMR的核心语义关系颗粒度粗细相融,非核心语义关系颗粒度较细,整体表征能力强;并论证了AMR允许增补概念的规定可以有效解决语义角色省略的情况。最后得出,AMR在语义角色标注方面具备独特优势,需要加强中文AMR语料库的建设,为中文句子语义处理服务。
附论文连接:http://lrec-conf.org/workshops/lrec2018/W29/pdf/book_of_proceedings.pdf(P29-35)
可喜的是,在我报告完毕后,多位与会学者当面向我表达了对中文AMR的关注和兴趣,给我们未来研究工作的开展打了一剂强心针,也提供了一些研究思路。
最后我想说的是,很多人对学术会议有误解,认为那是没有意义的,都是旅游的幌子。其实参与学术会议是有必要的,至少对于计算语言学这一涉及多种语言、多个领域的交叉学科来说,会议是及时掌握最新研究动向的最优途径。虽然会议中涉及的研究方向和对象很多很杂,时间和精力很难满足对信息的全面掌握,但参与会议有利于跳脱自己的研究框架,可以较为宏观地了解整个研究领域,避免思维定势,促进错误的改正和新思路的产生。另外,学术交流和进步离不开国际视野和语言支撑,这次我也是硬着头皮用并不流利的英语参与交流,英语水平亟待提高,未来科研仍需努力!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 22:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社