随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

CLSW2020词汇语义学在线会议观感 精选

已有 3869 次阅读 2020-5-29 16:04 |个人分类:Computational Linguistics|系统分类:科研笔记

新冠病毒改变了这个世界。现在的学术会议大都取消或网上召开,词汇语义学会议也不例外。

已经记不清参加了几届会议了,但是无疑这次会议的印象最深。在去年投稿之际,我们就很纠结,香港,投还是不投?我无法去香港开会,学生都很想去,我哪儿有那么多经费烧呢?可是去年在北京召开会议时,就已经确定2021年在南京师范大学召开,我们不投稿也说不过去。往届我们平均会投五六篇论文,中3篇左右。好吧,投一篇试试看,让学生去练练,中了口头报告才能去开会。

待到二月份、三月份,一切都因病毒而改变。大会发来邮件,取消了实体会议,可能转线上,并且退还注册费。看到这条消息,真是肠子都悔青了。如果让学生多投稿就好了,练练写作,看看审稿意见,又能免费线上会议,很是完美。

真正到了开会,发现会务组的安排特别仔细,居然有主会场,让人感觉还是有传统会议的样子。另外,还有信息很详细的网站,每篇论文都挂在上面 ,而且有讨论区、微信群给大家讨论。

网络会议,兼顾了国内外的参会者和听会者。参会者基本上使用zoom,有各种不同的发言权限,正式会议代表才能进入zoom,在听会时只能举手提问。而会议还使用了youtube、斗鱼,来向没有注册的观众开放直播。而斗鱼也没有让会议方失望,基本上保持在1500+观众的状态,有时还突破了3000。这对于以往的会议来说,也是极大的超越。以前这会的规模只有150-300人,没有直播,受众也就比较少了。而网络直播吸引了汉语、外语、对外汉语教学、计算语言学等领域的师生,甚至社会人士来观看,使得观众数扩大了十倍左右。

对于原计划无法参会的我来说,真是赚到了。许多学者,我也是第一次见到,比如Goldberg、董秀芳和陶红印,虽然不是面见,至少是实时视频。听了他们的讨论,也更了解了他们的理论和观点。

 

Church和周明老师的观点,都谈到了一个老话题,语言学和机器学习的关系。他们谈到,虽然NN很强,取得了许多突破。但在某些任务上,即使计算硬件上去了,算力上去了,依然提升很有限。需要考虑如何依靠现有的计算资源取得更好的效果。多轮对话现在NN处理的不好,需要常识知识,需要知识图谱,需要和语言学结合。

但我觉得并非如此,一方面是算法的问题,一方面是问题本身没有定义好,算法和问题并不匹配。可以预见的是,十年后的机器学习模型一定比现在有更多的提升,但有些问题如果不解决建模问题,仍然做不好。以语义角色标注SRL和句法分析为例,词语之间的支配关系可能性非常之多。不管模型有多强,都没有解决一个根本问题,就是语言不可以只做单句分析,它需要上下文,需要大语境。还有对说话人和听话人基本上都没有建模,不考虑这两个人的知识背景,仅仅依靠单句信息,不管预训练模型有多强,都是药不对症的。

对领域知识不了解,认为现在的模型对领域知识集成度不够。其实,领域知识,比如法律、医学,往往是领域专家的个体经验,并没有直接服务于神经网络的知识库。需要领域专家学习一番机器学习的基本技术,然后共同设计制作适合计算的知识库。

当然啦,还是先引用一下冯志伟老师的那句话“为了适应信息时代语言学研究的新发展,语言学家有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言学家责无旁贷的任务。”

我的补充是“计算机学家数学好,其实他们学习和了解语言学很有优势,他们来学语言学之后,可以更好地推进语言计算和应用”,且“语言也是一个复杂的心理现象,不只是计算机的问题,而是要结合神经生物、心理学、社会学等各领域的发展,用数学建模,用机器存储和计算,来实现我们希望的那个语言智能”。




http://blog.sciencenet.cn/blog-39714-1235524.html

上一篇:网络上大量的字母符号代汉字现象虽不规范,却体现出教育水平的整体提升
下一篇:“学着玩,玩着学”是坏毛病吗?

3 高铭 黄永义 吴斌

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-7-2 16:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部