随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

NAACL 2012 见闻

已有 4892 次阅读 2012-6-4 02:54 |个人分类:Computational Linguistics|系统分类:科研笔记

This is my first time to attend an international conference abroad. Montreal is raining, 16C, something cold. The air is clean and there're few people walking on the streets. The first day, I went to see the St. Laurence River, which is as black and dirty like any river in China. It proves the great law: polution first, protection when rich.
回来后接着写,老实回归中文,Idol是本届大会最有趣的环节。四位大佬分别推荐一篇不是自己写的论文,做15分钟的陈述,然后由3位评委和广大观众打分。这四位大佬推荐情况如下:
•    Eugene Charniak: Kenneth Church, Empirical estimates of adaptation: the chance of two Noriegas is closer to p/2 than p2概率估计问题
•    Graeme Hirst: Varol Akman, Rethinking context as a social construct
•    Ray Mooney: Robert Wilenksy, PAM. In: Inside Computer Understanding 人工智能的思辨
•    Mari Ostendorf: Srinivas Bangalore and Aravind K. Joshi, Supertagging: An Approach to Almost Parsing
老Charniak当天过生,全场哼唧了一把happy birth,但得分并不高。Mooney上场翻开ppt,跳出一个super man的图片,全场哄堂。他淡定地说了一句:It's not mine。讲得激扬,全场和裁判都为之一振。Ostendorf最后出场,是唯一的女性,super man是她的噱头。不过这噱头生发得不如Mooney,输掉了比赛。
三位评委也绝非等闲之辈。Jason Eisner, Philip Resnik和Lucy Vanderwende口上不饶人,个个犀利、挑剔。Eisner略显沉稳,Resnik夸张风趣,Vanderwende故弄悬念。做博士论文时,就参考了Resnik的论著,收获不少,看他主页上的照片,觉得比较活泼。这回见了真人,活泼大了,在banque上炫舞最者也。
最佳论文有3篇,仍然是算法为主,值得注意的是2篇皆为Google所为。
Trait-Based Hypothesis Selection For Machine Translation
Jacob Devlin and Spyros Matsoukas
Raytheon BBN Technologies

Cross-lingual Word Clusters for Direct Transfer of Linguistic Structure
Oscar Täckström1, Ryan McDonald2, Jakob Uszkoreit2
1SICS / Uppsala University, 2Google

Vine Pruning for Efficient Multi-Pass Dependency Parsing
Alexander Rush1 and Slav Petrov2
1Massachusetts Institute of Technology, 2Google Research
随后的poster的quick show也非常有趣。每个poster讲者只有1分钟的时间介绍自己的工作,每人一页ppt,串成几十页内容,排成一队,挨个演出。1分钟到了,全场鼓掌,既是喝彩,也是警告时间到。有一帅哥得到了最多的掌声,他从容上台,右指噼啪,脚踩节拍,将ppt唱成一首完整的rab。全场上下无不为之倾倒、拍手,其势头俨然盖过了full paper讲者们的朴实。
还是想说说会议第一天的讲习班,我旁听了两个讲习班的内容,都跟语言学相关,一个是你必须知道的100个语言学常识,一个是语言中的否定和情态。可是并没有听到我想听到的内容。仔细想想是这样的。主讲者所说的都是遵循语言学家标注语料库-->机器学习处理语料的框架,讲讲语言学知识而已。而我关心的问题是,在大规模语言资源建设的过程中,究竟发现了哪些不同于语言学理论的东西,特别是标注体系在调整过程中发现的问题,大规模语料上的统计性现象和规律。也许当年Quirk的英语语法大全做得太狠,这些问题都解决了,都纳入了英语的语法描写之中了。也许是我太想知道汉语的情况,而人家偏偏不做汉语。
倒是计算机出身的人做的研究往往给人启迪。记得去年有篇论文,统计了英文微博数据中的单词拖长现象,ooookkkkk等形式居然非常高频,在汉语微博当中这样的现象也不少。能够统计、处理、还原,是NLP的做法。计算语言学所应关注的还可以是重复的作用和形式。为什么是ooookkkk而不是okokokok。微博语言的垃圾数据,可能正是语言机制的很多凝练表达。这样跨语言的研究,可以发现人的语言认知、编码、解码能力。当然啦,我想的有的不食烟火。再想想看吧,呵呵
(to be cont.)

https://blog.sciencenet.cn/blog-39714-578282.html

上一篇:八卦一下TED2011最佳主讲Deb Roy(儿童语言习得研究达人)
下一篇:蒙城印象
收藏 IP: 124.160.210.*| 热度|

1 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-19 23:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部