Mark Johnson今天下午在南大做了一个多小时的讨论。感觉比较有收获,他是做parsing的,主攻在parsing得到的几十棵候选结果中,筛选出最优的结果。收获总结如下: (1)他说,做研究有2种,一种是做state of the art,一种是做best in the future 5-10 years。这是对基础研究的肯定。 (2)parsing中的特征选择很难(是指在给定的特征集合中做筛选),特征之间往往都是相互关联的。他做了多年的实验。 (3)有指导学习,复杂的学习模型速度太慢,他一般选用感知机模型,快速拿到对比结果,然后再用复杂的模型去训练。CRF在有指导问题上很强,但无指导问题不行。 (4)无指导的学习,在语言习得语料库上有精彩的表现,这是他本来打算讲的题目,后来换成了adaptive learning。他用了多年的贝叶斯和PCFG,发了很多篇ACL和COLing。看来模型未必太求新,把握住自己的东西很重要。 (5)他做了一二十年的parsing,十分熟悉里面的各种问题。关于parsing的未来,他说,应该建立一个包括指代消解、词法分析、句法分析一体化的模型,语义虽复杂,也值得尝试。 (6)解了我一个大困惑,现在的依存文法(比如哈工大)都是等价于树的,没多大用处。 他的回答:依存语法是个不错的语法,英语方面已经取得了不少成果,他尝试得不多,但主攻过中心词驱动的文法和long-distance依存问题。虽然短 语结构到依存树可以自动转换,信息量没有本质增加,但便于计算。对于汉语等语言,短语结构文法没有取得和英文一样好的结果,说明汉语应该改进依存文法。他 特别指出,依存文法的计算现在是两种方法,一种是只做等价于树的parsing,一种是包含不少cross depandency的图结构的文法。英语前者就够用了,汉语当然应该可以改变描写的方法。