||
说细说一下现在实验的进度吧,主要是实验背景、需要做的工作以及已经完成的工作:
1.实验背景
之前论文都是Penn Treebank上进行的实验,但是这个面要付费。所以我找到另外一个与之非常相似的数据集OntoNotes 4.0。OntoNotes 4.0数据集的目标并不是依存分析,但是Penn Treebank是它的子集(稍有区别)。里边的raw data略有差别,而且标注方法也稍微有点区别。
依存句法分析(传统方法)的实验大致分为三个环节:
1.1 特征提取
1.2 inference算法(多数工作都是集中在这里)
1.3 learning算法(就是参数学习,是个最优化问题,很少有人关注)
这几个算法之间是相互独立的,因此会有很多搭配。
最近两年(新方法)还会引用一些外部知识来提高依存句法分析的准确率:
比如单词聚类、从互联网中提取的知识等半监督方法。
2.需要做的工作
如果在Penn Treebank上进行实验的话,只需要把自己的实验做完与现有的结果进行比较即可。但由于刚才提到的数据集的区别,需要把别人的实验在新数据集上重复一下。需要做的工作有:
2.1 自己实验
在传统方法的基础上添加Propbank信息和WordNet、VerbNet信息。
2.2 别人实验(部分已经要到源代码,还有几个没有联系上)
3.已经完成的工作
之前的想法效果不太好,本周决定使用其他的inference算法来替代原来的。
已经把WordNet、VerbNet相关代码写完,其他的正在进行中。。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社