dudong的个人博客分享 http://blog.sciencenet.cn/u/dudong

博文

依存句法分析实验进度

已有 3905 次阅读 2013-5-18 08:50 |系统分类:科研笔记| 进度

说细说一下现在实验的进度吧,主要是实验背景、需要做的工作以及已经完成的工作:

1.实验背景

之前论文都是Penn Treebank上进行的实验,但是这个面要付费。所以我找到另外一个与之非常相似的数据集OntoNotes 4.0。OntoNotes 4.0数据集的目标并不是依存分析,但是Penn Treebank是它的子集(稍有区别)。里边的raw data略有差别,而且标注方法也稍微有点区别。

依存句法分析(传统方法)的实验大致分为三个环节:

1.1 特征提取

1.2 inference算法(多数工作都是集中在这里)

1.3 learning算法(就是参数学习,是个最优化问题,很少有人关注)

这几个算法之间是相互独立的,因此会有很多搭配。

最近两年(新方法)还会引用一些外部知识来提高依存句法分析的准确率:

比如单词聚类、从互联网中提取的知识等半监督方法。

2.需要做的工作

如果在Penn Treebank上进行实验的话,只需要把自己的实验做完与现有的结果进行比较即可。但由于刚才提到的数据集的区别,需要把别人的实验在新数据集上重复一下。需要做的工作有:

2.1 自己实验

在传统方法的基础上添加Propbank信息和WordNet、VerbNet信息。

2.2 别人实验(部分已经要到源代码,还有几个没有联系上)


3.已经完成的工作

之前的想法效果不太好,本周决定使用其他的inference算法来替代原来的。

已经把WordNet、VerbNet相关代码写完,其他的正在进行中。。



https://blog.sciencenet.cn/blog-795431-691057.html

上一篇:依存句法分析
下一篇:依存句法分析实验进度
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 09:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部