dudong的个人博客分享 http://blog.sciencenet.cn/u/dudong

博文

依存句法实验进度

已有 3663 次阅读 2013-6-15 23:23 |系统分类:科研笔记

看看自己在evernote上记的笔记,虽然每天都有进步,还是感觉时间过的太快了!

实验过程中也出现了几个小问题,导致进度没有赶上预期。。。


问题一:特征过多,现在已经产生了2400万个特征。这么大规模的特征训练起来会非常慢。我自己看了一下产生的特征,发现了可以改进的地方

(1)数词可以合并,许多句子中都包含有像1,12,157这样的数字。但是数字对于整个预测来说是没有什么价值的,因此可以将所有的数词不加区别的对待,这样可以减少一些特征。现在正在敲这个代码

(2)单词聚类信息:由于训练集中只有31000句话,因此覆盖的单词还算是比较少的,因此存在数据稀疏问题。我打算使用WordNet来处理名词、形容词、副词;使用VerbNet来处理动词信息。这个代码以前写过。。。需要写的代码就是把这些信息提取出来作为特征加入到模型中去。


问题二:模板本身也应该做为特征考虑进去,在inference时需要把模板的权重信息加入考虑。


另外一个比较纠结的事情就是数据集的问题,现在手头上的数据集是OntoNotes 4.0,别人都是用的Penn Treebank。虽然相差不大,但是实验没有说服力。。。。

需要抓紧时间了



https://blog.sciencenet.cn/blog-795431-699822.html

上一篇:依存句法分析实验进度
下一篇:依存句法实验进度
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-30 00:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部