|
看看自己在evernote上记的笔记,虽然每天都有进步,还是感觉时间过的太快了!
实验过程中也出现了几个小问题,导致进度没有赶上预期。。。
问题一:特征过多,现在已经产生了2400万个特征。这么大规模的特征训练起来会非常慢。我自己看了一下产生的特征,发现了可以改进的地方
(1)数词可以合并,许多句子中都包含有像1,12,157这样的数字。但是数字对于整个预测来说是没有什么价值的,因此可以将所有的数词不加区别的对待,这样可以减少一些特征。现在正在敲这个代码
(2)单词聚类信息:由于训练集中只有31000句话,因此覆盖的单词还算是比较少的,因此存在数据稀疏问题。我打算使用WordNet来处理名词、形容词、副词;使用VerbNet来处理动词信息。这个代码以前写过。。。需要写的代码就是把这些信息提取出来作为特征加入到模型中去。
问题二:模板本身也应该做为特征考虑进去,在inference时需要把模板的权重信息加入考虑。
另外一个比较纠结的事情就是数据集的问题,现在手头上的数据集是OntoNotes 4.0,别人都是用的Penn Treebank。虽然相差不大,但是实验没有说服力。。。。
需要抓紧时间了
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:23
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社