||
当标注者的一致率不高的时候,这样的问题可能是假的。例如,词性标注、语义标注、句法标注任务,分类标签都是先验的设定的,不同的科研机构还用了差异很大的标记集方案,但是最后的Fscore相距不大。当然,标记集规模会略有影响。现在很值得探讨的问题是,即使一个训练语料标注的一致性较差,机器学习依然可以学得好,接近人工的标注一致性。因为现在的机器学习模型使用了大量的上下文信息,也就是个案优先的标注,可以使得标注精度很高。
看看事实,如果拿人工标注的一致性来计算Fscore,则词性95%,语义70%,句法85%。机器标注的非常接近人的结果。这并不能说明标记集设计的好不好,反而能够看出标注任务本身是不是一个良好定义的、可计算的问题。机器学习模型的强大,往往使得这些任务给人以错觉,彷佛已经可以和人媲美了。而实际情况上,机器模型恰恰把人拿不准的、游移的、错误的地方也一起学去了。
好吧,目前结论是,Fscore低的这些任务,值得从是否可计算本身加以深究,而这正是当代语言学家应该做的。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社