随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

NLP的机器学习策略反思——为什么有些任务就是上不去

已有 3528 次阅读 2014-5-26 21:20 |个人分类:Computational Linguistics|系统分类:科研笔记

当标注者的一致率不高的时候,这样的问题可能是假的。例如,词性标注、语义标注、句法标注任务,分类标签都是先验的设定的,不同的科研机构还用了差异很大的标记集方案,但是最后的Fscore相距不大。当然,标记集规模会略有影响。现在很值得探讨的问题是,即使一个训练语料标注的一致性较差,机器学习依然可以学得好,接近人工的标注一致性。因为现在的机器学习模型使用了大量的上下文信息,也就是个案优先的标注,可以使得标注精度很高。

看看事实,如果拿人工标注的一致性来计算Fscore,则词性95%,语义70%,句法85%。机器标注的非常接近人的结果。这并不能说明标记集设计的好不好,反而能够看出标注任务本身是不是一个良好定义的、可计算的问题。机器学习模型的强大,往往使得这些任务给人以错觉,彷佛已经可以和人媲美了。而实际情况上,机器模型恰恰把人拿不准的、游移的、错误的地方也一起学去了。

好吧,目前结论是,Fscore低的这些任务,值得从是否可计算本身加以深究,而这正是当代语言学家应该做的。



https://blog.sciencenet.cn/blog-39714-797869.html

上一篇:表音文字的活化石——青年人爱用网络语言的深层动因
下一篇:南京师范大学文学院汉语言(语言信息处理方向)本科专业简介
收藏 IP: 221.226.44.*| 热度|

1 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 07:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部