||
论文评审意见再一则(2016)
武夷山
选题很有意思。
1. 领域分类部分叙述得不清楚。领域训练语料来自哪里?每个类的名称是怎么确定的?
2. 生物学的排序靠后,但为什么选择这个领域呢?作者没有交代。选中的另外几个领域都是排序靠前的。
3. 科学松鼠会不是个人,必须从样本中剔除。
4. 图3的跨学科高影响力用户都符合作者“两个Top100”的定义吗?我表示怀疑。直觉上感到,符合作者定义的跨学科高影响力用户没有那么多。
5. 举例说,有些博文,用作者的方法去分类也许判定为生命科学,但仔细读内容才看出其实是讨论科技政策的,应归入科技政策类。希望作者将跨学科高影响力用户排名前10 的用户取出来,随机抽取一些他们的博文,进行人工分类,以作为参照,看看机器分类的误差有多大。希望作者在“讨论”部分明确指出机器分类的误差及对研究结论的影响。目前的做法,实质上是假定,作者的贝叶斯分类结论一定正确。
建议修改后发表。另外,我对贝叶斯方法不熟,最好找熟悉贝叶斯分类器的学者就本文的方法部分再审一审。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 05:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社