武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

“大概近似正确”的评价 精选

已有 6791 次阅读 2015-1-23 06:30 |个人分类:科学计量学研究|系统分类:观点评述

“大概近似正确”的评价

武夷山

 

   比利时情报学家、国际科学计量学与信息计量学学会会长罗纳尔德.鲁索教授有一篇已被JASIST接受的稿件,题目是 Citation data as a proxy for quality or scientific influence are at best PAC (Probably Approximately Correct)(作为质量或科学影响力替代指标的引文数据充其量是大概近似正确的)。文章主要意思如下。

Leslie Valiant是国际数学联合会设立的Nevanlinna奖得主,也是图灵奖得主。他1984年提出过一个概念叫Probably Approximately Correct (PAC),意为“大概近似正确”。2013年,他又在Basic Books出版社发表了专著,书名就是Probably Approximately Correct(大概近似正确)。

PAC最先指的是ecorithms算法的特点,ecorithms算法能够在算法设计者不了解、不熟悉的环境下运行,通过与环境的交互而学习。这种学习模式不可能是完善的,只能是“大概近似正确”的。

Valiant 用猜测弹珠颜色的例子来说明PAC。罐子里放了不止一种颜色的弹珠,让我们随机抽取一个,然后判断罐子里的其他弹珠是什么颜色的。这时我们可能犯两种错误。碰巧抽到一个罕见色的弹珠,我们以为其他弹珠也是这个颜色,而不知道多数弹珠其实是别的颜色(这就涉及到PAC 的概率部分、“大概”部分);抽到一个“大众”色的弹珠,我们就失去了接触罕见色弹珠的机会,以为所有弹珠都是这个颜色(这就涉及到PAC的近似部分)。但多数情况下,我们还是能正确猜到多数弹珠的颜色。

鲁索认为,除了Valiant讨论的上述两种错误原因(偶然性、罕见性)外,还可能有其他三种错误根源。第一,我们采用的理论自身只是近似的。例如,牛顿物理学是近似的,它只是爱因斯坦物理学的一个特例。第二,算法有时会得出错误的结果。例如,我们寻求全局的优化,而优化算法在找到一个局部最优点后就陷在那里出不来了。第三,数据可能不对。由于我们的感官或仪器的局限性,我们获得的信息只能是近似正确的。

基于指标的科研评价中,上述5种错误源都存在。第一种是偶然性。我们从数据库中随机抽出的样本真的能反映全体吗?更别说,一个数据库收录哪些期刊,剔除哪些期刊,也受偶然因素影响。第二种是罕见性。例如,真正创新的理念仿佛“横空出世,往往被多数专家认为是错误的,即它们在早期获得的是负面评价。Kao(高锟)和 Hockham 1966年发表的关于光频率介质纤维表面波导的论文一开始的遭遇就是这样。第三,理论自身可能有错误。例如,科学计量学领域的作者同被引分析早在20世纪70年代已现端倪,同被引分析的一个步骤是测度相似性,人们曾用皮尔逊相关系数来测度相似性,而直到2003年,人们才指出这是错误的。第四,算法出错。引文只是质量的替代指标,而人们经常用引文指标作为评价算法的输出变量,有时候就会得出错误的结果,比如,Bouyssou & Marchant2011发表的文章, Waltman & van Eck 2012年发表的文章,都指出了h指数的一些问题。第五,数据库的错误。这一点大家都理解。

总之,在科研评价中,应该将文献计量学数据和指标作为同行评议过程的输入。这种输入值几乎不可能是100%正确的,但或许足够接近真实情况,于是评价者仍可适当地利用之。目前的情况,科研评价其实处于无理论指导的框架之中,在此框架中,专家仍能应对,仍能做出足够理性的决策。

鲁索最后引用美国情报学家、JASIST现任主编Blaise Cronin的话:“在实践中,近似的测度(而不是完善的测度)就足够了,且只能如此”。

 

博主:感谢鲁索教授分享其刚刚被接受的论文。

 




http://blog.sciencenet.cn/blog-1557-861961.html

上一篇:一个未来学家对“大忽悠”的看法
下一篇:地球之肚脐

30 孙根年 钟炳 许培扬 杜建 李伟钢 李天成 陈湘明 李学宽 陈楷翰 姜春林 李毅伟 李泳 印大中 赵美娣 杨正瓴 庄世宇 王海辉 罗会仟 王国强 王德华 赵凤光 苏保霞 王兴 王安良 周忠浩 zjzhaokeqin ncepuztf shenlu HLpope qzw

该博文允许注册用户评论 请点击登录 评论 (28 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-11-24 06:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部