语料库翻译研究+认知空间分享 http://blog.sciencenet.cn/u/carldy 探索翻译研究新途径,反思语言认知研究

博文

文献计量学在科研中的运用

已有 7780 次阅读 2010-8-5 05:12 |个人分类:读书心得体会 Harvest|系统分类:科研笔记| 教学科研, 文献计量学, Zipf定律, 洛特卡定律, 普莱斯指数

这一次在英国开会期间,认识了一位奥地利的学者,名叫Gernot Hebenstreit。他为人幽默热情,喜欢与我们中国学者交流,并虚心学习汉语。他能不厌其烦地重复我们几个中国学者的名字,直到他认为记住为止。

会后我与他交流研究心得时,他向我推荐一款很好的软件-Mindmanager。他告诉我,该软件可以用来辅佐科研与教学,尤其是在科研笔记中,很有帮助。

他在这一次大会上交流的论文题目挺有意思的Developments in corpus-based translation studiesA bibliometric approach.用汉语表达,即从文献计量学的角度探讨语料库翻译研究的发展。这里暂时不评论他的研究,让我感兴趣的是文献计量学。

这一术语我原来曾看过几篇相关文献,觉得挺有趣的。人类认识事物的角度确是是多种多样的。其实,有时候,我们在科研工作中,稍微改变一点思维方式,就有可能发现新的东西,有时候甚至是独特的发现。

文献计量学是以文献体系和文献计量特征为研究对象,采用数学、统计学等计量方法,研究文献情报的分布结构、数量关系、变化规律和定量管理,并进而探讨科学技术的某些结构、特征和规律的一门学科。这一术语最早由英国人Alan Britchard1969年提出。文献计量学中常用的定律很多,这里笔记下来的,有如下几个:

1Bradford(布拉德福)定律:

布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成 1nn2......的关系。

2Zipf(齐普夫)定律:

Zipf's law, an empirical law formulated using mathematical statisticsrefers to the fact that many types of data studied in the physical and social sciences can be approximated with a Zipfian distribution, one of a family of related discrete power law probability distributions. The law is named after the linguist George Kingsley Zipf  who first proposed it (Zipf 1935, 1949), though J.B. Estoup appears to have noticed the regularity before Zipf.

(该定义引自http://en.wikipedia.org/wiki/Zipf's_law)

用汉语来表达就是:如果把一篇较长文章中每个词出现的频率统计出来,按照高频词在前,低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,以此类推,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有frCC为常数)。

我是学语言学,发现语言研究中,运用ZIPF定律来解释语言现象的研究还不多。《语言与语言词典》指出:“(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C,方程式中F=频次,R=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。

对词频分布规律有许多补充和深化的研究。

词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点。

目前较重要的假说有2个:

1省力原则假说:

提出这一假说的是齐普夫。他认为,在语言交流过程中,省力法则同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。

2成功产生成功假说:

这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近,D.J.de S.普赖斯后来建立了一个相类似的模型,又明确地提出了成功产生成功的假说。

研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。

这对于当前语料库语言学来说,也是一个值得深入研究的话题。

3,洛特卡定律:

洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称倒数平方定律。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。该定律被认为是第一次揭示了作者与数量之间的关系。

4,普莱斯指数:

1971年美国科学家D.普莱斯提出了一个衡量各个知识领域文献老化的数量指标,即后人所称的普莱斯指数,即:在某一知识领域内,把对年限不超过五年的文献的引文数量与引文总量之比当作指数,用以量度文献的老化速度和程度。其计算公式如下:

P(普莱斯指数)=被引文献数量(小于或等于5年)X100/被引文献总量

这些定律,可以对学术期刊评价的指标进行量化比较。

这个话题,暂时学到这。

 

 



https://blog.sciencenet.cn/blog-331736-350091.html

上一篇:向您学习并致敬:王克非教授求学经历感言
下一篇:新学期,新任务,新起点,新挑战,新天地,新成果
收藏 IP: .*| 热度|

5 武夷山 赵星 章成志 刘进平 许培扬

发表评论 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 08:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部