赛义甫的个人博客分享 http://blog.sciencenet.cn/u/saif 逻辑学、数学、计算科学、语言学和哲学——关于形式科学的思考

博文

语言和语言学 精选

已有 2437 次阅读 2017-9-12 03:47 |个人分类:语言学|系统分类:科研笔记|关键词:语言 语言学

本人从事语言学研究多年,从早期的结构主义语言学到20世纪后半叶的生成语法理论,再到范畴语法及其各种变种、Montague语义论。随着时间的流逝,我对语言、语言学理论、各种语言学理论框架、流派认知也在发生着改变。这种改变可以归结为一个从逻辑学角度是同义反复的命题:语言学是研究语言的学问。而关于语言的理论、框架、流派等语言之外的东西,仅仅是人类为研究语言开发的工具,而不是语言本身。

语言的概念,自17世纪末莱布尼兹提出"characteristica universalis"(直译:通用表意文字——普遍语言)后开始扩大,除了天然存在的自然语言,开始出现为了某种特殊目的人工语言,例如“世界语”(Espenranto),就是人类为了排除自然语言多样性和复杂性的伟大尝试。除此之外,随着数学、逻辑学、计算机科学和其它自然科学的发展,近几百年来还出现了大量的形式语言。这些形式语言和自然语言相比有几大特点:1) 语法规范简单;2) 语义明确、可形式定义,对应相对单纯、单一的应用场景;3) 词表和词表元素简单,范畴分类没有一对多、多对一和多对多的情况;4) 由于使用场景单一,对“语境”和语用的形式化定义成为可能。最后,我认为,这些形式化语言的研究,为研究自然语言提供了方向。

遗憾的是,关于自然语言的现代语言学研究,并没有人工语言的位置,也没有古代语言的位置,现代语言学只关心目前人类正在使用的、活的语言的的研究,这就造成了现代语言学的传统研究重点是语音学和音位学,这也是上世纪1950年代前欧美占统治地位的结构主义语言学的昌盛的主要原因。生成语法出现后,句法成为了语言学发展的主流,占据的语言学研究的绝对统治地位,其原因之一就是:任何母语话者都可以随时产生从未说过的“新句子”,因而句法学的研究关注的正是人类语言知识的这个“创造性”侧面,而不仅仅是对语言对象的静态描述、整理和分类。生成语法将这种创造性能力归结于大脑的生物学特性——语言学,归根到底就是生物学。

人工语言的出现,特别是计算机语言的普及,让我们见证了人类不但作为语言使用者而且作为语言创造者的“非凡经历”,这使得在彻底探明大脑的语言能力机制之前,能够在一个小范围内理解语言产生、获得、理解、生成的全过程。这样的研究,比目前将语言学看做是生物学黑洞,在未明的大脑机制外面打转转,提出什么假说、理论框架更具有科学性和实验性。

自然语言的研究,实际上是对一个不可控的复杂系统的研究。在究明其本质之前,目前所有的研究方法,只有两种性质:一、假说性质;二、统计性质;按照前者的方向,自索绪尔起,我们已经经历了太多的语言学流派,理论、框架;按照后者的方向,自上世纪1970年代,产生了基于统计概率的自动学习的自然语言处理技术;到目前为止,基于后者的理论已经开花结果,我们在日常生活中已经感受到了基于这种理论所产生的技术以及由这种技术对我们生活的改变。

这并不是说前者没有价值,相反,自《句法结构》以后所产生各种语言学理论、流派使人类对语言有了更深刻的认识,对自然语言的共性——普遍语法的原则 ,和各种语言的复杂多样的个性——参数,可以用一个统一的视点观察;不过这些观察只是外在于大脑机制的观察——很难验证这些观察是否是对大脑语言机制的正确描述。

对复杂系统的研究和认知,可以从软件工程学到一些东西。当面对开发一个复杂的软件系统时,基本的方法并不是直接面对复杂问题的细节,而是先去建立一个缩小版的、简化的、复杂度可控的、可立即、直接得到结果和反馈的“原型”(prototype),通过对原型的观察、处理和反馈,找到复杂系统的核心机制,在这个原型基础上一点点扩大规模和复杂度,最终达到目标工程的要求。

语言学所研究的对象——大脑中形成的潜在的语言知识(covert knowledge),可以说是人类所能产生的知识中最为复杂的,使得问题更困难的是,这个知识不是“能动”地产生的,而是基于一种神秘的、尚且未知的天生的“语言能力”被动产生的。无论是语言学家们现在所拥有对自然语言的显性知识(overt knowledge),还是研究这种超复杂、混沌的(overcomplicated and chaotic)现象可以使用的工具,都无法直接面对其复杂性,况且这种直接面对复杂现象的接近法从科学研究的角度完全是不可行的。

因此,对自然语言的科学研究,必须用科学的方法——具体地说就是,缩小规模,减少其复杂度、在一个句法、语义、语用、语境多维度可控的空间,研究自然语言普遍性的某个子集。这种研究法——始于Montague的形式语义学研究,以及现代的范畴语法研究,被证明是最有科学意义的研究。如果单纯从复杂度的角度以统计学为工具进行研究,那么所谓语言学仅仅是“复杂性”研究的一个实例而已。例如大家都在使用的Google翻译,就是一个绝好的例证。其翻译引擎没有关注特定语言对(language pair)的对应机制,而只是用一个统一的学习算法、只关注其学习对象的复杂度和具体的使用实例就可以把握两种语言文本的句法和语义对应。 这对语言学研究,对我们认识什么是语言是不是有深刻的启示呢?

因此,我的关注重点从现存的语言学理论、框架、假说、流派,转移到关于语言的更基础的问题——什么是语言?应当如何研究语言?语言的实质是什么?这种研究的精神是探索性的,这里所定义的“语言”,包括自然语言、计算机语言、逻辑形式语言,以及作为语言研究工具的古汉语。

古汉语,应当作为一个和现代中国官方语言——普通话相区隔的另一个语言系统。本人并不想成为古汉语研究专家——我们已经有了足够多的古汉语专家——这里只是发现了古汉语作为形式系统的表述语言的一些独特的形式特性——形式上的简单性和节俭原则(formal simplicity & ontological parsimony)、语义的可重定义性(redefinability in semantics),语境敏感性(context sensitivity),以及一个尚未能表述清楚的特性——函项组合性(functional combinability)。这些问题容后陆续展开。如果这项研究能够产生建设性的成果,那么古汉语很有希望在未来的形式系统中充当元语言的角色。



http://blog.sciencenet.cn/blog-2349385-1075489.html

上一篇:从逻辑走向计算——概念篇
下一篇:数理逻辑发展的基本动机
收藏 分享 举报

9 李颖业 柴栋梁 赵克勤 林建荣 蒋永华 刘钢 advogato xlsd xiyouxiyou

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-12-18 22:40

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部