洁云分享 http://blog.sciencenet.cn/u/zhguoqin

博文

[转载]贾里尼克和现代语言处理

已有 2127 次阅读 2021-8-21 21:11 |个人分类:其它|系统分类:观点评述|文章来源:转载

 

贾里尼克和现代语言处理

 

读了吴军教授的《数学之美》,其中的数学原理、数学思想,受益匪浅。特别是其中第7章“贾里尼克和现代语言处理”,我觉得我们的科学界,尤其是教育界,得好好读读的。以下内容学习、摘录自《数学之美》(来源于简书whybask 的https://www.jianshu.com/p/480992408418)。

 

少数有着远大志向的年轻人实际上是非常孤独的。法国的罗曼·罗兰在一战后为那些追求灵魂高尚而非物质富裕的年轻人写下了《巨人三传》(贝多芬传、米开朗基罗传、托尔斯泰传),让大家呼吸到巨人的气息。作者希望把一批大师介绍给有志学子,先从弗里德里克·贾里尼克开始。

谨以本章纪念弗里德里克·贾里尼克博士1932年11月18日-2010年9月14日。

弗里德里克·贾里尼克( Frederek Jelinek)出生于捷克克拉德诺一个富有的犹太家庭,他的父亲是一位牙科医生。承袭了犹太民族的传统,弗莱德的父母从小就很重视他的教育,并且打算送他去英国的公学(私立学校)读书。为了教他学好德语,还专门请了一位德国的家庭女教师。但是第二次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出去,流浪到布拉格。他的父亲死在了集中营,弗莱德成天在街头玩耍要,学业荒废。二战后,当弗莱德再度回到学校时,他不仅要从小学补起,而且成绩一塌糊涂,全部是D,但是很快他就赶上了班上的同学。不过,他在小学时从来没有得过A。

1946年,弗莱德的母亲决定全家移民美国。在美国,贾里尼克一家生活非常贫困,全家基本是靠母亲做点心赚钱为生,弗莱德当时只有十几岁,就进工厂打工赚钱补贴家用。显然,他没有(可能)天天呆在教室和家里,没把时间都花在课本上,他在上大学前花在读书上的时间恐怕连现在一般好学生的一半都不到。

所以我们都不赞同中小学生只会上学考试的教育方式:首先,小学生和中学生其实没有必要花那么多时间读书,而他们的社会经验、生活能力以及在那时树立起的志向将帮助他们的一生;第二,中学阶段花很多时间比同伴多读的课程,上大学以后用很短时间就能读完,因为在大学阶段,人的理解力要强得多。因此,一个学生在中小学阶段建立的那一点点优势在大学很快就会丧失殆尽;第三,学习(和教育)是持续一辈子的过程,很多中学成绩优异的亚裔学生进入名校后表现明显不如那些出于兴趣而读书的美国同伴,因为前者持续学习的动力不足;第四,书本的内容可以早学,也可以晚学,但是错过了成长阶段却是无法补回来的。

现在中国的好学校里,恐怕百分之九十九的孩子在读书上花的时间都比我当时要多,更比贾里尼克要多得多,但是这些孩子今天可能有百分之九十九在学术上的建树不如我,更不如贾里尼克。这实在是教育的误区。

贾里尼克的职业理想先后是律师、医生、工程师,虽然不断在变,但是他通过努力走向成功的志向一直没有改变。

在麻省理工学院,贾里尼克遇到了许多世界级的大师,包括信息论的鼻祖香农博士和语言学大师雅格布森。后来贾里尼克的太太米兰娜从捷克来到美国,在哈佛大学求学,弗莱德经常去邻校哈佛陪着太太听课。在那里,他经常去听伟大的语言学家乔姆斯基的课。这三位大师对贾里尼克后来的研究方向——利用信息论解决语言问题产生了重要影响。我一直认为,一个人想要在自己的领域做到世界一流,他的周围必须有非常多的一流人物。贾里尼克的幸运之处在于年轻时就得到了这些大师的指点,以后在研究境界上比同龄人高出了一筹。

1972年,贾里尼克加入了IBM的语音识别实验室。上个世纪70年代的IBM有点像上个世纪90年代的微软和过去10年的 Google,任由杰出科学家做自己感兴趣的研究。在那种宽松的环境里,贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克之前,科学家们把语音识别问题当作人工智能和模式匹配问题。而贾里尼克把它当成通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架结构至今仍对语音和语言处理影响深远,它不仅从根本上使得语音识别有实用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被 Technology杂志评为20世纪100名发明家之一。

贾里尼克的前辈香农等人在将统计的方法应用于自然语言处理时,遇到了两个不可逾越的障碍:缺乏计算能力强大的计算机和大量可以用于统计的机读文本语料。最后,他的前辈们不得不选择放弃。在上个世纪70年代的IBM,虽然计算机的计算能力不能和今天相比,但是已经可以做不少事情了。

回想起来,基于统计的自然语言处理方法由在上个世纪70年代的IBM奠定,有着历史的必然性。首先,只有IBM有足够强大的计算功能和数据。其次,贾里尼克(等人)已经在这个领域做了十多年的理论研究,且当时正在IBM工作。第三,上个世纪70年代是小沃森将IBM的业务发展到顶点的时代,IBM对基础研究的投入力度非常大。

贾里尼克和波尔、库克以及拉维夫的另一大贡献是BCJR算法,这是今天数字通信中应用最广的两个算法之一(另一个是维特比算法)。

很多年后我和阿尔弗雷德·斯伯格特( Alfred Spector)谈论为什么当初是没有什么语音识别基础的IBM而不是在这个领域有很长研究时间的AT&T贝尔实验室或者卡内基-梅隆大学提出统计语音识别和自然语言处理。斯伯格特认为原因在于没有基础的IBM反而不受条条框框的束缚。这是一个方面,而我强调的则是,大多数时候,很多的历史偶然性背后有着它必然的原因,统计自然语言处理诞生于IBM看似有些偶然,但是当时只有IBM有这样的计算能力,又有物质条件同时聚集起一大批世界上最聪明的头脑。

在贾里尼克到约翰·霍普金斯大学以前,这所以医学院闻名于世的大学在工程领域学科趋于老化,早已经没有了二战前堪与麻省理工学院或者加州理工学院比肩的可能,也完全没有语音识别和自然语言处理这样的新兴学科。贾里尼克从头开始,在短短两三年内就将CLSP变成世界流的研究中心。他主要做了两件大事,两件小事。两件大事是:申请到了很多研究经费、每年邀请世界上20-30名顶级的科学家和学生到CLSP一起工作;两件小事是:他招募了一批当时很有潜力的年轻学者、把他的学生派到世界上最好的公司去实习。10多年后,由于国家安全的需要,美国政府决定在一所一流大学里建立一个信息处理的国家级研究中心( Center of Excellence),贾里尼克领导的约翰·霍普金斯大学的科学家们,在竞标中击败他们在学术界的老对手麻省理工学院和卡内基-梅隆大学,将这个中心落户到约翰·霍普金斯大学,确立了他在这个学术领域的世界级领导地位。

贾里尼克治学极为严谨,对学生要求也极严。他淘汰学生的比例极高,即使留下来的,毕业时间也极长。但是,另一方面,贾里尼克也千方百计利用自己的影响力为学生的学习和事业提供便利。贾里尼克为组里的每一位学生提供从进组第一天到离开前最后一天全部的学费和生活费。他还为每一位学生联系实习机会,并保证每位学生在博士生阶段至少在大公司实习一次。从他那里拿到博士学位的学生,全部任职于著名实验室比如IBM、微软、AT&T和 Google的实验室。为了提高外籍学生的英语水平,贾里尼克自己出资为他们请私人英语教师。

贾里尼克教授在学术上给我最大的帮助就是提高了我在学术上的境界。他告诉我最多的是:什么方法不好。在这一点上与股神巴菲特给和他吃饭的投资人8的建议有异曲同工之处。巴菲特和那些投资人讲,你们都非常聪明,不需要我告诉你们做什么,我只需要告诉你们不要去做什么(这样可以少犯很多错误),这些不要做的事情,是巴菲特从一生的经验教训中得到的。贾里尼克会在第一时间告诉我什么方法不好,因为在IBM时他和他的同事吃过这方面的亏。至于什么方法好,他相信我比他强,自己能找到。

贾里尼克说话心直口快,不留余地。他对许多世界级的大师都有过很多“刻薄”但又实事求是的评论,这此评论在业界广为流传。当然,当一个人真正做出成绩时,贾里尼克还是毫不吝惜地大加赞赏。贾里尼克在40多年的学术生涯中居然没有得罪太多人,可以说是一个奇迹。我想这除了他的成就之外,还在于他为人公正。




https://blog.sciencenet.cn/blog-3344-1300801.html

上一篇:潜山“胭脂井”名再考
下一篇:[转载]Google 阿卡 47 的制造者阿米特.辛格博士
收藏 IP: 223.215.91.*| 热度|

1 张利华

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-2-28 17:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部