|||
资料来源:原文载于《学术研究》2015年第11期。
2007年,Amy Finkelstein曾做过一个关于经验研究方法的讲座,开篇一句值得特别强调:这些技巧,我希望当年也曾有人教过我[1]。无论是Finkelstein的学术成就还是受教育经历,都使人无法怀疑,她接受了当今世界最优秀经济学家群体提供的完备训练。从MIT经济系历届毕业生所取得的卓越成就,2009-2012年,更是连续获得四届克拉克奖,可以想见其教授们在训练研究生方面的强大实力。尽管如此,Finkelstein的语气,暗示MIT的教授们忽略了对研究过程和方法技巧的指导。
中国的研究生和青年学者,大多数没有MIT那样的学习、研究和成长环境,也缺少训练有素的教授们组成的导师组进行完备的知识技能训练。如果连Finkelstein都认为给研究生讲解经验研究过程中的方法技巧是有价值的,那么,为了帮助中国的研究生和青年学者找到正确门径,对这个过程作专门的探究就是必要的。
探究经验研究过程的另一个诱因是看到很多大学的经济计量学教师,并不会做经验研究。其中不少人教育背景为数量经济学、数学或统计学专业。他们会解数学题和统计学题——甚至很难的题,但却不知道解这些题有什么用。他们教学生做经验研究,是“瞎子领瞎子”。因此,中国的经验研究总体水平不高。即使在国内最优秀的经济学专业期刊上,对经济计量学的错误运用,也比比皆是。
如果没有良师指点,少数聪明颖悟之士,或许也能学会做规范的经验研究,但这个过程将是漫长的。弗里德曼曾指出:经济学家拥有一套观察、思考和分析问题的独特方法,只有极少数天才,才能偶然地无师自通。我们认真研究了Finkelstein和其他众多介绍经验研究方法的文章后自问:这些零星技法能把中国的研究生领入经验研究的大门内吗?结论是“未必”[2]。因此,笔者想从经验研究的过程入手,尝试为研究生和青年学者寻找正确路径。
揭示经验研究的过程,在一定意义上相当于“手把手地教人”做研究。写一篇规范的论文,与工程师建造一座桥梁,裁缝制作一件服装,具有类似性。本文会例示一些优秀的论文,剖析经验研究论文的产生过程;还要从方法论角度作探讨,使我们对经验研究过程的分析更具一般性。
经验研究不容易,因为它的研究对象是复杂的人类社会,“原因”常被各种混淆性因素所缠绕、遮盖。欲揭示真正的原因,不仅需要理论洞见,还需要掌握众多相关事实和专业方法。即使找到了事件真正的原因,还有各种复杂的技术难题要克服,很多不确定的因素要处理。有些问题可用数据来刻画,另一些问题却只能来自研究者的主观判断。当然,主观证据也要建立在理论和事实的基础上(DiNardo, Lee, 2011)。做经验研究者,都要掌握一套完备的知识体系,但掌握这套知识体系并不保证你能做出好的经验研究。事实为,即使对那些老练的学者来说,要写出一篇规范的论文,仍不是一件容易的事。一年能写出一篇高质量的研究论文,就是生产率非常高的经济学家(Hall,2009)。
一、模仿:倒立的影像
做经验研究是从模仿开始的,几乎没有例外。有经验的导师会选国际领先期刊上的论文,给研究生研读,训练他们掌握经验分析的方法:让研究生认真琢磨作者如何提出问题,如何分析研究对象面临的环境和制约因素,如何利用理论和约束条件构建假说,如何介绍数据,如何设定经验方程,得出什么结论。作者如何处理内生性偏差,如何扩展模型,作稳健性检验等等。鼓励研究生比照这个思路与框架写出自己的论文来。那篇优秀论文作为模板,就立在那里。
通过模仿掌握研究方法是个共识,但大多数研究生并未学会做规范的经验研究。如果他们有锲而不舍的精神,坚持上5—10年,甚至更长,或许会找到正确的路径。但更可能的结果是,大多数人因挫折而放弃。“经济学不是科学”,“我与经济学无缘”,是一个轻松的借口。
难在哪里?
当我们希望模仿一篇规范的经验研究论文时,除了要突破各种知识技能上的障碍,还有一个易被忽略的难点:那是一个“倒立的影像”——“原因—过程—结果”。文章本身并不显示真实的研究和写作过程,甚至误导了读者。真正的研究过程,却是相反的:
我提出了一个问题,接着,找到了答案,然后,还原事件发生的过程;再接着,我猜测事情发生的原因……。当我把一系列的因素都构建齐备后,通过写作过程,把这个“头下脚上”的影像翻转,在一个“规范的框架”里报告出来。
下面,我们开始探讨一个规范的经验研究过程,从作为起点的“选题”谈起。
二、提出问题:科学上可识别
科学研究都始于一个客观事实。经济学也不例外,选题通常来自社会生活中的问题或历史事件。有经验的导师,会鼓励学生去现实生活中找问题(Davis, 2001;Mankiw, 2006)。
(一)选题原则:重要、新颖、科学上可识别
重要,是指问题的社会关注度。通常是现实生活中的重要事情。研究的问题过小,缺少社会关注度,哪怕作者自认为有趣,别人也会认为不值得研究,毕竟,一颗葡萄是难以与人分享的(Stigler, 1988)。有学者曾指出:在转型期的中国,“农民工的工作条件和收入”是一个比“脸蛋漂亮对工资的影响”更有价值的问题。
新颖,包括选题新和研究问题的切入点选得好。新颖的选题,不仅让作者感到有趣,也让读者感到有趣。但太阳下面无新事,对那些天天遇到的事情,大多数人会熟视无睹。一旦作者能从大家熟悉的事实,讲一个别致的故事,也会让人耳目一新。比如,女性地位是个老问题,无论发达国家还是发展中国家,都存在着争论;而性别比失衡,则是发展中国家面临的社会难题。钱楠筠将这两个因素结合起来,用中国市场上的茶叶价格波动来探讨女性收入和其社会地位的关系,并扩展到了性别比这个大问题上去(Qian, 2008)。就选题来说,是个成功的典范。
科学上可识别,意味着对问题的解释能够用经验证据检验。这个命题,你用某个大样本抽样数据可以检验它,别人使用其他的大样本数据,也同样能检验它,会得出一致或近似的结果。这体现了科学研究的可重复性,是客观性的一种经验表现。
可识别的另一层意义是把一个不清晰、不准确的表述精炼化,使之成为一个可以检验的科学命题。这个能力经由训练而获得,每个青年研究人员都必须练就这个能力。
(二)寻找答案
第一,从理论出发去“猜答案”。经济学之所以是科学,是因为他建立在“人性不变”这个准公理性假设的基础上——从阅读孔子、司马迁、修昔底德和普鲁塔克等人的著作,结合我们对自己的反思,对身边人的观察,可以相信,2500年以来,人性是稳定的,古今中外皆然。人性的稳定性,使人类社会有一种内在的和谐,因而是可以认识的。人是理性的,社会资源是有限的,寻求资源的有效配置,是任何国家和社群所关注的大事。以此为根基,经济学发展出一套完备的知识体系。理论能够给我们寻找正确的答案,指出方向。
第二,直接去数据中“偷看答案”。经济学理论是我们解释世界的工具,但它本身仅仅是一套(空洞的)逻辑体系。要想解决问题,必须与问题发生的环境结合起来。这就需要学者熟悉研究对象,了解问题的来龙去脉,只有这样,才能重构事件发生的过程,找到事件发生的真正原因。学者应该在自己的研究对象上,成为真正的专家(List,2011)。你运用理论推理时,可能忽视了环境的影响,但这个影响会体现在数据中。
经验上,常常是先“猜出”或“偷看”了答案,才倒推出特征化事实(Stylized fact)。也可能会走相反的路径:先找到了特征化事实,然后,顺推出事件的结果。因此,研究路径有两个:在理论的指导下,观察一个或多个可信的大样本数据;观察事件发生的过程和结果。
(三)特征化事实
理论为寻找正确的答案提供了方向,但能否发现正确的答案,则不一定。比如,工资水平提高后,人们会增加闲暇时间还是增加工作时间?这取决于每个代理人的效用评价:收入效应和替代效应这两个相反方向的力量谁占主导,是不能先验地判定的。不同的环境,有着不同的特征化事实,“修改了”真实的事件结果。
既然要对假说或推论的结果进行猜测,那么,可能猜对,也可能猜错。猜对了,接着要构建连接问题与结论的桥梁;猜错了,要重新思考为什么结果没有如理论推断那样,里面一定有原因。这个时候,不要轻易放弃。猜对了,你在讲一个合乎经济学逻辑的故事;猜错了,你可以讲一个同样合乎经济学逻辑但更加新颖的故事。这时的关键是弄清环境中有什么特征化事实没有被掌握,以至于你的模型里忽略了它。但一个可信的大样本数据却作证:它就在这里。
由于研究对象的复杂性,马歇尔告诫:经济学家要掌握尽可能多的事实。这些事实帮你修正理论预测的错误。要提醒一点:任何“现象”都“属于”事实,但只有用可信的大样本数据能检验出来的事实,才能称得上是特征化事实。需要借助抽象思维才能理解这个概念。
三、数据:找到答案
(一)数据产生过程(DGP)
洪永淼(2007)认为,经验分析有两个公理性假定:
(1)任何经济系统都可以看作是服从一定概率分布的随机过程。
(2)任何经济现象(经济数据)都可以看作是这个随机数据生成的过程的实现。
以上论断并不易懂。我们从“自然实验”入手,引申一下,更直观地介绍数据产生过程。作个场景模拟:“大自然”在做实验的时候,很少邀请你到现场观摩,更不会慷慨地一边向你演示一边为你解释:他做这个实验的目的,经历了怎样的过程,得到了什么样的结果。但实验结果会被记录在自然界或人类社会里。比如,人口控制政策的出台,导致1972年以后(城镇)独生子女的数量越来越多,在出生队列中的比例持续提高。虽然你没有亲自参观自然实验过程,但你看到这个结果(数据或事实),通过理论训练和分析事件发生时的社会经济状况,可以将事件发生过程重现在头脑中。
我们再回到洪永淼的论断上来。既然是随机的过程,那么,一个样本里包含的信息,既有确定性,也有随机性。没有一个样本能说,自己既“代表着客观事实”又做到了“准确区分”,但一个样本做不到的,用一组样本却可以做到:这组随机产生的样本,观测值越多,代表真实总体的能力也就越大。大样本代表“明天的太阳会升起”;观测值则允许“今天的风随意的吹”。因此,在经验研究中,数据处于关键地位,因为它一头连接着形而上的理论——确定性;另一头连接着形而下的经验现象——随机性。如果数据产生过程是随机的,样本越大,越接近(理论上的)真实。
理论(假说)与数据之间是相互影响甚至是相互诱导的(Heckman, 2015),也就能理解数据的地位有多重要。作者在使用数据之前,要先对数据的适用性与可信性作评估。
(二)数据的适用性和可信性
当你从理论出发,结合研究对象面临的约束条件,刻画出一个故事轮廓了,接着,你需要寻找适用的数据,构建证据链条来检验它。这个链条应该与理论逻辑(故事)的方向相平行,在理论逻辑的每个“节点”,都要有数据结果来“与之对应”。两者之间当然可以调整,以相互适应,但最终能为同行接受的链条,应该是平行且有对应性的。
在寻找数据时,作者面临一个问题:本文的假说能用这套数据进行检验吗?作者需要去研究这个数据的结构,有哪些变量,如何定义的,与待检验假说是否有关,样本多大等等。
数据结构决定了模型设定。同样的命题,使用不同结构的数据都能得到检验,比如,研究工资变化的文献,有使用个人层面微观数据的,有使用城市(地区)层面汇总数据的;有用截面数据或混合截面数据的,也有用面板数据的。数据结构不仅决定了经验方程的设定,时间维度特征的有无,观测对象异质性的不同来源等,还意味着不同的内生性特征和处理手段。最受研究者欢迎的是以个人、家庭或公司为观测对象的微观数据,因为它有坚实的理论根基:经济学模型里必须有代理人[3]。
数据的可信性,也是证据的可信性。由于大多数数据来自抽样调查,那么,样本应该能够代表总体。因此,要重视数据的产生过程。理论上的DGP是评估经验方程中的误差项是否符合高斯—马尔科夫条件,但经验上的DGP则是强调严格遵循科学抽样与调查的过程,处理好调查过程中的关键性细节,得到“最接近随机”的高质量数据——良好地代表了总体。思考与评估数据产生过程在理论与经验上的对应性,是研究者的一个重要技能。只有亲自参与过数据采集过程的学者,才容易理解与把握这种对应性,才敢说对数据的使用“双脚站在了磐石上”[4]。
数据的可信性,可通过不同抽样调查数据的收敛性来评估。面对同一个社会总体,有几个学者都在做抽样调查数据,如果都遵循了同样的随机抽样过程,则不同数据的结果应该是一致的。不同来源的数据,起到了一个互证的作用。研究者应该“在数据上成为一个企业家”,经常搜集和关注不同来源、不同时期的数据结果,同时,经常观察社会事实。不断比对,不断修正,才能在头脑中建立正确的影像——对社会状况的判断和认识。
当数据不支持假说时。可信的数据才能检验正确的假说并为之作证。当两者不一致时,作者就受到困扰:到底是假说错了,还是数据错了,还是两者都错了?假说错了,可以重新构建,如果数据错了,更可能绊倒作者。毕竟,假说来自头脑,而数据却是更严格的外在约束。
数据的有限性。在现实中,没有一个抽样调查真正做到了“随机性”,那么,每个数据都是有缺陷的,研究者应该清楚这个特征,扬长避短。比如,抽样调查数据的汇总结果,常常会偏离真实的结果[5],但,将抽样调查数据用于结构性分析,其偏差就会小得多。
有经验的调查者,通常会对数据做个评估,看自己的抽样数据偏差有多大,朝哪个方向偏。比如,谢宇等(2014)在评估CFPS的质量时,先找一个可信的数据作为基准——第六次人口普查数据,然后,将自己做的抽样调查数据与普查数据作比对,以判断偏差的方向和大小。
(三)数据的解读
数据自身并不会做因果分析。做因果分析的是研究者。他/她要把干预或事件发生的过程弄清楚,构建因果关系的链条和传递机制,展示给读者。读者会运用自己的理解力和判断力,决定是否接受这样的因果关系。在数据提供各种计算结果的同时,要辅以公认的经验事实——数据结果的经验内容。比如,历次人口普查数据都能看到:1959-1961年出生队列,有个急剧的下降。假如国外学者不了解中国当时发生“大饥荒”的事实,就可能作出其他的推测或解释:战争,瘟疫,或者干脆是数据错误。但中国学者却知道这个事实。
数据结果和经验事实必须联系起来。你看到数据结果,要向有经验的学者去请教:“Z老师,人口普查数据里,发现一个现象,当时,中国发生了什么事情?”Z老师会告诉你,那段时间,中国正在推行“晚稀少”生育政策,人口出生率下降,并不是始自1980年的独生子女政策,在1970年代初,就开始下降了。
数据的背后是历史和事实。
(四)对大样本数据的偏好
“自变量要变”。在经济计量学教科书里,这是个公理性的假设。在经验上,它对应着“样本规模”和“变异程度”。从遵循“数据产生过程的客观性”原则看,小样本难题是无解的。无论研究者怎样创新估计方法,再抽样,模拟,等等,方法越复杂,越远离“客观性原则”。因此,什么样的估计方法都代替不了高质量的大样本数据。反过来则可以断言:时间序列方法在经验研究中,不是一个有前途的方法——样本小,内生性严重。很难得出可信的结论。
(五)数据的拷打
我们的内心深处,对“完美的证据”有着本能的渴望。然而,社会问题的复杂性,使我们很难找到“完美的证据”,或者说,根本就“没有完美的证据”。因此,几乎每个学者都有拷打数据的冲动:让数据提供我们需要的结果。
拷打数据的方式,形形色色,但都背离了研究的目标:创造(更接近真理的)新知识以增进我们对生活在其中的这个世界的理解(Stigler,1988)。数据拷打的方法,常用的方法是加权。另一种拷打是模型误设,放一些坏控制变量,以获得主变量的统计显著。
不止一个学者遇到这样的诱惑:把不同产生过程的抽样调查数据混合到一块使用。这固然增大了样本,数据按照作者的需要“招供”,但这里的“样本”背后,没有“总体”。既没有内部有效性,也没有外部有效性。科学法庭上,不接受拷打得来的证据。这是原则。
四、编织故事:步骤与证据链条
(一)编织故事的三个线索
1.问题—结果—过程
现在,问题是清楚的,你也猜出了正确答案,怎么报告研究结果呢?你会发现,问题在认识之河的此岸,而答案却在彼岸。必须构建一个“桥梁”,把两个端点连接起来,读者才能看得懂和会接受。这个“桥梁”,就是证据链条。
搭建证据链条要遵守规范的框架。需要数据和经验事实来充当“建桥材料”,还要有一套完备的知识技能,以组织、运用和剪裁这些材料,依照特定的框架结构展示证据。这个“桥梁”有两个链条:理论上的逻辑线条;经验上的证据链条。
从理论出发,加上中国的特征化事实,可以推论应该出现什么结果,这是“假说”。它在形而上的世界里。在形而下的经验层次上,假说会以什么方式表现出来?这是可以用经验证据检验的“推论”。这时,形而上与形而下两个世界,就有了对应性。这两个链条必须是一致的、平行的。两条线索就像“桥梁的钢筋”,将一块块的“材料”联结起来。经验研究论文必须有两条相互印证的线索,才有可信性。那一个个的桥墩(关键证据)如果不够坚固,文章就有硬伤。
2.问题—推论—结果
不是所有的研究在提出问题后,接着就找到了答案,“桥梁”建设也不总是“从两头开始,向中间靠拢”。这种情况是常见的,从问题出发,不断自我追问:知道了这个事实,又能怎样呢?接着应该做什么呢?就像女孩子编辫子一般,不断地朝一个方向拓展故事链条,直到讲出一个完整的故事。
不少学者有这样的经历:开始动手写作了,但还不知道目的地在哪里。在一步步摸索前进中,找到了答案。“研究—思考—写作”,是个滚动前进的过程(McCloskey,2000)。而Goldin 和Katz 则强调:重写十遍是真正的写作艺术[6]。“十遍”并不仅仅是打理文字,甄选材料,理顺逻辑,调整布局,也可能是修正结果和重新讲故事。
文章写出来了,和最初的设想相比,已变得面目全非。要准备作这样的调整和修改。
3.现象—事实—假说
我们观察到的是“现象”,既混乱又不稳定。要以经济学理论作指导,对这些经验材料进行梳理分析,运用奥卡姆剃刀,保留主干,砍掉枝节,才能从“现象”精炼出“事实”。事实相当于约束条件,与理论相结合,才能推演出假说来[7]。我们将这个思维前进过程概括为“现象—事实—假说”。
假说的构建。就思维过程来说,是从复杂无序的经验层面跳跃到简洁优美的形而上层面。这很像飞机在跑道上滑跑、加速,然后,突然跃起并升入空中。在长长的跑道上,可以视为“现象”,而起飞的临界点,可以被视为“事实”。一般理论和特征化事实相结合产生“假说”那个瞬间,就相当于“跃起”。“假说”,则已经升入空中了。
(二)构建完整的证据链
1.证伪检验
你编了一个故事,怎么能证明你这个故事是创造了更接近真理的新知识,而不是一个自圆其说的逻辑戏法呢?一个办法是做证伪检验,如果没有你所说的那样的原因或传递机制,就不会出现你所论证的结果。证伪检验的延伸,则是要证明其他竞争性假说不成立。
经济学说史上,最大的公案之一是人力资本学派和信号学派之争:双方的预测结果都朝着一个方向,然而,政策含义却是不同的。经验研究不接受“公说公有理,婆说婆有理”:条件一定,正确结果只有一个。如何把这个缠绕结给解开?Waldinger(2010)给出了一个精彩的检验:大学还是那所大学,学生还是最优秀的学生,但大师离开了,毕业生的质量显著下降了。在一个自然实验框架下作证:人力资本假说得到支持。
2.剪裁与布局
为了论证提出的假说,还需要各种相关的事实,作为主观的证据,只有把这些证据材料进行组织、整理、剪裁,纳入到一个合理的框架内,放在设定的逻辑链条上,才能构建出人们能理解的“认知桥梁”来。我们准备的材料或证据,既产生自头脑中的知识存量,也来自“研究—思考—写作”过程中的资料搜集,大多数是用不上的。要舍弃它们,并不容易,因为我们投入了心血,灌注了情感。我们希望把这些证据或材料,都用到文章中去。尤其是一些令我们洋洋自得的内容或“金句”,与作品的整体逻辑(或基调)并不吻合。对读者来说,那是阅读进程中一个讨厌的钩子(hook)。必须剪掉它。重写,是最有效的剪裁手段,能让作者拉远距离,像个中立的旁观者,从思维的偏执中跳出来,客观评价材料在文章中的作用,是否保留。
3.数学工具
有人声称,自己在模型中推导了多少步,才得出了正确的结果。这是一个误导。我们怀疑,没有一个经济学家真的会这样从事创造性工作。直觉和演绎思维在经验研究中起着重大作用,这才是找到正确答案的两个途径。
当我们发现正确答案后,可以把答案以数学的方法来准确表达出来。但,数学既不是我们探索的动力,也不为我们的探索指明正确方向。可以断言:如果用数学推导可以找到正确的答案,那么,就不需要科学家的探索和研究了,买几台功能强大的计算机,就把他们全替代了。好在这不是事实,科学家会不断地改进和利用工具,却不会成为工具的奴隶。
我们会从理论出发推论可能的结果:比如,通过把婚姻市场的结构变化与理性人假设结合起来,推演代理人选择的变化,得出女研究生“宁可在婚姻市场上剩下”的结论(吴要武,刘倩,2014)。但我们是先看到了“女研究生在婚姻市场上剩下”这个“结果”,然后,去倒推“剩下”的原因。婚姻市场收益和劳动力市场收益的此消彼长(trade-off),从理论上能得到很好的解释,在生活中也能观察到这个经验事实。高等教育扩招后,女性占主导地位,却是一个新的特征化事实。美国和其他发达国家的高等教育群体中也有同样的性别特征。这样,就一步步找到了高等教育扩招为什么会导致“剩女”的原因。
始终要牢记的是:经验研究始于一个客观事实,结束于一个一般化的认识——另一个事实,而不是一串数学符号。[8]当研究者不仅找到了正确答案,也找到了传递路径,甚至用形式逻辑将这个过程完整地刻画出来以后,才将形式逻辑转换成数理逻辑。孩子生出来了。那个名叫“数学”的阿姨,馈赠了一件华丽的外衣。数学本身是没有生命的,它装扮了生命。
科学探索中的想象力(直觉与演绎)——建立在训练的基础上,才是我们探索未知世界的真正工具。当然,也不可轻看数学训练在经验研究中的作用:数学训练能让学者更加准确地刻画问题,帮助尖锐化思考,保持思维在逻辑上的一致性,减少出差错的机会。
4.评估研究的可信性
可信性是经验研究的灵魂。可信性不仅来自于科学的设计,还取决于关键性细节的处理。除了把因果关系的传递机制和路径说清楚,还要做到数量关系的准确区分,处理好内生性问题。证伪检验,通常是提供一个反证:本文所证明的相关是因果关系,如果没有本文所指出的这个传递机制,那么,两个变量之间就不再有相关性。稳健性检验——本文的因果关系不仅在逻辑上成立,在数量关系上还非常“结实”。敲上几锤子,故事链条的接口处,都砸不破。
对估计偏差方向的判断,是可信性评估的另一个内容。由于数据不完美,技术有瑕疵,从样本中得到的结果到底有多可信?一个数据样本不能为自己的结果作证,但,如果能找出偏差的方向,无疑是个有价值的信息:现有的估计数值,是朝某个方向偏斜的。
经济计量方法不是一个黑箱,各种回归分析也不是变戏法,因此,要避免欺诈的嫌疑(Leamer, 1983)。Stock(2010)曾经指出,今天的主流经济计量学教材显著不同于20年前,甚至不同于10年前。可信性革命框架是今天经验研究的主流(Angrist and Pischke, 2009;2010; 2014),要把因果关系的传递链条上的每一个重要环节,都清晰地展示给读者。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 18:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社