查看原文
其他

张永健:量化法律实证研究的因果革命 ︱ 中法评

张永健 中国法律评论 2024-02-05

《中国法律评论》于2014年3月创刊并公开发行,是由中华人民共和国司法部主管、法律出版社主办的国家A类学术期刊,刊号CN10-1210/D.

订刊电话:010-83938198

订刊传真:010-83938216



张永健

台湾地区“中央研究院”法律所研究员

法律实证研究数据中心执行长


量化法律实证研究方法在两岸都日益盛行,但大多数文章仍在寻求精准描述与发现相关性。但与此同时,对于英文的量化法律实证研究,学界已经迈向以因果推论为中心的研究范式。本文扼要介绍六种因果推论的研究范式:实验、断点回归、双重差分、工具变量、配对、事件研究法;并以法律相关的量化法实证研究文章为例。本文目的不在于完整介绍方法或指导统计软件操作,而在于提示入门实证研究者因果推论的研究设计方式。

 

目次

一、前言

二、实验

三、断点回归

四、双重差分

五、工具变量

六、配对

七、事件研究法

八、结语


本文首发于《中国法律评论》2019年第2期思想栏目(第135—141页),原文6000余字,为阅读方便,脚注从略,如需引用,请点此参阅原文。



前言

 

本文旨在扼要介绍量化法律实证研究范式下,发现因果关系的六种主要研究设计。


量化法律实证研究范式刚经历了因果革命:如果研究无法作因果推论(causal inference),只能发现相关性(correlation),或只是作描述统计(descriptive statistics),就很难登在美国第一流的期刊。


这对我国大陆和台湾地区的法学研究者都有影响。

 

一方面,如果法学研究者想用英文在国际法律实证期刊发表实证研究成果,必须要遵守美国学界的游戏规则,跟上最新的研究脉动。虽然像Journal of Empirical Legal Studies这样的顶尖SSCI期刊,并不要求因果推论,还可以接受研究者以高质量的数据与分析,作描述统计,或者发现相关性,但完全不宣称发现因果关系——只要论文有七分证据不说八分话。

 

而如果要投稿到实证法经济学(empirical aw and economics)的期刊,则大部分的编辑或评审人比较有兴趣知道因果关系。这是因为,在美国的法律实证研究,经过了大约20年的发展,许多该做的描述研究已经完成;而在统计学界,因果推论的数学理论或统计工具也已经发展完备。


数据越来越多,只是单纯描述已经无法满足法律与社会科学的研究者,他们想要知道因果关系。知道因果关系并没有错,但是做起来当然并不简单。

 

掌握了因果关系,就是掌握了笔者和王鹏翔的文章所说的“差异制造事实”(difference-making facts)


差异制造事实就是因果关系:一旦知道A会导致B,或者是P的出现会增加Q上升或下降的机率,就可以在制定政策或法律时,用为推论的基础。换言之,差异制造事实,或因果关系,具有规范性(normative)的意涵。


譬如,一个很经典的刑法学研究题目:警察人数增加是否会降低犯罪率,还是多聘警察无助于减少犯罪。


这个看似非常单纯的问题,却不容易有简单清楚的实证答案。统计相关分析的结果,往往是警察人数上升跟犯罪率或犯罪人数的上升有正相关。


其背后的原因可能是犯罪率先上升,而警察就被调到犯罪率上升的地区来防治犯罪,或者是有新的警察被聘用来防治犯罪。但是也有可能是《庄子》所说的“圣人不死,大盗不止”,即警察的来临刺激了犯罪的出现。后者或许有一点无稽,但是即使相信前者,警察人数上升对于打击犯罪的效果如何,仍不得而知。


到底应该增加警力,还是降低贫穷,或是提供社会福利,才是打击犯罪最有效并低成本的手段?此时就需要好的因果推论。

 

但另一方面,华文法学通行之处,法律实证研究才刚开始发展;法律实证研究的学者还在摸索,也还在与其他法学者沟通、磨合。一开始就跳过其他法学者能接受、理解的描述统计,直达因果推论,在各方面都不容易。


所以,或许华文法学世界的法律实证研究者,需要“两面手法”的写作策略,以中文和英文下笔时,针对不同的阅读受众写作不同内容与取向的文章。

 

要作因果推论,有六种方式在行内比较被接受,以下分别介绍之。


在法律实证研究的方法论文献中,此种“研究设计”(research design)的妥当与否,被认为是法律实证研究的关键。如果读者在英文文章中读到“识别策略”(identification strategy)一词,就是指研究者认定因果关系的研究设计。

 

实验

 

我们可以做自然的现场实验(mtural field expe­riment)或者是实验室中的实验(lab experiment),

 

这两种实验的重点都是,将接受检验的人随机分为两组,使这个实验组与对照组里的人,在各个能够观察到并可能影响人类行为的各种特征分布都一样,例如性别、年纪,甚至宗教、居住地区等特征。


当然可以有不同的实验组去实验不同的刺激(stimulus;在实验情境中可以指涉treatment),是否会造成不同的行为反应;此时仍然要将受试者随机分为不同的群组。


在实验中,因为实验组跟对照组只有刺激不同,由实验设计者所操控,所以要知道行为的结果是否源自实验的刺激,就非常容易,甚至只需要比较行为反应的平均差异即可。

 

自然的现场实验在经济学界以约翰·利斯特(JohnList)的研究最为知名。


利斯特和史蒂文·莱维特(StevenLevitt)等教授,用自然的现场实验来探究提升学生学习成果的较佳方式。之所以称为自然的现场实验,是因为研究就在教育现场(学校教室)完成,并不是将老师和学生放到经济学实验室答考卷。现场实验的参与者,基本或完全不会感觉自己在参与实验,但其身为实验组或控制组又是随机分派的结果。


实验结果发现,无论是要给老师教学激励,还是给学生专心或努力的激励,在“不给钱”(控制组)、“先给钱,考不好收回”、“考得好给钱”(后两者为实验组)之间,“先给钱,考不好收回”在美国的中学最有效,原因是行为法经济学的“损失厌恶”(loss aversion)理论——同样金额的金钱诱因,损失的痛苦大于获得的快乐,所以“先给钱,考不好收回”较为有效。

 

年轻学者刘庄,最近在法经济学最顶尖的期刊,发表了一篇精彩的论文,讨论了实验室中的实验。刘庄以现任的中国法官做实验受试者,案件争点是伤害罪的被告身怀巨款遭抢时奋力反击。该被告行使正当防卫是否阻却违法。


实验组的法官在发下的材料中得知:刑事被告防卫时所夺回的钱是贿款;控制组的法官没有获得此种信息。两组法官又各被分到三种情形:直接决定刑度、先说理再决定刑度、决定刑度再说理。


直接决定刑度的法官,实验组法官判决刑度显著高于控制组法官;先说理再决定刑度的法官,实验组与控制组的法官所宣判的刑度在统计上没有显著差异。因为是否为贿款与是否为正当防卫无关,刘庄的实验说明了,要求法官先说理再决定刑度,有助于帮助法官驱除下意识的道德偏见。

 

断点回归

 

断点回归(Regression Discontinuity)是比较两群团体之表现是否不同;而团体之界分是某个外在、武断的区分标准造成。


一个公司法上的经典例子是美国知名的公司法律实证研究学者伯纳德·布莱克(Bernard Black)等人对于韩国公司的研究。

 

韩国的公司法在1999年强化了资本额两兆韩元之上公司的董事会独立性。两兆韩元是恣意决定的结果(如果立法者刻意为了避开管制某间公司而设定此标准,则断点回归就失灵了),很多公司的资本在两兆韩元之上与之下,也不当然跟治理机制选择有关,但是就因为资本额的差异使标准之上的公司受管制,标准之下的公司不受管制。


这个方法的重点是,研究者必须比较资本额刚好是在两兆韩元上下的公司,不能去比较九百兆韩元或者是比较一百万韩元的公司,因为那些公司本来就跟其他公司差异很大。

 

另一个例子:瑞恩·巴布(Ryan Bubb)想探究政府政策或法定制度是否影响人民行为,于是比较非洲加纳和科特迪瓦两国边界的人民。


两国边界在20世纪初划定时,有约一半是依据武断的直线,将不少同一种族的人划分到两个不同国家。研究当时,两个国家、同一种族的人的习惯物权法仍然相似,但法定的财产权制度以及农业政策却大不相同。


利用武断国界造成的不连续,即可探究农业政策是否影响农民的人力资本投资,以及立法制定的财产权制度是否影响实务(前者答案为是,后者答案为否)。

 

双重差分


双重差分(difference indifferences)的研究设计中,通常有两个地区,一个地区受到某种管制或外生因素的影响,另外一个地区没有;而受管制的地区又分为管制前和管制后,所以一共有四个区块(表1的1、2、3、4)。


研究者在乎的区块是受管制的地区(2)受影响后的转变;而其他三个区块(1、3、4)则是比较的基准。


所谓双重差分,就是指[(2-1)-(4-3)]之差。此种方法背后的预设,必须要满足的基本条件是:受管制地区跟未受管制地区在受管制前(1、3)其实是基本相似的,至少两者的趋势即便不同也要平行。

 

双重差分可以用笔者最近的一篇文章来说明。该文观察我国台湾地区2011年“公司法”修法,改变董事选举投票规则的影响。在2011年之前,“公司法”的默认规定(defaultrule)是累积投票制(cumulative voting),但容许公司可以选择别的投票方式;一共有20家公司改采了多数决(majority voting)。

 

在2011年的时候,立法机关突然通过了新的法案,只修正这个制度,将累积投票制又改回强制规定(mandatory rule);有18家公司受到了外生冲击(2家在修法前自行改回累积投票制),但其他八百多家公司却没有受到影响,因为他们本来就采用累积投票制。


研究者要区别的就是在修法前、后,受影响的公司与不受影响的公司之间,是否可以看出强制要求对少数股东有利的投票方式,增加少数股东的董事、监事席位。


该文发现,只有立法之后第一次的董事、监事选举季节,控制股东掌握的席次比率降低,但在之后的3年则没有产生统计上显著的影响。

 

工具变量

 

“工具变量”(instrumental variable)在经济学领域里面非常常见,但是工具变量可能也是最不容易掌握、让人“自我感觉良好”的一种方法。


伯纳德·布莱克就曾经回顾既有文献,批评了知名学者仍使用了错误或不够精致的工具变量方法。

 

工具变量为实证研究解决“鸡生蛋、蛋生鸡”问题的方法,例如前述相关性研究发现高犯罪率地区有比较多的警察,但高相关性无法告诉我们是警察多导致高犯罪,还是罪犯多的地方会加强警力。要知道孰为因孰为果,就需要借助工具变量。


举例而言,好的工具变量可以影响警力变化,但不会直接影响犯罪多寡,只会借由警力的变动而影响犯罪率。在林明仁的研究当中,他选择了“美国各州的消费税率变化”作为工具变量。他的逻辑是消费税率些微增加,不太可能直接影响杀人放火的频率;但州政府税收增加往往就会多聘警察、维持治安。故若发现消费税率上升,犯罪率就下降,则可证明警力增加有助于打击犯罪。


而林明仁教授的发现是:大概百分之十的警力增加可以减少10%的犯罪率。

 

林明仁的指导老师,芝加哥大学知名的经济学家史蒂文·莱维特则是用工具变量研究此问题的先驱。他使用美国每四年的选举周期作为工具变量。因为在选举之前,现任的州长会有诱因要提升警力,降低犯罪率,以增加连任机率,因为选民都很关心治安问题。


四年一次的州长选举应该不会直接影响到犯罪率,除非有人因为看太多政论节目而被逼上梁山或愤而铤而走险,否则选举和犯罪率理论上没有关联。但是州长选举会跟警力增加、治安变好有关,前者是后者的驱动原因。这个研究也发现,警力增加确实降低犯罪率。

 

简言之,工具变量与研究者有兴趣的解释变量有密切关系,但工具变量和被解释的变量理论上无直接关系。透过这两重关系,使用“两阶段最小平方法”(Two stage Least Squares),就可以使用工具变量以得到好的因果推论(警察出、天下平)。

 

配对


第五种因果推论的方法是“配对”(matching)。配对背后的思维是:没有办法做实验,也没有外在突然发生的冲击(exogenous shock)使研究者可以做断点回归分析,或双重差分。


研究者就只剩下大千世界给的各种现象与数据,这些数据中可能有潜在作为实验组和对照组的研究对象,但是他们并不是被随机分配去获得实验组的刺激,或被分配到没有受到刺激的对照组。也就是说,实验组和对照组可能有很多影响刺激本身是否导致结果的其他的“干扰因子”(confounding factor)。

 

“随机控制实验”(randomized controlled trials)是因果推论的黄金标准,无法做到黄金标准的实证研究,也会希望镀金,K数越高越好,务求逼近随机控制实验。举例来说,笔者正在研究律师代理对于当事人的影响。

 

研究者想要分析,有律师代理和没律师代理的案件,其诉讼结果有无不同;或者有资深律师代理和有资浅律师代理的案件,结果是否有差异。


但研究者无法通过直接了当比较这两种案件的判决结果,就直接算出律师代理的效果。原因是当事人是否有律师代理,或者是否聘请资深律师代理,并不是随机分配的结果,而是自己选择(self-select)所致。


例如,比较有钱的当事人,会聘请资深的律师,或者比较有经验的当事人知道要聘请律师,或者比较严重的、涉及金额比较大的案件的当事人会聘请律师。而案件大小、严重程度、当事人经验等,都可能会影响诉讼的结果,所以如果只看(资深)律师代理的效果,就会不当忽略其他因素的干扰。


而配对方法就是删除这两群案件当中无法互相匹配的案件,或者调整权重。例如有律师代理的案件有几亿元诉讼标的之诉讼,而没有律师代理的案件最高的争讼金额却只有几百万元,则前者就必须调整权重,或排除在分析外。

 

更精确言之,整个配对方法的分析步骤,是把可观察到的、刺激出现前就已经确定下来的变量(observable,pre-treatment variables),用于逻辑斯回归模型(logistic regression model),实验组=1,控制组=0。


此回归模型可以计算出“propensity score”倾向指数,即每一个观察值(observation)成为实验组的机率。


当然,实际上研究者已经知道哪些是实验组,哪些是控制组。此种作法的逻辑是:虽然有些观察值受到刺激,有些没有,但在刺激出现前,两群观察值各自接受刺激的机率分布应该一样,才能逼近随机控制实验,把受试者随机分成两组的结果。排除极端案件或减低权重,有助于将实验组与控制组的“propensity score”分布调整成越近越好。


最后再跑一个(加权的)回归模型,以计算出“实验组接受刺激的平均效果”(average treatment effect on the treated’ATT)。

 

最后要再次强调,要做配对,必须只能选择刺激产生影响之前的变量,而不能选刺激产生后还会变化的变量。


例如以研究律师代理效果而言,如果案件是与车祸有关,则在请律师之前确定下来的案件特征,譬如说车祸受伤严重程度,原告的年收入、被告的年收入等案件的特征可以拿来作为配对的变量。


但如果是原告主张多少钱,或者是被告作出如何之抗辩,则可能就已经受到了原告是否请律师和请什么样律师的影响,所以不适合也不应该拿来做配对的变量。

 

事件研究法

 

事件研究法(eventstudies)使用股票价格、债券价格的变动来量度法律变化或其他事件的效果。事件研究法假设市场有效率,股市、债市会反应所有信息的影响。


因为假设市场有效率,所以信息会在短时间内就被反映到股价和债券价格中,所以事件研究法通常只观察几天内的价格变化。和前述其他因果推论方法一样,受影响者被称为实验组,未受影响者是控制组。

 

举一个历史事件研究为例。


18世纪初,英国有若干法律给予法官职位保障或提高薪资,因而提升了司法独立与司法质量。更好的司法,是否如理论所预测,可以借由保障合同、产权,敦促政府还债,从而促进经济发展?


如果有此种效果,股票和债券市场应该会欢迎此种立法(提案)而应声上涨。在18世纪初时,有股价的公司只有几家,包括英格兰银行、东印度公司等;而诸如英格兰银行是大英帝国的大债权人,所以会乐见司法独立。


研究者以英国的股价作为实验组,在荷兰阿姆斯特丹交易的英国公司股价作为对照组,计算相关司法独立法案的消息,是否产生“非寻常的股价”(abnormal return)。研究发现,某些司法独立议案,确实产生统计上显著的正影响。


结语


本文是因果推论方法的快速梳理。


实证方法的技术一直持续演进,什么才是有效、可靠的因果推论,都有发生范式移转的可能。希望法律实证研究的入门读者能由本文尽量深入浅出的介绍中,获得启发;但读者千万不要认为方法仅止于此。

 

或许不少本文读者并不准备亲自从事法律实证研究,而只是想多了解一种法学方法论。对这些数量更多的读者,本文最大的启发是:因果推论并不能从两个事实的前后发生顺序就推知,而必须透过严谨的研究设计和数据分析才能获得。


日常口语中,大量法学规范论证中,充满了许多不假思索或想当然的因果推论。


有任何法律实证研究概念的读者,必须时时谨记在心:


不要把他人缺乏因果推论架构的因果宣称为真理,而自己在分析目的与手段关联时,也不能以“脑补”方式盖棺论定。



推荐阅读

张永健、程金华:法律实证研究的方法坐标丨中法评



《中国法律评论》2019年第2期

2019年4月正式出版!

点图即可购刊


本期聚焦三大重点话题


行政诉讼法三十年回顾与总结

推进中国法治进程的十大行政诉讼案例

法学研究方法论探究

欢迎各位惠赐文章,来稿请投:

chinalawreview@lawpress.com.cn

继续滑动看下一个

张永健:量化法律实证研究的因果革命 ︱ 中法评

张永健 中国法律评论
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存