在经济学领域,可信度革命促进了随机对照试验(RCT)、双重差分法(DID)、工具变量(IV)和断点回归设计(RDD)等方法在因果关系研究中的应用。该篇AER文章对25本顶尖经济学期刊上发表的21,000多个假设检验进行了多种方法的综合分析,结果发现p-hacking和发表偏倚的程度因所使用方法而异,其中IV(以及DID, 稍微小一点程度)尤为突出

很遗憾,本文的研究并“没有“发现以下证据:(i)就上述问题,TOP5刊发表的论文与其他期刊的论文存在显著差异;(ii)期刊的“修改并重新提交”过程有效缓解了这一问题;(iii)随着时间的推移,这一现象有所改善。

具体看看:在之前的工作论文中,作者在对经济学领域排名靠前的25份期刊中的308篇文章进行分析后,研究者发现与断点回归设计(RDD)和随机对照试验(RCT)相比,双重差分法(DID)和工具变量(IV)在研究中更有可能被操纵以追求P值的显著性(约25%的研究存在操纵P值行为)。

简要介绍:

经验经济学领域中的可信度革命代表了对因果推断方法的一次明确转变。如今,实验和准实验方法,如随机对照试验(RCT)、双重差分法(DID)、工具变量(IV)以及断点回归设计(RDD),已经成为应用微观经济学研究的常规工具。本文旨在探讨这些推断方法与统计显著性之间的联系。

在经济学以及其他学科中,有关选择性发表和模型搜寻(elective publication和specification searching)的证据已经相当充分。发表偏倚是指研究结果的统计显著性影响其发表的可能性,这种现象可能与同行评审过程有关。而p-hacking则是指研究人员可能有意或无意采取的多种手段,以获取更有利的p值,这通常是为了克服发表统计上不显著结果的难题。

方法与统计显著性之间的关系,对于政策制定者以及其他依赖实证证据进行决策的人士来说,具有重要意义。因为发表偏倚和p-hacking可能导致文献中虚假阳性的比例人为增加。本文旨在探讨以下几个核心问题:

  1. 在顶级经济学期刊中,p-hacking和发表偏倚的现象有多普遍?
  2. 这些现象是否受到所使用的推断方法或其他作者和文章特征的影响?
  3. 同行评审过程是加剧了这一问题,还是有助于缓解?
  4. 近年来,这一状况是否有所改善?

为了解答这些核心问题以及一些相关次要问题,本文搜集了2015年和2018年期间,25本顶尖经济学期刊中采用随机对照试验(RCT)、双重差分(DID)、工具变量(IV)和断点回归设计(RDD)这四种方法的论文所报告的假设检验数据。整体来看,已发表的检验统计量呈现出双峰或骆驼形状的分布,在传统显著性阈值(z = 1.65)之前,观察到检验统计量的“缺失”,而在该阈值之后则出现了“过剩”现象。这一分布模式在TOP5刊与非顶级期刊中都有所体现,并且随着时间的推移,这种模式并没有显著变化。

为了识别p-hacking的差异,本文采用了三种不同的方法,并将准实验方法与随机对照试验(RCT)作为比较的基准。Ravallion等(2018)指出,研究者们普遍将随机化RCT视为与观测性研究结果相比较的黄金标准。Imbens(2010,第407页)也强调:“随机实验在证据等级中占据着特殊且最高的位置。”

首先,本文检验了检验统计量在传统统计显著性阈值(如p < 0.05)上方或下方出现的概率是否存在不连续性。如果一种方法的检验统计量的基础分布是连续的,并且可以无限微分,那么在显著性阈值上方观察到的任何结果过剩都可以被视为发表偏倚或p-hacking的证据。

在本文的研究中,我们观察到工具变量(IV)和双重差分(DID)方法的检验统计量在接近一星(p < 0.1)和两星(p < 0.05)显著性阈值时的分布并不均匀。具体来说,在阈值的10%范围内(1.76 < z < 2.16),IV方法中显著的检验统计量比不显著的多出18%。对于DID方法,这一数字更是高达25%。与此形成对比的是,断点回归设计(RDD)的显著检验统计量仅比不显著的多出3%,而随机对照试验(RCT)中显著的检验统计量甚至少于不显著的。

其次,本文采用了Gerber和Malhotra(2008a)提出的卡尺检验方法,该方法同样关注接近任意显著性阈值的p值分布。我们发现,在IV方法的文章中,边际显著的检验比例比RCT高出约10个百分点,达到47%。然而,没有在RDD方法的文章中发现边际显著检验比例明显高于RCT的证据。

一种可能的解释是,不同的研究者或研究领域对p-hacking的敏感程度可能存在差异,或者他们可能更偏好使用四种方法中的某一种。然而,我们发现,即使控制了作者特征(如研究经验和所在机构的排名),这些因素对本文的分析结果并无显著影响,这表明作者选择特定方法的倾向不太可能是我们观察到的结果的驱动因素。

当在模型中加入领域和期刊的固定效应时,虽然可以缩小IV方法与RCT方法估计结果之间的差距,但差距依然显著且为正值。另一方面,加入领域和期刊固定效应后,DID方法的估计规模有所减小,并且在传统显著性水平上与RCT方法没有显著差异。

第三,本文对Brodeur等(2016)的方法进行了扩展,通过比较每种方法的检验统计量的观察分布与在没有p-hacking和发表偏倚情况下预期的对照分布,来量化显著性区域内z值的过剩(或缺乏)。这一分析的结果与之前的发现相一致:不同方法之间在错误分配检验统计量的程度上存在显著差异。

具体来说,大约16%的统计上不显著的IV方法结果实际上是“缺失”的,后来被重新发现为统计显著。相比之下,RCT方法的错误分配率仅为IV方法的十分之一,大约是1.5%。当我们将每种方法的已发表研究体量视为独立的文献时,结果表明,IV方法和(在较小程度上)DID方法的p-hacking和/或选择性发表的现象显著高于基于RCT和RDD方法的研究。

尽管本文的研究显示作者和文章特征似乎对结果影响不大,但另一个可能的解释是,不同的研究方法为研究者提供了不同程度的自由度。例如,在采用工具变量(IV)等非实验方法时,研究者在多个决策点上拥有较大的自由裁量权,这可能会影响统计显著性。

关于IV方法的第一阶段,本文注意到第一阶段F统计量在传统阈值10附近存在过度集中的现象。更有趣的是,第二阶段的p-hacking程度与第一阶段的强度呈现出相关性。具体来说,相对弱的IV在第二阶段产生的结果中,z统计量在传统显著性阈值附近的比率更高。

还提供了证据表明,在部分合规的随机对照试验(RCT)中,IV方法的结果受到p-hacking的影响小于观察研究中的IV结果。这表明,研究设计的严谨性可能对p-hacking的倾向有所抑制。

我们的主要观察结果的另一个潜在解释是,编辑和/或审稿人对零结果的态度可能因研究方法的不同而有所差异。例如,如果结果来自于RCT,那么对零结果的容忍度可能会更高,因为RCT通常被认为是因果推断的黄金标准。

本文通过对比每篇论文的已发表版本和早期工作论文版本的检验统计量分布,探究了评审过程对研究结果的影响,但发现两者之间并无明显差异。本文的研究为经济学研究者关于实证主张可信度的讨论提供了新的视角(参见Christensen和Miguel 2018年的最新文献综述)。

Brodeur等(2016)利用三本著名经济学期刊的检验统计量数据,提供了证据表明大约10%到20%的边际拒绝检验实际上是假阳性。本文在这一基础上进行了多方面的扩展研究,包括比较TOP5刊与其他顶尖期刊的差异,以及调查评审过程的作用。本文的研究结果表明,p-hacking现象与研究者的“背景”并无关联。

另一项重要的研究是Vivalt(2019),该研究调查了大量影响评估中的p-hacking程度。Vivalt(2019)和Brodeur等(2016)的研究都指出,随机对照试验(RCT)的p-hacking现象要少于其他方法。本文通过对准实验方法的p-hacking现象进行分析,补充了这些研究,这些方法在许多社会科学研究中是最常用的识别策略。

本文的发现在一定程度上表明,改进研究设计本身可能在一定程度上限制p-hacking,而随机对照试验(RCT)和断点回归设计(RDD)似乎还有另一个潜在的科学利益,即在提高内部效度的同时,它们也降低了偏颇报告的可能性。本文的结果强调了识别和纠正发表偏倚的重要性,而且适当的纠正对方法敏感。

使用的Top 25期刊名录,来自于Repec的影响因子排名
作者使用了三种方法去测度四种因果推断方法的可靠性。
第一,是以RCT作为基准组所做的Probit模型。

第二,是Caliper检验。

第三,是excess检验。

关于多期DID或交叠DID: 1.DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides,2.交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误,3.典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了!4.最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!5.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,6.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,7.交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!8.欣慰! 营养午餐计划终于登上TOP5! 交叠DID+异质性稳健DID!9.用事件研究法开展政策评估的过程, 手把手教学文章!10.从双重差分法到事件研究法, 双重差分滥用与需要注意的问题,11.系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码! 12.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程,13.DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码!
工具变量,参看1.内生性问题操作指南, 广为流传的22篇文章,2.看完顶级期刊文章后, 整理了内生性处理小册子,3.如何寻找工具变量?得工具者得实证计量,4.内生性处理的秘密武器-工具变量估,5.工具变量在社会科学因果推断中的应用,6.为你的”工具变量”合理性进行辩护, 此文献可以作为范例,7.没有工具变量、断点和随机冲击,也可以推断归因,8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析,9.工具变量IV与内生性处理的精细解读,10.我的”工具变量”走丢了,寻找工具变量思路手册.

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle

数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验