断点回归(Regression Discontinuity Design,RDD)是一种用于评估政策或干预措施效果的方法,其基本原理是利用一个 “断点” 将研究对象分为处理组和控制组,然后比较两组在断点附近的结果变量差异,以推断政策或干预措施的因果效应。本次推文仅介绍精确断点回归设计。

一、方法原理

(一)引例

研究:奖学金制度与学生毕业后收入的因果关系。

驱动变量(分配变量,解释变量)X:分数,某个分数作为断点;

处理变量(分类变量)T:是否获得奖学金;(处理变量的取值受到驱动变量取值的影响,超过断点则获得奖学金,未超过则不能获得)

结果变量(被解释变量)Y:收入;

控制组:未获得奖学金的学生

处理组:获得奖学金的学生

如果在断点附近,获得奖学金的处理组学生毕业后收入显著高于未获得奖学金的控制组学生,就可以认为奖学金制度对学生毕业后收入有积极影响。

(二)原理

断点回归方法依赖于一个明确的断点,这个断点可以是一个阈值、一个截止值或一个规则。例如,一个政策可能规定当某个变量超过一定值时,个体将接受某种干预措施,这个变量的值就是断点。根据断点将研究对象分为处理组和控制组。当个体的某个变量值超过断点时,个体被分配到处理组;当个体的变量值未超过断点时,个体被分配到控制组。通过比较处理组和控制组在断点附近的结果变量差异,可以估计政策或干预措施的因果效应。如果在断点附近,处理组和控制组的结果变量存在显著差异,那么可以推断这种差异是由政策或干预措施引起的。

假设有一个结果变量,一个处理变量,一个分配变量,以及一个断点。可以将结果变量表示为:

其中,是截距项,是处理效应,是分配变量的系数,是随机误差项。在断点回归中,我们可以将处理变量表示为一个关于分配变量和断点的函数:

其中,是指示函数,当括号内的条件成立时,函数值为 1,否则为 0。

将处理变量的表达式代入结果变量的表达式中,可以得到:

注:在断点附近,处理组和控制组的个体在可观测和不可观测的特征上应该是相似的,除了是否接受干预措施之外。

(三)基本假设

1.局部随机化假设:在断点附近,个体是否被分配到处理组是近似随机的。这意味着在断点附近,除了是否接受干预措施之外,处理组和控制组的个体在可观测和不可观测的特征上应该是相似的

2.连续性假设:在断点附近,分配变量的分布应该是连续的。这意味着在断点附近,分配变量的变化应该是平滑的,没有突然的跳跃或变化。

3.排除限制假设:除了通过分配变量影响处理状态之外,没有其他因素同时影响结果变量和处理状态。这意味着在断点附近,处理组和控制组的结果变量差异只能是由政策或干预措施引起的,而不能是由其他因素引起的。

(四)RDD类型

1.精确断点回归(SRD):个体是否接受处理完全取决于某个可观测变量是否超过特定的断点值。如果个体的分配变量超过断点,就被分配到处理组;否则,分配到控制组;大于分数线才能领取奖学金,小于等于分数线则无法领取奖学金。

2.模糊断点回归(FRD):个体是否接受处理不完全取决于分配变量是否超过断点,还受到其他因素的影响。也就是说,即使个体的分配变量超过断点,也不一定会被分配到处理组;同样,即使分配变量未超过断点,也有可能被分配到处理组;并不是严格大于分数线才能领取奖学金,存在其他因素影响奖学金领取结果。

(五)带宽

在断点回归设计(RDD)中,带宽是一个重要的概念。带宽决定了在断点附近用于估计因果效应的样本范围。

较小的带宽意味着只考虑断点附近非常狭窄的区域内的样本。这样做的好处是可以更接近局部随机化的假设,因为在很窄的范围内,除了处理状态外,其他因素的差异可能较小。然而,较小的带宽也会减少样本量,可能导致估计的效率降低,方差增大。

较大的带宽则会包含更多的样本,但也可能引入更多的异质性,使得处理组和控制组在更广泛的范围内可能存在其他差异,从而违背局部随机化假设,导致估计偏差。

在断点回归设计中,不一定必须选择最优带宽,但通常建议选择最优带宽进行稳健性检验。

(六)其他注意

在使用断点回归时,需要注意一些关键问题,以确保结果的可靠性和有效性:

1. 要对驱动变量进行连续性检验,确保其在断点处没有被人为操纵。

2. 需判断是精确断点回归还是模糊断点回归,并选择合适的模型和方法进行估计。

3. 进行稳健性检验,如检验结果对不同带宽、多项式次数的稳健性,以及进行协变量连续性检验、伪断点检验等。

4. 合理选择带宽,带宽的大小会影响估计结果,需要根据数据特点和实际情况进行选择或调整。

二、Stata命令

因果推断方法(三):RDD断点回归设计

(一)安装rdrobust

ssc install rdrobust

(二)连续性检验

#方法1histogram xlcolor(brown) fcolor(gs16) title('Histogram of x'xtitle('x'note('Figure 1')#方法2rdcont x, threshold(cutoff)

以上代码分别对应一种回归检验和三种不同的连续性图检验。

方法1:如果分配变量在断点附近的直方图显示出较为平滑的分布,没有明显的跳跃或间断,那么可以初步认为分配变量在断点处是连续的。

方法2:rdcont命令可以直接检验分配变量的连续性,如若不拒绝原假设,说明分配变量在断点处连续

(三)断点回归命令

help rdrobustrdrobust y x,c(cutoff) h() p()//精确断点回归rdrobust y x,c(cutoff) fuzzy(treatment) h() p()//模糊断点回归

c(cutoff)表示设置断点值,h()表示设置带宽,p设置多项式阶数。注意:精确断点回归的处理概率为0或1,因此在命令中不需要设置处理变量。

(四)选择最优带宽

rdbwselect y x, c(cutoff)

(五)模型检验

1.稳健性检验

rdrobust y x,c(cutoff) all//精确断点回归rdrobust y x,c(cutoff) fuzzy(treatment) all//模糊断点回归

2.安慰剂检验

选择一个虚假的断点进行分析,如果在虚假断点处没有显著的处理效应,说明原结果是稳健的。

rdrobust y x,c(cutoff)

(六)绘制断点图

rdplot Y X, c (cutoff) binselect(es) graph_options(graphregion(color(white)) xtitle(X) ytitle(Y))

三、示例

示例数据由Excel随机生成,无实际意义,仅供演示,数据如下:

目的:研究奖学金制度对学生收入是否有显著性影响

Number of obs:100

Y:收入(元)

X:考试成绩(分,分配变量,以85分为断点)

处理变量:是否获得奖学金,超过85分可以获得,未超过85分无法获得。

假定:这些学生在考试成绩之外的其他方面并无差异。

(一)连续性检验

根据上述结果判断分配变量满足连续性假设。在真正的实证研究中,若分配变量不满足连续性假设,继续建立 RDD 模型是不恰当的,因为这可能会导致估计结果出现偏差,无法准确地识别政策处理效应。

(二)建立模型——精准断点回归

选择带宽为10,建立精确断点回归,结果如下:

该例子建立精确断点回归中的回归系数通过显著性检验,说明奖学金制度对收入显著影响,假设回归系数不通过显著性检验,那么可以解读为:奖学金制度对学生收入无明显影响。

(三)最优带宽选择

说明最优主要带宽h应该为3.285。

(四)模型检验

1.稳健性检验

以上结果是精确断点回归的稳健性检验,三种情况下的回归系数均通过显著性检验,说明(二)的回归结果可以通过稳健性检验。

2.安慰剂检验

在此案例中,当以分配变量取值 80 作为虚假断点进行断点回归分析时,未观察到显著效应,从而为奖学金制度对收入的显著影响这一原结论提供了支持性证据。

(5)绘制断点图