Noise induced randomization in regression discontinuity designs¶
讲者: Dean Eckles
讨论人: Michal Kolesár
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-06-09
主题: 因果推断
视频: https://www.youtube.com/watch?v=pCYINm_YrbI · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告在重新审视断点回归设计(Regression Discontinuity Design, RDD) 的方法论基础,并试图为其中一条直觉——"靠近阈值的个体就像被随机分配了处理"——提供一个形式化、可操作的统计框架。
1.1 RDD 的两条主流路线
- 连续性方法(Continuity-based approaches):以 Hahn, Todd & van der Klaauw (2001) 奠基,通过假设潜在结果的条件期望函数在阈值处连续,识别参数为
τ_c = lim_{z↓c} E[Y | Z=z] - lim_{z↑c} E[Y | Z=z]——即一个无穷小邻域内的局部平均处理效应(LATE)。估计与推断的主流工具有局部多项式(Calonico, Cattaneo & Titiunik 2014)和界偏倚推断下的最优线性估计(Armstrong & Kolesár 2018; Imbens & Wager 2019)。 - 局部随机化方法(Local randomization approaches):直接假设阈值附近存在一个有限宽的窗口,窗口内处理分配与潜在结果独立。这更贴合“像随机实验”的直觉,但窗口宽度通常缺乏理论依据,且若窗口内运行变量仍有很强的预后能力,无混杂假设很难成立(见 [0:14:45–0:16:04])。
1.2 这条“噪声诱致随机化”路线
报告提出第三条路径:不假设任意连续性或固定的随机化窗口,而是直接利用已知的测量误差结构——即运行变量 Z_i 是一个潜变量 U_i 的带噪度量。关键假设:
1. Z_i 的条件分布(给定 U_i)已知,例如 Z_i | U_i ~ N(U_i, σ²) 且 σ 已知;
2. 外生噪声:Z_i 给定 U_i 后与潜在结果 (Y_i(0), Y_i(1)) 独立。
这些假设并不新——Lee (2008, Econometrica) 已指出,如果个体的得分有不可被完美操纵的随机性,则 Y(0)|Z 会平滑,但未将此用于推断。Dong (2014, Journal of Econometrics) 和 Rakonin (working paper, 未正式发表) 也讨论过测量误差如何帮助识别远离阈值的效应,但前者依赖参数模型,后者使用因子模型,未给出一般的半参数推断程序。本报告则向终点推进:从“知道有误差”到“有了误差的具体结构就可以做设计基础的推断”,并构建了一套线性加权估计和界偏倚置信区间的程序,同时能识别非无穷小(finite-neighborhood)的处理效应。
1.3 值得注意的参考文献(基于幻灯片与领域常识)
- Lee (2008) ——从“imperfect manipulation”推导平滑性,但推断仍用连续性框架。
- Imbens & Wager (2019) ——优化权重线性估计(Optimal RDD),使用最坏情况偏倚约束,但不利用测量误差信息。
- Armstrong & Kolesár (2018) ——使用光滑性假设和最小化MSE准则,生成极小极大最优的置信区间。
- Calonico, Cattaneo & Titiunik (2014) ——偏倚校正的局部多项式推断(“rdrobust”包前身)。
- Kolesár & Rothe (2018) ——离散运行变量的RDD推断(与“连续性”框架“shoehorn”之难形成呼应)。
二、最小内核 / 一个最简例子¶
数据与符号
- 个体
i=1,…,n。 - 潜变量
U_i ∈ ℝ:个体的真实能力 / 真实CD4计数 / 真实特质——不可观测。 - 观测到的运行变量
Z_i:U_i的一个带噪版本。假设Z_i = U_i + ε_i,其中ε_i ~ N(0, σ²),σ 已知(来自独立的重复测量研究或心理测量学模型)。 - 处理分配
W_i = 1{Z_i ≥ c},c是已知阈值。 - 干预机动:通常
U_i对于个体刻意操纵其Z_i的能力不完美——本框架将这一直觉直接编码为条件分布Z_i | U_i的随机性。 - 潜在结果
(Y_i(0), Y_i(1)),观察结果Y_i = Y_i(W_i)。 - 可观测数据:
(Z_i, W_i, Y_i)i.i.d.。 - 目标参数(不限于一个):
τ_c = lim_{z↓c} E[Y|Z=z] - lim_{z↑c} E[Y|Z=z](标准LATE);τ(z₁, z₂) = E[Y(1)-Y(0) | Z ∈ (z₁, z₂)](一个非无穷小区间上的CATE);- 常数处理效应假设下的
τ。
核心想法(d=1,单个已知σ的高斯噪声)
假设 σ = 1, c = 0。个体真实能力为 u,因其Z值随机的不同,可能落在阈值上方或下方。条件于 U_i = u,W_i 的分布是一个已知的随机函数:P(W_i = 1 | U_i = u) = Φ(u - 0),其中 Φ 是标准正态CDF。
现在考虑一个线性估计量 ̂τ = n^{-1}∑ w_i Y_i,权重只依赖于 Z_i。因为 Z_i 的分布(给定 U_i)已知,一个给定权重函数 w(z) 对应着对潜变量 u 的隐含加权 h(u) = E[w(Z_i) | U_i = u]。理想的对比是让处理组(w>0 部分)和对照组(w<0 部分)在 U 上的隐含分布匹配,即 h_+(u) = h_-(u)。由于 Z|U 是高斯,h(u) 可通过高斯卷积计算出。
操纵机制:如果 U_i 强烈预测潜在结果(如 E[Y(0)|U=u] = β u),且 h_+ 与 h_- 的均值相差很大,则即使不直接观察 U,观察到的 Z 也能通过已知的噪声结构“逆向”约束这个偏差——想象一下,如果限制 |h_+(u) - h_-(u)| ≤ δ(用高斯卷积的条件给出),那么 ̂τ 的偏差最多是 sup_u |α(u)| · δ(其中 α(u) = E[Y(0)|U=u])。这正是该方法的识别杠杆。
三、报告主体:讲者讲了什么¶
[0:00–0:05] 开场与引言
- 讲者 Dean Eckles(MIT)介绍联合工作:Nikolaos Ignatiadis、Stefan Wager、Han Wu。
- 指出RDD的经典来源:Thistlethwaite & Campbell (1960)——National Merit Scholarship 效果。
[0:05–0:13] RDD的直觉:为何像随机化
- 用三个实证例子说明:PSAT分数与National Hispanic Recognition Program(Gurantz et al. 2017),路易斯安那州升/留级考试成绩与青少年犯罪(Eren et al. 2017),CD4计数与艾滋病ART治疗资格(Bor et al. 2017)。
- 后者的原文写着:“Because of random measurement error in the CD4 count laboratory assay, assignment to immediate versus deferred treatment is effectively random for those patients with CD4 counts near 350 cells/µl.”
[0:13–0:20] 两条现有路线
- 连续性方法:识别 τ_c,需要平滑性假设,对离散运行变量有困难(引Kolesár & Rothe 2018),且不是真正的“design-based”——推断依赖结果模型。
- 局部随机化方法:假设一个固定、非无穷小的区间内被完全随机化——但讲者认为该假设通常难以置信(运行变量本身预后性很强);后续扩展(如Sellés & Hanson)要么放弃“design-based”性质,要么引入了额外可观测变量。
[0:20–0:22] 一条新路线
- 关键命题:如果我们知道 Z_i | U_i 的分布(一般为高斯且方差已知),且噪声外生,那么就可以从“有噪声”这个事实本身出发,做identification、estimation和inference。
- 讲者确认了这一假设应该很严格地被当作事实而非启发——不适用于所有RDD(如选区边界、选举)。 ([0:19:45–0:20:20])
[0:22–0:32] 核心识别公式
- 假设 Z_i | U_i ~ N(U_i, σ²),方差已知。
- 定义一个线性估计量:
̂μ+ = n^{-1}∑ γ_+(Z_i) Y_i (只使用处理组观测)
̂μ- = n^{-1}∑ γ_-(Z_i) Y_i (只使用对照组观测)
其中 E[γ_+(Z_i)] = E[γ_-(Z_i)] = 1。
- 对于潜在函数 u ↦ α_1(u) = E[Y(1)|U=u],̂μ+ 的期望等于 E[ h_+(U) α_1(U) ],其中 h_+(u) = E[γ_+(Z_i) | U_i = u]。
- 因此,̂τ = ̂μ+ - ̂μ- 的期望 = E[(h_+(U) - h_-(U)) τ(U)](加权处理效果) + E[(h_+(U) - h_-(U)) α_0(U)](混杂偏差)。要驱动偏倚趋于零,应使 h_+ ≈ h_-。
[0:32–0:45] 权重选择与推断
- 受 Imbens & Wager (2019) 的启发:选择一个形如下式的目标函数:
Var(̂τ) + t² · (worst-case bias bound)²,
其中 t 是调谐参数。权重 γ_+, γ_- 通过优化此目标选择。
- 约束包括:(i) E[γ_+] = E[γ_-] = 1;(ii) 权重有界增长速率(以保证CLT);(iii) 权重有紧支集。
- 密度f_Z(z)需要估计,讲者建议用独立的样本来拟合或者在交叉拟合框架内进行。
- 推断使用“bias-aware confidence interval”(Armstrong & Kolesár 2018, Imbens & Wager 2019):CI =̂τ ± (se · c_α + bias_bound),其中临界值c_α由偏倚与方差联合决定。
- 渐近结果要求:(i) 估计f_Z的数据独立于估计̂τ;(ii)E[Y^4]` 有限;(iii) 权重函数一致地以某速率收敛于其极限。
[0:35–0:40] Q&A 中的关键讨论
- Jakob (Jake) 的问题 (约 [0:36]):测量误差很大 vs. 很小时,本方法的置信区间宽度相比连续性方法如何?
- 讲者回答:都可以——若测量误差大,CI 可较窄(因为许多观测其实都携带信息);若测量误差几乎为零(如行政数据库中的精确分数),CI 将变得极宽,这是一个警示,告知使用者此RDD实际上并不依赖噪声诱致随机化来识别。
[0:40–0:45] 应用:ART与HIV的CD4计数
- 来自 Bor et al. (2017) 的数据。先验的测量误差方差估计取自 Van der Walt et al.(2010年,南非)的重复测量研究:log(CD4+1) 的 SD = 0.26。
- 对比三种方法:(i) 本方法的 NIR 加权估计, (ii) 最优 RDD(Imbens-Wager 2019), (iii) 带偏倚稳健推断的局部多项式。本方法的CI较窄,因CD4计数的测量误差确实较大。
[0:45–0:50] 构造性基准验证
- 使用早期儿童纵向研究(ECLS)数据:3万+个儿童有多个年份的考试分数,每个分数附带有IRT模型提供的标准测量误差。
- 构造了一个“已知真相”的RDD,以Year 1分数(带噪声)作为运行变量,Year 2分数作为Y(0),Year 3分数作为Y(1);可以改变阈值并根据所有潜在结果直接定义真实处理效应(每个人都有完整相反事实)。
- 实证结果:该方法的点估计和CI正如预期地覆盖真相,且在偏离阈值越远的区间(policy contrast)仍有良好覆盖。
[0:50–0:55] 二项式运行变量的模拟
- 潜变量 U_i 为均匀分布,Z_i ~ Binomial(n_trials = 100, prob = U_i)(即非加性高斯噪声)。本方法规律性地取得名义覆盖(95%)且CI宽度远窄于其他方法;rdrobust 在此处欠覆盖。
[0:55–0:57] 讨论(Michal Kolesár)
- Kolesár指出,本方法实质上是在现有“bias-aware”框架内,将对观测变量Z的条件均值平滑性假设替换为对潜变量U的条件均值假设加一个已知的、平滑的Z|U分布。他认为这两者之间的转换很自然。
- 他还提及该框架与IV文献中“用潜变量结构限制偏倚”的讨论(如Slough & Imbens? 未明确)有类似之处。 ([1:00:00–1:01:00])
- 讲者回应对此认同,但也指出仅通过“连续性假设”使用的测量误差信息所能提供的识别强度,不如直接使用已知噪声分布时大。
四、对应论文与开放问题¶
4.1 对应论文
- 该报告对应于一篇正在进行的合作论文(2020年6月时尚未正式发表)。联合工作:Dean Eckles, Nikolaos Ignatiadis, Stefan Wager, Han Wu。
- 讲者在 [0:14–0:18] 提到合作者姓名时,ASR 将 Nikolaos Ignatiadis 听成 “Nicholas Stephan”,将 Han Wu 听成 “Hahn”。从幻灯片(slides 1, 12)可知正确形式。
- 论文的 arXiv 编号或具体发表状态在转写中没有出现。截至报告日(2020-06-09),它是一个工作论文(working paper)。
- 该论文的 GitHub / 公开仓库也不确定。研究者可从 ECKLES 的 MIT 主页、或 Wager 的主页确认当前版本。
4.2 报告留下的开放问题 / 扩展方向
- [0:54–0:56]“跨研究设计的‘设计间信息效率’比较”:在CD4例子中,不同的偏倚上限假设 (M = 0.5, 1.0, 2.0) 导致置信区间宽窄不一。哪种M值合理?使用者能否系统地从先验研究中推导出M?这尚未标准化。
- [0:58–1:00] Kolesár 的评论:一个框架能否统一处理“强假设但给出窄CI的噪声诱致法”和“弱假设但给出宽CI的连续性法”?是否存在一个适应性程序,可以允许后验地从数据中决定哪种假设更可信?
- [0:50–0:52] 多运行变量:当有一个潜变量但有多维噪声度量时,模型复杂度会如何变化?讲者在此没有讨论。
- [0:40–0:42] 假设“方差已知”的强要求:若方差只能从独立样本中估计(如
̂σ来自m个重复测量),̂σ的不确定性如何计入置信区间?演讲未涉及。 - [0:55–0:57] 失效情境:讲者明确列出三个不适用情境——地理边界、接近选举、班级规模。一个自洽的、对“判定某RDD是否属于噪声诱致类”的检验标准是什么?换言之,有没有一种像McCrary密度检验那样广泛使用的“验证操纵为零”的检验方法?
Maintained by 陈星宇 · Homepage · Source on GitHub