Noise induced randomization in regression discontinuity designs¶

讲者: Dean Eckles
讨论人: Michal Kolesár
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-06-09
主题: 因果推断
视频: https://www.youtube.com/watch?v=pCYINm_YrbI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告在重新审视断点回归设计（Regression Discontinuity Design, RDD） 的方法论基础，并试图为其中一条直觉——"靠近阈值的个体就像被随机分配了处理"——提供一个形式化、可操作的统计框架。

1.1 RDD 的两条主流路线

连续性方法（Continuity-based approaches）：以 Hahn, Todd & van der Klaauw (2001) 奠基，通过假设潜在结果的条件期望函数在阈值处连续，识别参数为 τ_c = lim_{z↓c} E[Y | Z=z] - lim_{z↑c} E[Y | Z=z]——即一个无穷小邻域内的局部平均处理效应（LATE）。估计与推断的主流工具有局部多项式（Calonico, Cattaneo & Titiunik 2014）和界偏倚推断下的最优线性估计（Armstrong & Kolesár 2018; Imbens & Wager 2019）。
局部随机化方法（Local randomization approaches）：直接假设阈值附近存在一个有限宽的窗口，窗口内处理分配与潜在结果独立。这更贴合“像随机实验”的直觉，但窗口宽度通常缺乏理论依据，且若窗口内运行变量仍有很强的预后能力，无混杂假设很难成立（见 [0:14:45–0:16:04]）。

1.2 这条“噪声诱致随机化”路线

报告提出第三条路径：不假设任意连续性或固定的随机化窗口，而是直接利用已知的测量误差结构——即运行变量 Z_i 是一个潜变量 U_i 的带噪度量。关键假设： 1. Z_i 的条件分布（给定 U_i）已知，例如 Z_i | U_i ~ N(U_i, σ²) 且 σ 已知； 2. 外生噪声：Z_i 给定 U_i 后与潜在结果 (Y_i(0), Y_i(1)) 独立。

这些假设并不新——Lee (2008, Econometrica) 已指出，如果个体的得分有不可被完美操纵的随机性，则 Y(0)|Z 会平滑，但未将此用于推断。Dong (2014, Journal of Econometrics) 和 Rakonin (working paper, 未正式发表) 也讨论过测量误差如何帮助识别远离阈值的效应，但前者依赖参数模型，后者使用因子模型，未给出一般的半参数推断程序。本报告则向终点推进：从“知道有误差”到“有了误差的具体结构就可以做设计基础的推断”，并构建了一套线性加权估计和界偏倚置信区间的程序，同时能识别非无穷小（finite-neighborhood）的处理效应。

1.3 值得注意的参考文献（基于幻灯片与领域常识）

Lee (2008) ——从“imperfect manipulation”推导平滑性，但推断仍用连续性框架。
Imbens & Wager (2019) ——优化权重线性估计（Optimal RDD），使用最坏情况偏倚约束，但不利用测量误差信息。
Armstrong & Kolesár (2018) ——使用光滑性假设和最小化MSE准则，生成极小极大最优的置信区间。
Calonico, Cattaneo & Titiunik (2014) ——偏倚校正的局部多项式推断（“rdrobust”包前身）。
Kolesár & Rothe (2018) ——离散运行变量的RDD推断（与“连续性”框架“shoehorn”之难形成呼应）。

二、最小内核 / 一个最简例子¶

数据与符号

个体 i=1,…,n。
潜变量 U_i ∈ ℝ：个体的真实能力 / 真实CD4计数 / 真实特质——不可观测。
观测到的运行变量 Z_i：U_i 的一个带噪版本。假设 Z_i = U_i + ε_i，其中 ε_i ~ N(0, σ²)，σ 已知（来自独立的重复测量研究或心理测量学模型）。
处理分配 W_i = 1{Z_i ≥ c}，c 是已知阈值。
干预机动：通常 U_i 对于个体刻意操纵其 Z_i 的能力不完美——本框架将这一直觉直接编码为条件分布 Z_i | U_i 的随机性。
潜在结果 (Y_i(0), Y_i(1))，观察结果 Y_i = Y_i(W_i)。
可观测数据：(Z_i, W_i, Y_i) i.i.d.。
目标参数（不限于一个）：
τ_c = lim_{z↓c} E[Y|Z=z] - lim_{z↑c} E[Y|Z=z]（标准LATE）；
τ(z₁, z₂) = E[Y(1)-Y(0) | Z ∈ (z₁, z₂)]（一个非无穷小区间上的CATE）；
常数处理效应假设下的 τ。

核心想法（d=1，单个已知σ的高斯噪声）

假设 σ = 1, c = 0。个体真实能力为 u，因其Z值随机的不同，可能落在阈值上方或下方。条件于 U_i = u，W_i 的分布是一个已知的随机函数：P(W_i = 1 | U_i = u) = Φ(u - 0)，其中 Φ 是标准正态CDF。

现在考虑一个线性估计量 ̂τ = n^{-1}∑ w_i Y_i，权重只依赖于 Z_i。因为 Z_i 的分布（给定 U_i）已知，一个给定权重函数 w(z) 对应着对潜变量 u 的隐含加权 h(u) = E[w(Z_i) | U_i = u]。理想的对比是让处理组（w>0 部分）和对照组（w<0 部分）在 U 上的隐含分布匹配，即 h_+(u) = h_-(u)。由于 Z|U 是高斯，h(u) 可通过高斯卷积计算出。

三、报告主体：讲者讲了什么¶

[0:00–0:05] 开场与引言
- 讲者 Dean Eckles（MIT）介绍联合工作：Nikolaos Ignatiadis、Stefan Wager、Han Wu。 - 指出RDD的经典来源：Thistlethwaite & Campbell (1960)——National Merit Scholarship 效果。

[0:05–0:13] RDD的直觉：为何像随机化
- 用三个实证例子说明：PSAT分数与National Hispanic Recognition Program（Gurantz et al. 2017），路易斯安那州升/留级考试成绩与青少年犯罪（Eren et al. 2017），CD4计数与艾滋病ART治疗资格（Bor et al. 2017）。 - 后者的原文写着：“Because of random measurement error in the CD4 count laboratory assay, assignment to immediate versus deferred treatment is effectively random for those patients with CD4 counts near 350 cells/µl.”

[0:13–0:20] 两条现有路线
- 连续性方法：识别 τ_c，需要平滑性假设，对离散运行变量有困难（引Kolesár & Rothe 2018），且不是真正的“design-based”——推断依赖结果模型。 - 局部随机化方法：假设一个固定、非无穷小的区间内被完全随机化——但讲者认为该假设通常难以置信（运行变量本身预后性很强）；后续扩展（如Sellés & Hanson）要么放弃“design-based”性质，要么引入了额外可观测变量。

[0:20–0:22] 一条新路线
- 关键命题：如果我们知道 Z_i | U_i 的分布（一般为高斯且方差已知），且噪声外生，那么就可以从“有噪声”这个事实本身出发，做identification、estimation和inference。 - 讲者确认了这一假设应该很严格地被当作事实而非启发——不适用于所有RDD（如选区边界、选举）。 ([0:19:45–0:20:20])

[0:22–0:32] 核心识别公式
- 假设 Z_i | U_i ~ N(U_i, σ²)，方差已知。
- 定义一个线性估计量：
̂μ+ = n^{-1}∑ γ_+(Z_i) Y_i （只使用处理组观测）
̂μ- = n^{-1}∑ γ_-(Z_i) Y_i （只使用对照组观测）
其中 E[γ_+(Z_i)] = E[γ_-(Z_i)] = 1。 - 对于潜在函数 u ↦ α_1(u) = E[Y(1)|U=u]，̂μ+ 的期望等于 E[ h_+(U) α_1(U) ]，其中 h_+(u) = E[γ_+(Z_i) | U_i = u]。 - 因此，̂τ = ̂μ+ - ̂μ- 的期望 = E[(h_+(U) - h_-(U)) τ(U)]（加权处理效果） + E[(h_+(U) - h_-(U)) α_0(U)]（混杂偏差）。要驱动偏倚趋于零，应使 h_+ ≈ h_-。

[0:32–0:45] 权重选择与推断
- 受 Imbens & Wager (2019) 的启发：选择一个形如下式的目标函数：
Var(̂τ) + t² · (worst-case bias bound)²，
其中 t 是调谐参数。权重 γ_+, γ_- 通过优化此目标选择。 - 约束包括：(i) E[γ_+] = E[γ_-] = 1；(ii) 权重有界增长速率（以保证CLT）；(iii) 权重有紧支集。 - 密度f_Z(z)需要估计，讲者建议用独立的样本来拟合或者在交叉拟合框架内进行。 - 推断使用“bias-aware confidence interval”（Armstrong & Kolesár 2018, Imbens & Wager 2019）：CI =̂τ ± (se · c_α + bias_bound)，其中临界值c_α由偏倚与方差联合决定。 - 渐近结果要求：(i) 估计f_Z的数据独立于估计̂τ；(ii)E[Y^4]` 有限；(iii) 权重函数一致地以某速率收敛于其极限。

[0:35–0:40] Q&A 中的关键讨论

Jakob (Jake) 的问题 (约 [0:36])：测量误差很大 vs. 很小时，本方法的置信区间宽度相比连续性方法如何？
讲者回答：都可以——若测量误差大，CI 可较窄（因为许多观测其实都携带信息）；若测量误差几乎为零（如行政数据库中的精确分数），CI 将变得极宽，这是一个警示，告知使用者此RDD实际上并不依赖噪声诱致随机化来识别。

[0:40–0:45] 应用：ART与HIV的CD4计数
- 来自 Bor et al. (2017) 的数据。先验的测量误差方差估计取自 Van der Walt et al.（2010年，南非）的重复测量研究：log(CD4+1) 的 SD = 0.26。
- 对比三种方法：(i) 本方法的 NIR 加权估计, (ii) 最优 RDD（Imbens-Wager 2019）, (iii) 带偏倚稳健推断的局部多项式。本方法的CI较窄，因CD4计数的测量误差确实较大。

[0:45–0:50] 构造性基准验证
- 使用早期儿童纵向研究（ECLS）数据：3万+个儿童有多个年份的考试分数，每个分数附带有IRT模型提供的标准测量误差。
- 构造了一个“已知真相”的RDD，以Year 1分数（带噪声）作为运行变量，Year 2分数作为Y(0)，Year 3分数作为Y(1)；可以改变阈值并根据所有潜在结果直接定义真实处理效应（每个人都有完整相反事实）。
- 实证结果：该方法的点估计和CI正如预期地覆盖真相，且在偏离阈值越远的区间（policy contrast）仍有良好覆盖。

[0:50–0:55] 二项式运行变量的模拟
- 潜变量 U_i 为均匀分布，Z_i ~ Binomial(n_trials = 100, prob = U_i)（即非加性高斯噪声）。本方法规律性地取得名义覆盖（95%）且CI宽度远窄于其他方法；rdrobust 在此处欠覆盖。

[0:55–0:57] 讨论（Michal Kolesár）
- Kolesár指出，本方法实质上是在现有“bias-aware”框架内，将对观测变量Z的条件均值平滑性假设替换为对潜变量U的条件均值假设加一个已知的、平滑的Z|U分布。他认为这两者之间的转换很自然。
- 他还提及该框架与IV文献中“用潜变量结构限制偏倚”的讨论（如Slough & Imbens? 未明确）有类似之处。 ([1:00:00–1:01:00])
- 讲者回应对此认同，但也指出仅通过“连续性假设”使用的测量误差信息所能提供的识别强度，不如直接使用已知噪声分布时大。

四、对应论文与开放问题¶

4.1 对应论文
- 该报告对应于一篇正在进行的合作论文（2020年6月时尚未正式发表）。联合工作：Dean Eckles, Nikolaos Ignatiadis, Stefan Wager, Han Wu。
- 讲者在 [0:14–0:18] 提到合作者姓名时，ASR 将 Nikolaos Ignatiadis 听成 “Nicholas Stephan”，将 Han Wu 听成 “Hahn”。从幻灯片（slides 1, 12）可知正确形式。
- 论文的 arXiv 编号或具体发表状态在转写中没有出现。截至报告日（2020-06-09），它是一个工作论文（working paper）。
- 该论文的 GitHub / 公开仓库也不确定。研究者可从 ECKLES 的 MIT 主页、或 Wager 的主页确认当前版本。

4.2 报告留下的开放问题 / 扩展方向

[0:54–0:56]“跨研究设计的‘设计间信息效率’比较”：在CD4例子中，不同的偏倚上限假设 (M = 0.5, 1.0, 2.0) 导致置信区间宽窄不一。哪种M值合理？使用者能否系统地从先验研究中推导出M？这尚未标准化。
[0:58–1:00] Kolesár 的评论：一个框架能否统一处理“强假设但给出窄CI的噪声诱致法”和“弱假设但给出宽CI的连续性法”？是否存在一个适应性程序，可以允许后验地从数据中决定哪种假设更可信？
[0:50–0:52] 多运行变量：当有一个潜变量但有多维噪声度量时，模型复杂度会如何变化？讲者在此没有讨论。
[0:40–0:42] 假设“方差已知”的强要求：若方差只能从独立样本中估计（如 ̂σ 来自 m 个重复测量），̂σ 的不确定性如何计入置信区间？演讲未涉及。
[0:55–0:57] 失效情境：讲者明确列出三个不适用情境——地理边界、接近选举、班级规模。一个自洽的、对“判定某RDD是否属于噪声诱致类”的检验标准是什么？换言之，有没有一种像McCrary密度检验那样广泛使用的“验证操纵为零”的检验方法？

Maintained by 陈星宇 · Homepage · Source on GitHub

Noise induced randomization in regression discontinuity designs¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论