Inferring Treatment Effects After Testing Instrument Strength in Linear Models¶

讲者: Hyunseung Kang
讨论人: Will Fithian
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-04-08
主题: 因果推断
视频: https://www.youtube.com/watch?v=FLxng_1YCGk · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2003.06723 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这条工作线处于 工具变量（IV）方法论 与 选择性推断（Selective Inference） 的交汇处。它所追问的根本问题是：当一个研究者在进行因果推断之前，先对数据执行了一个预处理检验（如检查 IV 强度的 F 检验），再基于该检验的结果决定是否对处理效应进行正式推断，这种"先检验、后推断"的序贯流程，会对最终推断的统计性质（特别是 Type I error 控制）产生何种扭曲？以及如何校正这种扭曲？

奠基与主流路线：IV 方法在经济学和流行病学中是最经典的识别未观测混杂下因果效应的工具之一（Angrist & Krueger, 2001; Hernán & Robins, 2006）。标准教材教导：先利用第一阶段回归（D on Z）的 F 统计量检验 IV 相关性（A1），若 F ≥ 10（传统上认为这是「强 IV」的门槛，源于 Staiger & Stock, 1997），方可继续使用两阶段最小二乘（TSLS）等估计量；若 F < 10，则推荐使用弱 IV 稳健检验（如 AR、CLR、LIML）。但在经济学或流行病学实践中，研究者在对 F 检验结果 "过滤" 后，常直接对 TSLS 的 Wald 统计量进行标准正态近似推断——而完全不考虑 "因为 F 检验通过了，才进行的该推断" 这一选择事件。这一忽略正是问题的源头。

当前 frontier：选择性推断（post-selection inference）这一框架在 2010 年代后被系统性引入统计学（Lockhart et al., 2014; Lee et al., 2016；Taylor & Tibshirani, 2015），所解决的正是 "在基于数据的模型选择/筛选过程后进行推断" 时的分布扭曲问题。经济学内部也有零星工作触及预检验 bias：Berk, Brown & Zhao (2010) 曾提出关切；Andrews & Stock (2019) 在综述中简要提及。但将选择性推断系统性地引入 IV 预检验场景、并给出实操上可用的条件推断方法——这是该报告/论文的明确站位。其直接对应 arXiv 2003.06723，作者 Nan Bi, Hyunseung Kang, Jonathan Taylor。

本报告站在哪：讲者将从以下角度推进： - 将 F 检验的 "通过" 事件（F ≥ c₀）重新编码为一种随机优化的支持恢复问题（类似于在带 L1 正则化的截面回归中选择非零系数）。这利用了 lasso / randomized lasso 的选择性推断工具。 - 通过 KKT 条件与变量变换，导出给定 "IV 强度检验通过" 这一事件后的条件密度 / 条件似然，使之可用于采样与条件 p 值计算。 - 特别之处在于：该方法允许用户沿用任何他偏好的第二阶段检验统计量（TSLS、LIML、AR、CLR），而非被迫改用仅适用于特定选择过程的新检验。这显著增强了实用性。

有把握的关键工作： - Swanson & Hernán (2013)（转写 [0:16:37] 附近）：综述约 93% 的 IV 论文报告了 F 检验。 - Andrews, Stock & Sunda (2019), AER（转写 [0:16:53] 附近）：考察 2014–2018 年 AER 中 16 篇 IV 论文、108 个模型的第一阶段 F 分布，也发现许多 F 值紧贴 10 的阈值。 - Lee et al. (2016, JRSS-B) / Markovic & Taylor (2016)：选择性推断中基于 KKT 与变量变换的框架基础。 - Staiger & Stock (1997)：给出 F 统计量 ≥ 10 作为 "强工具" 的经验法则的经典论文。

二、最小内核 / 一个最简例子¶

核心框架

可观测数据：\((Y_i, D_i, Z_i, X_i)_{i=1}^n\)，独立同分布。
目标量（estimand）：\(\beta\)（因果处理效应，线性结构）。
模型（讲者假设的线性 IV 模型，[0:29:25] 附近）：
\[\begin{cases} Y = D\beta + X\gamma + \varepsilon && (\text{结构方程})\\ D = Z\pi + X\zeta + \eta && (\text{第一阶段}) \end{cases}\]
其中 \(\varepsilon\) 与 \(\eta\) 可相关（因为 \(U\) 未观测）；\(Z\) 与 \(U\) 独立且满足排他性（不出现在结构方程中）。转写稿里指出为了简便假设无协方差（但论文中松了这一假设）。
可获有效应检验：基于第二阶段的 Wald 统计量 \(T_n = \hat\beta_{\text{TSLS}} / \text{se}(\hat\beta_{\text{TSLS}})\)。
预检验：计算 F 统计量 \(F_{\text{first}}\) 用于检验 \(H_0:\pi=0\)。若 \(F_{\text{first}} \ge c_0\)（通常 \(c_0 = 10\)），则官称 IV 为 "强"，然后继续使用 \(T_n\) 检验 \(H_0:\beta = \beta_0\)。
问题：标准 "casual" 推断直接将 \(T_n\) 与近似标准正态比较（忽略 \(\{\,F_{\text{first}} \ge 10\,\}\) 这一事件），其 Null 分布不正确。

最简特例

假设： - 无预设定控制变量 \(X\)； - 单 IV \(Z\) 为二值（如近/远大学）； - 线性模型且扰动 \(\varepsilon,\eta\) 正态。

则第一阶段回归给出：

\[\hat\pi = (Z'Z)^{-1}Z'D,\quad F_{\text{first}} = \hat\pi^2 / ( \cdot )\]

且 TSLS 估计为：

\[\hat\beta_{\text{TSLS}} = (D'P_Z D)^{-1} D'P_Z Y.\]

选择性推断对 \(T_n\) 条件于事件 \(\{F_{\text{first}} \ge 10\}\) 的分布进行推导。核心洞察：F 检验 "通过" 等价于在某种 L1 正则化回归中选择 \(\pi\) 的符号（非零）。利用这一对应关系，使用 KKT 条件将条件分布转化为一个可抽样的形式，从而得到经过预检验校正的条件 p 值。

三、报告主体：讲者讲了什么¶

1. 背景与问题引入 [0:02:34 – 0:05:04]

IV 常见实践：讲者估计 "93%" 的 IV 文献先用 F 检验筛选 IV，若 F > 10 再汇报 TSLS 结果（引用 Swanson & Hernán 2013 论文）。[0:03:01]
这一做法问题："当你先进行了 F 检验，再对处理效应进行测试——我把这叫做 Casul 推断——它实际上可能膨胀第一类错误。" [0:04:02] 讲者将此比作 file-drawer / p-hacking / publication bias。 [0:04:12]
文章贡献：使用选择性推断提供一种 "更诚实" 的框架；优点是可以沿用现有第二阶段检验统计量（TSLS、LIML、AR、CLR）；局限性：理论基于线性模型（论文中有一定放松），且非简单样本分割但功力更强。 [0:04:18 – 0:05:03]

2. IV 回顾 & DAG [0:05:50 – 0:06:37]

讲解三个核心假设 (Relevance, Unconfoundedness, Exclusion restriction)；经典 DAG 图。 [0:06:15]
实例：疟疾与儿童发育迟缓——使用镰状细胞特征作为基因 IV（援引自己过去的合作工作：Kang et al., 2013, 2016）。 [0:07:58]

3. 卡牌（Card 1993）例子 – 教育回报 [0:10:25 – 0:11:53]

讲者展示卡牌数据（log hourly wages、years of schooling），并向观众示出 F 检验的结果：卡牌重新分析的 F = 13–15 左右。 [0:14:13]
卡牌的分析计划：先用 F 检验验证 proximity to college 是一个强工具（F > 10）；发现 F ≈ 13–15 后，他选择用 TSLS 来估计因果效应并得出显著结论（点估计 around 0.13）。 [0:14:25 – 0:14:44]
讲者强调："如果你对选择性推断有所了解，你就会发现这里的 p 值实际上没有考虑你在前面所做的 F 检验。" [0:14:47 – 0:15:01]

4. “香蕉类比” [0:15:57]

讲者转述其姐妹的解释：如果你愿意付 10 美元买一根香蕉，你就应该对这根香蕉的质量用类似价位的香蕉去评估（而不是一成不变地用超市里随便其他香蕉的标准）。这对应：你接受了“IV 强”这一门槛，就应该把 null 分布修正到“在已知道 IV 够强”的条件下。

5. 问题有多普遍？ [0:16:31 – 0:17:02]

Swanson & Hernán: 81% 的医学 IV 论文使用 F 检验筛选 IV。 [0:16:37]
Andrews, Stock & Sunda (2019) 汇总 AER 论文中 108 个模型的第一阶段 F 值，显示许多值紧贴阈值 10。讲者指出：“我觉得让我震惊的是，有很多人将自己选择在 F 正好高于 10 的区域。” [0:16:53 – 0:17:26]

6. 形式化框架 [0:18:06 – 0:19:10]

讲者给出记号： - 目标：检验 \(\beta = \beta_0\) 基于某种检验统计量 \(T\)。 - 预检验的条件：\(F_{\text{first}} \ge c_0\)，其中 \(c_0=10\) 要么根据用户选择。 - "Casual" 推断（红色）：

\[p = \mathbb{P}_{\beta_0}(T_{\text{obs}} > T \mid \text{无预检验} )\]

- “更诚实”推断（蓝色）：

\[p_{\text{cond}} = \mathbb{P}_{\beta_0}(T_{\text{obs}} > T \mid F_{\text{first}} \ge c_0 )\]

7. 主要图形：条件分布被扭曲 [0:19:55 – 0:21:31]

讲者展示一个极其重要的四面板图（见幻灯片）。
在 null 下，\(T\) 是否被 F≥10 条件影响很大——比如，y 的边际分布变成移位正态；x 的边际分布变成截断正态；联合正态的等高线在经过条件后被严重拉长。 [0:21:31] 讲者指出：这实质上改变了 Null 分布。

8. 现有方法及其不足 [0:21:41 – 0:23:52]

样本分割（Sample splitting）: 简单但低 power（且 Wild & Fithian 证明它是不可决策的）；
粗暴的 MCMC（Brute-force MH）: 在小样本（n=50）上已经十分缓慢且需要额外假设；
Econometric approaches: 基于充分性 / 相似性限制太多——不能处理排序式/其他非标准的选择步骤；
Andrews 两置信区间方法: 看起来保守（讲者提到可能进一步研究）。

9. 报告的解法概览 [0:24:00 – 0:27:56]

步骤 1：将 "F ≥ c₀" 事件编码为一种带 L1 惩罚的 支持恢复问题（support recovery）（如 lasso）。 [0:24:16]
步骤 2：利用 KKT 条件 和 变量变换公式 将条件密度化简为一个可处理的形式。这一阶段利用 Lee et al. / Markovic & Taylor 的框架，或用随机化（randomized） 版本（类比 data carving）以提高数值稳定性。 [0:24:34 – 0:25:56]
步骤 3：对原始数据，观测的真密度 \(f(s)\) 是未知的；因此需要使用 渐近枢轴方法：通过旋转分解（rotation decomposition）条件化出一组充分统计量 \(O\)，使得条件于 \(O\) 后，\(T\) 的分布变为渐近无独立于 \(s\) 的 nuisance param。 [0:26:59 – 0:27:24]
步骤 4：使用 Gibbs 采样从条件密度中采样；条件 p 值为采样值中大于 \(T_{\text{obs}}\) 的比例。 [0:27:32 – 0:28:23]
论文中的定理确保：在六阶矩条件下，该条件 p 值在 Null 下均匀渐近分布（从而控制 Type I error）。 [0:28:24 – 0:29:15]

10. 扩展 [0:29:37 – 0:30:31]

弱 IV 情况：若 F < c₀，专辑使用 AR/CLR/LIML 检验处理效应。论文同样推导了 "选择弱 IV 后" 的条件 Null，允许使用者仍然使用弱 IV 稳健检验并经过选择性修正。
Lasso-IV 选择: 也提供了使用 Lasso 选择工具 Z 时的条件 Null。

11. 模拟与 Card 再分析结果 [0:30:33 – 0:33:34]

对于 Card 模型1与模型2：卡牌原显著结论（via TSLS，p < .05 且置信区间不包含 0）在 应用该条件方法后变成不显著，置信区间包含 0。 [0:32:51]
讲者强调 "此效应在 F 统计量紧贴阈值 10 时最显著" ——而这正是许多已发表的 AER 论文所处的区域。 [0:33:53]

12. 最后结论 [0:33:55 – 0:37:53]

重申：忽略预检验会导致 Type I error 膨胀，正确做法是使用选择性推断。
讲者对疫情里社会隔离的滑稽比喻结束并表示感谢。

讨论环节 [0:38:26 – 0:54:30]（Will Fithian）

Fithian 提出 "第一眼看，我觉得 Type I error 应该是反向（低估）而非膨胀" 的直觉；后经他本人重新推导得出：是与不是取决于协方差符号等细节。
他也提出一个有趣的视频，用线性回归形式展示了 TSLS 检验统计量如何等于 \(Y\) 在 \(D\) 投影方向的标准相关，而 "选强 IV" 恰好选中了那些误差能放大这个相关的样本。
关键提问："若 F < 10，用 AR/CLR 是否就安全？" 讲者回答：这些检验在 F 接近边界时同样会受预检验的影响（分布偏移）；但在 F 非常弱时 "弱工具偏倚会占主导"，它基本不受影响。
Fithian 又提出一个多重 IV 的 "射击" 比喻（选不同 IV 试到 F 大为止）。讲者表示这正是 Wang & Tchetgen Tchetgen 等讨论的方向。

四、对应论文与开放问题¶

对应论文： - Bi, Nan, Kang, Hyunseung, & Taylor, Jonathan (2020). Inferring Treatment Effects After Testing Instrument Strength in Linear Models. arXiv: 2003.06723. （转写核实到的标题与 arXiv ID 与幻灯片完全一致。）

报告留下的开放问题（每条扎根于转写的具体时间/处）：

非线性/更一般模型中的推广：「该方法目前依赖于线性模型；论文放松了一点，但并非无假设。」（[0:34:13]）—— 能否扩展到二元/计数结局或非线性结构方程中？这里是否有高维部分（using control functions, etc.）如拉开差距？
多重预检验的顺序选择性推断：「如果我们在同一个 IV 分析中还执行了排他性检验（如 Falsification test），如何整合？」（转写中未详细展开，但讲者笼统提到其他 IV 检验也允许；[0:29:37]）—— 多重预检验的序贯选择性修正尚未解决。
与其他选择性推断框架的整合：讨论中 Will Fithian 提问，F < 10 时是否直接切换弱 IV 方法即可？讲者指出「AR 检验即使在弱 IV 场景下，若先做了 F 检验，其分布也改变」（[0:54:40]）。这指向一个综合框架：「先用修正后的弱 IV 条件分布来处理所有 F 情况，而不是先一个二择「强IV/弱IV」」—— 这如何实现？
实际推广与检查便捷性的平衡：讲者坦承该方法不是简单的样本分割，且需要较复杂的 MCMC（[0:24:38] "it takes a long time"）。如何降低这个障碍使其更接近「Push a button」式的应用？

Maintained by 陈星宇 · Homepage · Source on GitHub