Sensitivity analysis and power in the presence of many weak instruments: Application to the effect of incarceration on future earnings¶

作者: Ashkan Ertefaie, Jesse Y. Hsu, Harding Harding, Jeffrey Morenoff, Dylan S. Small
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Pennsylvania（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/24-aoas1920

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在因果推断的工具变量（IV）框架下，当研究者拥有大量对内生处理变量关联微弱（弱工具变量）的候选IV，且数据存在样本选择偏差时，如何对处理效应的IV估计进行稳健的推断与敏感性分析。当前该方向的成熟度处于“方法刚成型、理论性质正在被刻画”的阶段：多弱IV的估计理论（如 Jackknife IV、Limited Information Maximum Likelihood 的渐近分析）已有数篇奠基工作，但将“多弱IV”与“选择偏差”耦合并同时提供功效计算的敏感性分析框架，在本文之前基本是空白。

发展脉络（history）： - 奠基工作：多弱IV的估计与推断起步于 Bekker (1994) 与 Chao & Swanson (2005)，他们刻画了工具变量数目相对于样本量趋于无穷时，标准2SLS估计的不一致性，为“多弱IV需要特殊处理”定下基调。作者在 intro 中引用它们时指出，标准 IV 方法在这些设定下渐近分布不再正态，推断失效。 - 主要进展（多弱IV的估计与推断）：针对上述推断失效，Angrist & Pischke (2009) 提出了 LIML 与 Jackknife IV (JIVE) 作为多弱IV下的替代估计量；随后 Hausman et al. (2012) 与 Hansen & Kozbur (2014) 进一步在多弱IV设定下引入了 LIML 的偏倚校正与惩罚/选择机制。作者引用 Hansen & Kozbur (2014) 时强调，其留一（leave-one-out）思想是处理多弱IV偏倚的关键技术路线。 - 主要进展（敏感性分析）：在IV敏感性分析线上，Conley et al. (2012) 提出了基于放宽排他性约束的局部零假设敏感性分析；Small et al. (2017) 则针对潜在未测量混杂与选择偏差发展了敏感性框架。作者引用 Small et al. (2017) 的原话判断是：该文虽处理了选择偏差，但未考虑多弱IV对推断的放大效应。 - 当前 frontier 与本文位置：当前 frontier 在于如何将“多弱IV的偏倚/方差校正”与“选择偏差/排他性约束违犯的敏感性量化”统一在一个框架下，并给出可操作的检验功效。本文填补的正是这个口子：作者把 Small et al. (2017) 的选择偏差敏感性参数嵌入到多弱IV的 JIVE 估计框架中，并推导了该敏感性检验的解析功效公式。

子线索聚类： 1. 多弱IV的估计与偏倚校正：Bekker (1994), Chao & Swanson (2005), Hausman et al. (2012), Hansen & Kozbur (2014)。这一簇在做的事情是：当 IV 数目 \(K\) 随 \(n\) 增长且与内生变量弱相关时，标准 2SLS 偏倚阶数为 \(O(K/n)\)，需用 JIVE/LIML/留一法消除偏倚并修正方差。 2. IV 排他性约束违犯的敏感性分析：Conley et al. (2012)。这一簇在做的事情是：将排他性约束从“严格为零”放宽为“属于某区间”，看估计量如何随该区间参数变化。 3. IV 设定下的选择偏差与混杂敏感性：Small et al. (2017)。这一簇在做的事情是：当样本非随机抽取（如只观测到被判刑的子群）或存在未测量混杂时，如何用敏感性参数量化因果效应的偏倚方向与大小。

这个方向在追问的核心问题： 1. 多弱IV下估计量的渐近偏倚与方差如何精确刻画？ 已知 2SLS 偏倚为 \(O(K/n)\)，JIVE 可消除至 \(o(1)\)，但方差估计需留一修正。瓶颈在于当 \(K\) 极大且工具极弱时，方差估计的稳定性与正态逼近的可靠性仍存疑。 2. 选择偏差与多弱IV如何交互影响因果效应的识别与推断？ 选择偏差引入的偏倚与弱IV带来的偏倚是否叠加？当前主流方法（如 JIVE）假设无选择偏差，一旦有选择偏差，JIVE 的正态推断直接失效。瓶颈在于缺乏同时处理两者的统一框架。 3. 敏感性分析中，如何计算检验的功效以指导研究设计？ 已有敏感性分析多停留在“偏倚有多大”的描述，缺乏“在给定敏感性参数下，检验能以多大概率拒绝错误零假设”的量化。瓶颈在于功效公式的解析推导在多弱IV+选择偏差设定下极为复杂。

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：“既有敏感性分析（如 Small et al. 2017）未考虑多弱IV带来的推断失效，既有多弱IV方法（如 Hansen & Kozbur 2014）未考虑选择偏差，因此需要一个同时 robust to both 的框架。”这让本文的“JIVE + 选择偏差敏感性参数 + 功效公式”成为显然的下一步。 - 被淡化或回避的竞争路线：作者未在 intro 中讨论基于高维惩罚/选择（如 Post-LASSO IV、Belloni et al. 2012）的路线——这条路线在多弱IV中通过选择强IV来避免弱IV偏倚，而非用 JIVE 容纳所有弱IV。作者也未讨论半参数/非参数 IV（如 Newey 2013 的系列估计量）在多弱IV下的表现。 - 明显该被引却未出现的：Belloni et al. (2012, 2014) 关于高维 IV 选择与 LASSO 置信区间的工作，以及 Kang et al. (2016) 关于 proxy/proximal IV 的工作——这些是处理“许多IV”的另一主流路线，缺失它们使得本文的“JIVE 路线”显得无可替代，但这值得研究者去查证。

张力：未见明显对立引用。多弱IV的 JIVE 路线与高维选择路线在文献中更多是“并行发展、各自适用”，而非在同一设定下得出相反结论。选择偏差与多弱IV的交互在本文之前几乎未被理论刻画，因此尚无矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(n\)：样本量（观测到的被判刑个体总数）。
\(K\)：工具变量的数目（法官的数目），\(K\) 随 \(n\) 增长，\(K/n \to \alpha \in (0,1)\)。
\(Z_i\)：\(K\) 维向量，第 \(i\) 个个体的工具变量观测（法官 ID 的指示变量，属于某法官则对应分量为1，否则为0）。
\(D_i\)：二值内生处理变量（\(D_i=1\) 表示被判处监禁，\(D_i=0\) 表示未判处监禁）。
\(Y_i\)：观测结果变量（未来收入）。
\(X_i\)：外生协变量向量（如犯罪史、种族等）。
\(U_i\)：不可观测的混杂/结构误差项（影响 \(D_i\) 与 \(Y_i\)）。
\(\beta\)：要估的因果参数（局部平均处理效应 LATE，在单调性下等同于内生变量的结构系数）。
\(\pi\)：\(K\) 维向量，第一阶段系数（\(Z_i\) 对 \(D_i\) 的因果效应强度），\(\pi\) 的分量多数极小（弱IV）。
\(\gamma\)：敏感性参数，量化选择偏差的强度（因只观测到被判刑样本，\(U_i\) 与是否进入样本相关，导致 \(E[U_i|Z_i, X_i, \text{被观测}] \neq 0\)，\(\gamma\) 刻画这个非零期望的大小）。
可观测数据：研究者实际能观测到的是三元组 \((Z_i, D_i, Y_i)\) 及 \(X_i\)，仅限于进入判决环节的个体（被观测条件）。不可观测的是 \(U_i\)，以及那些未进入判决环节的个体的任何数据。

第二步：最小内核——二值处理、无协变量、单敏感性参数下的 JIVE 敏感性检验

剥掉高维协变量与多敏感性参数的壳，支撑整篇论文的最小内核是：在 \(K\) 个弱IV下，用 JIVE 估计 \(\beta\)，当存在选择偏差 \(\gamma\) 时，如何构造对 \(\gamma\) 稳健的检验，并算出该检验的功效。

在最简特例（无协变量 \(X_i\)，二值处理 \(D_i\)，单一选择偏差参数 \(\gamma\)）下： - 数据生成：\(D_i = Z_i^\top \pi + U_i\)，\(Y_i = D_i \beta + U_i\)。由于只观测到被判刑样本，\(E[U_i | \text{被观测}] = \gamma\)（选择偏差）。 - JIVE 估计量退化形式：标准 2SLS 估计量为 \(\hat{\beta}_{2SLS} = \beta + (D^\top P_Z D)^{-1} D^\top P_Z U\)，其中 \(P_Z = Z(Z^\top Z)^{-1}Z^\top\)。当 \(K\) 大且 \(\pi\) 弱时，\(D^\top P_Z D\) 中 \(D\) 的预测部分被 \(U\) 的投影污染，偏倚阶数为 \(O(K/n)\)。JIVE 的核心是留一：用 \(\hat{D}_i^{(-i)} = Z_i^\top \hat{\pi}^{(-i)}\)（排除第 \(i\) 个观测的第一阶段拟合）代替 \(\hat{D}_i\)，消除 \(U_i\) 自投影造成的偏倚。在最简情形下，JIVE 估计量 \(\hat{\beta}_{JIVE} \approx \beta + \frac{\sum_i (D_i - \hat{D}_i^{(-i)}) U_i}{\sum_i (D_i - \hat{D}_i^{(-i)}) D_i}\)。 - 选择偏差的侵入：若 \(E[U_i]=\gamma \neq 0\)，则 \(\hat{\beta}_{JIVE}\) 的概率极限偏移为 \(\beta + \gamma \cdot c\)（\(c\) 取决于第一阶段强度与 \(K/n\)）。作者的核心思路是：不假设 \(\gamma=0\)，而是把 \(\gamma\) 当作已知参数，构造偏倚校正后的检验统计量。 - 最小内核命题：在给定 \(\gamma\) 下，校正偏倚后的 JIVE 统计量 \(T(\gamma) = \frac{\hat{\beta}_{JIVE} - \beta_0 - \text{Bias}(\gamma)}{\hat{\sigma}_{JIVE}}\) 依分布收敛于标准正态，且其非中心参数可解析写出，从而功效 \(\Pr(|T(\gamma)| > z_{\alpha/2} | \beta=\beta_1, \gamma)\) 可作为 \(\beta_1, \gamma, n, K, \pi\) 的显式函数算出。 - 为什么成立：JIVE 的留一消除了 \(O(K/n)\) 的自投影偏倚，使得方差估计可用交叉拟合（cross-fitting）稳定算出；选择偏差 \(\gamma\) 引起的偏倚是线性的，可从 JIVE 的分子中直接减去；减去后，残差的结构在多弱IV渐近下仍可逼近正态，非中心参数只依赖 \(\pi\) 的整体强度（而非单个弱IV），因此功效公式能闭式写出。

三、这篇论文做了什么¶

三句话： ①研究了在多弱IV与样本选择偏差并存时，如何对IV估计的因果效应进行敏感性分析与功效计算的问题。 ②核心工具是 Jackknife IV 估计量（消除多弱IV偏倚）结合选择偏差敏感性参数的偏倚校正，并推导了该校正检验的渐近分布与解析功效公式。 ③主要结论是：所提敏感性检验在多弱IV下渐近正态且功效可由闭式公式精确预测；实证表明，在密歇根州重罪判决数据中，监禁显著降低未来收入，且该结论对合理范围的选择偏差稳健。

关键设定与假设： - 设定：线性IV模型 \(Y_i = D_i \beta + X_i^\top \xi + U_i\)，\(D_i = Z_i^\top \pi + X_i^\top \eta + V_i\)，\(Z_i\) 为 \(K\) 维指示变量（法官ID），\(K/n \to \alpha \in (0,1)\)。 - 假设 1（多弱IV）：\(\pi^\top \pi / n \to \mu^2 > 0\)（整体工具强度非零，但单个 \(\pi_k\) 可趋于0），即“许多弱IV”设定。相比 Hansen & Kozbur (2014) 的类似设定，本文进一步允许 \(\mu^2\) 较小（弱整体强度）。 - 假设 2（选择偏差参数化）：\(E[U_i | Z_i, X_i, S_i=1] = \gamma \cdot h(Z_i, X_i)\)，其中 \(S_i=1\) 表示被观测（进入判决），\(h\) 为已知函数（通常取1或线性函数），\(\gamma\) 为未知的敏感性参数。相比 Small et al. (2017) 假设 \(E[U_i]=0\)（无选择偏差），本文将其放宽为 \(\gamma \neq 0\) 并量化。 - 假设 3（排他性约束违犯参数化）：允许 \(Z_i\) 直接影响 \(Y_i\)（违犯排他性），效应大小由另一敏感性参数 \(\delta\) 刻画，\(E[\text{直接效应}] = \delta\)。这与 Conley et al. (2012) 的放宽思路一致，但本文将其与选择偏差 \(\gamma\) 联立。 - 假设 4（单调性与独立性）：法官分配对处理效应满足单调性（同一法官倾向对所有个体同向），且法官分配与潜在结果独立（给定 \(X_i\)）。这是标准 IV-LATE 假设，未放宽。

主要结果： - 定理 1（JIVE 的渐近正态性与偏倚校正）：在假设 1-3 下，JIVE 估计量 \(\hat{\beta}_{JIVE}\) 减去由 \(\gamma, \delta\) 决定的线性偏倚项后，依分布收敛于正态：\(\sqrt{n}(\hat{\beta}_{JIVE} - \beta - \text{Bias}(\gamma, \delta)) \to_d N(0, V_{JIVE})\)。方差 \(V_{JIVE}\) 由留一残差的交叉拟合给出。直觉：JIVE 消除了 \(O(K/n)\) 的自投影偏倚，选择偏差与排他性违犯引起的偏倚是参数 \(\gamma, \delta\) 的线性函数，可精确扣除。必要条件是 \(\mu^2 > 0\)（整体IV强度非零）与 \(K/n \to \alpha < 1\)（IV数目不超样本量）。 - 定理 2（敏感性检验的功效公式）：对零假设 \(H_0: \beta = \beta_0\)（在给定 \(\gamma, \delta\) 下），检验统计量 \(T(\gamma, \delta) = (\hat{\beta}_{JIVE} - \beta_0 - \text{Bias}(\gamma, \delta)) / \hat{\sigma}_{JIVE}\) 的功效为 \(\Pr(|T| > z_{\alpha/2}) = \Phi\left( \frac{\sqrt{n}(\beta_1 - \beta_0)}{\sqrt{V_{JIVE}}} - z_{\alpha/2} \right) + \Phi\left( -\frac{\sqrt{n}(\beta_1 - \beta_0)}{\sqrt{V_{JIVE}}} - z_{\alpha/2} \right)\)，其中 \(\beta_1\) 为真实效应，\(V_{JIVE}\) 可由第一阶段拟合与 \(\pi\) 的整体强度估计代入闭式算出。直觉：偏倚扣除后，检验退化回标准正态位移问题，非中心参数只依赖 \(\sqrt{n}(\beta_1 - \beta_0)/\sqrt{V_{JIVE}}\)，而 \(V_{JIVE}\) 在多弱IV下有显式表达。解决的技术难点：多弱IV下方差估计的不稳定性——作者用留一残差 \(\hat{U}_i^{(-i)} = Y_i - \hat{\beta}_{JIVE}^{(-i)} D_i\) 的交叉项求和代替标准残差，避免了 \(O(K/n)\) 的方差偏倚。 - 定理 3（选择偏差 \(\gamma\) 的可识别界）：在给定 \(\delta\) 下，\(\gamma\) 无法被数据唯一识别，但可由外生协变量与法官倾向的矩条件给出 \(\gamma\) 的上下界 \(\gamma \in [\gamma_{min}, \gamma_{max}]\)。作者用此界构造了“最不利情形”（worst-case）的敏感性检验：取 \(\gamma\) 使偏倚最大，看检验是否仍拒绝。

证明路线与技术技巧： - 整体路线： 1. 写出 JIVE 估计量的分子与分母的投影分解，分离出 \(\pi\) 的信号部分与 \(U/V\) 的噪声部分。 2. 用留一法消除噪声部分中 \(U_i\) 对自身 \(D_i\) 的自投影（\(P_{Z,ii} U_i^2\) 项），使分子偏倚从 \(O(K/n)\) 降至 \(o(1)\)。 3. 将选择偏差 \(\gamma\) 与排他性违犯 \(\delta\) 引入矩条件，计算它们对 JIVE 分子的线性偏倚贡献，得到 \(\text{Bias}(\gamma, \delta)\) 的闭式。 4. 用留一残差构造方差估计 \(\hat{V}_{JIVE}\)，证明其在多弱IV下一致（\(\hat{V}_{JIVE} / V_{JIVE} \to_p 1\)）。 5. 将偏倚校正后的 JIVE 标准化，用 Martingale CLT 证明其渐近正态，非中心参数由 \(\beta_1 - \beta_0\) 与 \(V_{JIVE}\) 决定，直接写出功效。 - 关键跳跃点：方差估计的一致性（步骤4）。在多弱IV下，标准 2SLS 残差 \(\hat{U}_i = Y_i - \hat{\beta}_{2SLS} D_i\) 因 \(\hat{\beta}_{2SLS}\) 的 \(O(K/n)\) 偏倚而失效；JIVE 残差虽偏倚小，但若用全样本拟合 \(\hat{\beta}_{JIVE}\) 算残差，仍会引入交叉项偏倚。作者的关键跳跃是：用完全留一的 JIVE 残差 \(\hat{U}_i^{(-i)}\)（排除第 \(i\) 个观测后重新拟合 \(\hat{\beta}_{JIVE}^{(-i)}\)），使得 \(\hat{U}_i^{(-i)}\) 与 \(Z_i\) 独立，从而交叉项 \(E[\hat{U}_i^{(-i)} Z_i]\) 的偏倚消除。 - 技术技巧点名： - Leave-one-out (留一法)：用于消除 JIVE 分子中的自投影偏倚与方差估计中的交叉项偏倚，是整篇证明的基石。 - Martingale CLT（鞅中心极限定理）：用于证明 JIVE 标准化统计量的渐近正态——因为留一后，JIVE 分子可写为鞅差分序列的和（每个观测的贡献依赖于排除它后的拟合），满足鞅条件。 - Worst-case sensitivity bounds（最不利敏感性界）：用于构造 \(\gamma\) 的上下界，将不可识别的 \(\gamma\) 转化为可操作的保守检验。 - Closed-form power derivation（闭式功效推导）：依赖偏倚线性扣除后统计量的正态位移结构，非中心参数由 \(V_{JIVE}\) 的显式表达决定。

真实例子与应用： - 数据：密歇根州 2003-2006 年重罪判决案例，\(n \approx 30,000\)，\(K \approx 100\)（法官数目）。 - 如何用上去：将法官 ID 作为 \(Z_i\)（\(K\) 维指示向量），监禁判决作为 \(D_i\)，未来收入作为 \(Y_i\)，犯罪史等作为 \(X_i\)。因数据只含被判刑者（未判刑者不在数据中），存在选择偏差。用本文的 JIVE + 敏感性分析流程：先估 \(\hat{\beta}_{JIVE}\)，再对 \(\gamma\)（选择偏差强度）与 \(\delta\)（排他性违犯强度）扫参数空间，在每个 \((\gamma, \delta)\) 组合下计算偏倚校正后的检验 \(T(\gamma, \delta)\) 与功效。 - 结果：\(\hat{\beta}_{JIVE} \approx -0.2\)（监禁降低收入约20%）。在 \(\gamma\) 扫至合理上界（选择偏差使未测量混杂解释收入变异的10%以内）时，检验仍拒绝 \(\beta=0\)；功效公式预测在当前 \(n, K\) 下，对 \(\beta=-0.1\) 的检验功效约0.8。 - 想说明什么：验证本文方法在真实多弱IV+选择偏差数据下的可操作性，展示敏感性分析如何量化“结论对选择偏差多稳健”，以及功效公式如何指导“需要多大样本才能在给定敏感性下检出效应”。

🔎 结论是否比证明窄： - 作者在定理陈述中严格证明了 \(K/n \to \alpha \in (0,1)\) 且 \(\mu^2 > 0\) 下的渐近正态与功效。但在 intro 与讨论中，作者泛泛 claim 该方法“robust to many weak instruments”，未明确界定 \(\mu^2\) 的下界（当 \(\mu^2\) 极小接近0时，JIVE 方差爆炸，功效公式失效——这一极端弱IV情形未被理论覆盖，只在模拟中略提）。 - 功效公式假设 \(\hat{V}_{JIVE}\) 一致，这在 \(K/n \to \alpha < 1\) 下严格成立，但作者在应用中 \(K/n \approx 0.003\)（远小于1），此时 \(\alpha \to 0\) 的渐近近似是否精确未被讨论——这是一个“证明在 \(\alpha \in (0,1)\) 下成立，但应用在 \(\alpha \approx 0\) 下”的缝隙。

四、开放问题（点到为止）¶

极端弱IV下的推断失效界：当整体工具强度 \(\mu^2 \to 0\)（极弱IV）时，JIVE 方差发散，本文的功效公式与正态逼近失效。要证/要估：在 \(\mu^2 \to 0\) 下，JIVE 敏感性检验的 minimax 功效下界是什么？扎根点：定理 2 的必要条件 \(\mu^2 > 0\) 与 intro 中“robust to many weak instruments”的泛泛 claim 之间的缝隙。
高维惩罚IV与JIVE的敏感性分析比较：本文未讨论 Belloni et al. (2012) 的 Post-LASSO IV 路线在多弱IV+选择偏差下的表现。要算/要证：在相同 \((\gamma, \delta)\) 敏感性参数下，LASSO 选择强IV后的 2SLS 偏倚校正与 JIVE 偏倚校正，哪个功效更高？扎根点：intro 缺失的高维IV选择文献，以及本文 framing 中对 JIVE 路线的唯一化。
非线性选择偏差的参数化：本文假设 \(E[U_i | \text{被观测}] = \gamma \cdot h(Z_i, X_i)\) 且 \(h\) 已知（线性），若 \(h\) 未知或非线性（如 \(h\) 依赖法官倾向的阈值），偏倚不再是 \(\gamma\) 的线性函数，闭式功效公式是否仍可推出？扎根点：假设 2 中 \(h\) 为已知函数的限制，以及定理 3 对 \(\gamma\) 界的线性矩条件依赖。
\(\alpha \to 0\) 的渐近近似精度：本文理论在 \(K/n \to \alpha \in (0,1)\) 下建立，但实证中 \(K/n \approx 0.003\)。要证：在 \(K\) 固定或 \(K/n \to 0\) 下，JIVE 敏感性检验的 Edgeworth 展开或高阶修正是什么？扎根点：定理 1-2 的渐近设定与实际数据参数的差距，以及功效公式在 \(\alpha \approx 0\) 下的模拟验证仅限于几个点，缺乏理论刻画。

（要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向“极弱IV下的 minimax 功效”或“非线性选择偏差” = 共识真 gap；互相打架于“JIVE vs LASSO IV” = 机会。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Sensitivity analysis and power in the presence of many weak instruments: Application to the effect of incarceration on future earnings¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论