Sensitivity analysis and power in the presence of many weak instruments: Application to the effect of incarceration on future earnings¶
作者: Ashkan Ertefaie, Jesse Y. Hsu, Harding Harding, Jeffrey Morenoff, Dylan S. Small
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Pennsylvania(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/24-aoas1920
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在因果推断的工具变量(IV)框架下,当研究者拥有大量对内生处理变量关联微弱(弱工具变量)的候选IV,且数据存在样本选择偏差时,如何对处理效应的IV估计进行稳健的推断与敏感性分析。当前该方向的成熟度处于“方法刚成型、理论性质正在被刻画”的阶段:多弱IV的估计理论(如 Jackknife IV、Limited Information Maximum Likelihood 的渐近分析)已有数篇奠基工作,但将“多弱IV”与“选择偏差”耦合并同时提供功效计算的敏感性分析框架,在本文之前基本是空白。
发展脉络(history): - 奠基工作:多弱IV的估计与推断起步于 Bekker (1994) 与 Chao & Swanson (2005),他们刻画了工具变量数目相对于样本量趋于无穷时,标准2SLS估计的不一致性,为“多弱IV需要特殊处理”定下基调。作者在 intro 中引用它们时指出,标准 IV 方法在这些设定下渐近分布不再正态,推断失效。 - 主要进展(多弱IV的估计与推断):针对上述推断失效,Angrist & Pischke (2009) 提出了 LIML 与 Jackknife IV (JIVE) 作为多弱IV下的替代估计量;随后 Hausman et al. (2012) 与 Hansen & Kozbur (2014) 进一步在多弱IV设定下引入了 LIML 的偏倚校正与惩罚/选择机制。作者引用 Hansen & Kozbur (2014) 时强调,其留一(leave-one-out)思想是处理多弱IV偏倚的关键技术路线。 - 主要进展(敏感性分析):在IV敏感性分析线上,Conley et al. (2012) 提出了基于放宽排他性约束的局部零假设敏感性分析;Small et al. (2017) 则针对潜在未测量混杂与选择偏差发展了敏感性框架。作者引用 Small et al. (2017) 的原话判断是:该文虽处理了选择偏差,但未考虑多弱IV对推断的放大效应。 - 当前 frontier 与本文位置:当前 frontier 在于如何将“多弱IV的偏倚/方差校正”与“选择偏差/排他性约束违犯的敏感性量化”统一在一个框架下,并给出可操作的检验功效。本文填补的正是这个口子:作者把 Small et al. (2017) 的选择偏差敏感性参数嵌入到多弱IV的 JIVE 估计框架中,并推导了该敏感性检验的解析功效公式。
子线索聚类: 1. 多弱IV的估计与偏倚校正:Bekker (1994), Chao & Swanson (2005), Hausman et al. (2012), Hansen & Kozbur (2014)。这一簇在做的事情是:当 IV 数目 \(K\) 随 \(n\) 增长且与内生变量弱相关时,标准 2SLS 偏倚阶数为 \(O(K/n)\),需用 JIVE/LIML/留一法消除偏倚并修正方差。 2. IV 排他性约束违犯的敏感性分析:Conley et al. (2012)。这一簇在做的事情是:将排他性约束从“严格为零”放宽为“属于某区间”,看估计量如何随该区间参数变化。 3. IV 设定下的选择偏差与混杂敏感性:Small et al. (2017)。这一簇在做的事情是:当样本非随机抽取(如只观测到被判刑的子群)或存在未测量混杂时,如何用敏感性参数量化因果效应的偏倚方向与大小。
这个方向在追问的核心问题: 1. 多弱IV下估计量的渐近偏倚与方差如何精确刻画? 已知 2SLS 偏倚为 \(O(K/n)\),JIVE 可消除至 \(o(1)\),但方差估计需留一修正。瓶颈在于当 \(K\) 极大且工具极弱时,方差估计的稳定性与正态逼近的可靠性仍存疑。 2. 选择偏差与多弱IV如何交互影响因果效应的识别与推断? 选择偏差引入的偏倚与弱IV带来的偏倚是否叠加?当前主流方法(如 JIVE)假设无选择偏差,一旦有选择偏差,JIVE 的正态推断直接失效。瓶颈在于缺乏同时处理两者的统一框架。 3. 敏感性分析中,如何计算检验的功效以指导研究设计? 已有敏感性分析多停留在“偏倚有多大”的描述,缺乏“在给定敏感性参数下,检验能以多大概率拒绝错误零假设”的量化。瓶颈在于功效公式的解析推导在多弱IV+选择偏差设定下极为复杂。
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:“既有敏感性分析(如 Small et al. 2017)未考虑多弱IV带来的推断失效,既有多弱IV方法(如 Hansen & Kozbur 2014)未考虑选择偏差,因此需要一个同时 robust to both 的框架。”这让本文的“JIVE + 选择偏差敏感性参数 + 功效公式”成为显然的下一步。 - 被淡化或回避的竞争路线:作者未在 intro 中讨论基于高维惩罚/选择(如 Post-LASSO IV、Belloni et al. 2012)的路线——这条路线在多弱IV中通过选择强IV来避免弱IV偏倚,而非用 JIVE 容纳所有弱IV。作者也未讨论半参数/非参数 IV(如 Newey 2013 的系列估计量)在多弱IV下的表现。 - 明显该被引却未出现的:Belloni et al. (2012, 2014) 关于高维 IV 选择与 LASSO 置信区间的工作,以及 Kang et al. (2016) 关于 proxy/proximal IV 的工作——这些是处理“许多IV”的另一主流路线,缺失它们使得本文的“JIVE 路线”显得无可替代,但这值得研究者去查证。
张力: 未见明显对立引用。多弱IV的 JIVE 路线与高维选择路线在文献中更多是“并行发展、各自适用”,而非在同一设定下得出相反结论。选择偏差与多弱IV的交互在本文之前几乎未被理论刻画,因此尚无矛盾结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(n\):样本量(观测到的被判刑个体总数)。
- \(K\):工具变量的数目(法官的数目),\(K\) 随 \(n\) 增长,\(K/n \to \alpha \in (0,1)\)。
- \(Z_i\):\(K\) 维向量,第 \(i\) 个个体的工具变量观测(法官 ID 的指示变量,属于某法官则对应分量为1,否则为0)。
- \(D_i\):二值内生处理变量(\(D_i=1\) 表示被判处监禁,\(D_i=0\) 表示未判处监禁)。
- \(Y_i\):观测结果变量(未来收入)。
- \(X_i\):外生协变量向量(如犯罪史、种族等)。
- \(U_i\):不可观测的混杂/结构误差项(影响 \(D_i\) 与 \(Y_i\))。
- \(\beta\):要估的因果参数(局部平均处理效应 LATE,在单调性下等同于内生变量的结构系数)。
- \(\pi\):\(K\) 维向量,第一阶段系数(\(Z_i\) 对 \(D_i\) 的因果效应强度),\(\pi\) 的分量多数极小(弱IV)。
- \(\gamma\):敏感性参数,量化选择偏差的强度(因只观测到被判刑样本,\(U_i\) 与是否进入样本相关,导致 \(E[U_i|Z_i, X_i, \text{被观测}] \neq 0\),\(\gamma\) 刻画这个非零期望的大小)。
- 可观测数据:研究者实际能观测到的是三元组 \((Z_i, D_i, Y_i)\) 及 \(X_i\),仅限于进入判决环节的个体(被观测条件)。不可观测的是 \(U_i\),以及那些未进入判决环节的个体的任何数据。
第二步:最小内核——二值处理、无协变量、单敏感性参数下的 JIVE 敏感性检验
剥掉高维协变量与多敏感性参数的壳,支撑整篇论文的最小内核是:在 \(K\) 个弱IV下,用 JIVE 估计 \(\beta\),当存在选择偏差 \(\gamma\) 时,如何构造对 \(\gamma\) 稳健的检验,并算出该检验的功效。
在最简特例(无协变量 \(X_i\),二值处理 \(D_i\),单一选择偏差参数 \(\gamma\))下: - 数据生成:\(D_i = Z_i^\top \pi + U_i\),\(Y_i = D_i \beta + U_i\)。由于只观测到被判刑样本,\(E[U_i | \text{被观测}] = \gamma\)(选择偏差)。 - JIVE 估计量退化形式:标准 2SLS 估计量为 \(\hat{\beta}_{2SLS} = \beta + (D^\top P_Z D)^{-1} D^\top P_Z U\),其中 \(P_Z = Z(Z^\top Z)^{-1}Z^\top\)。当 \(K\) 大且 \(\pi\) 弱时,\(D^\top P_Z D\) 中 \(D\) 的预测部分被 \(U\) 的投影污染,偏倚阶数为 \(O(K/n)\)。JIVE 的核心是留一:用 \(\hat{D}_i^{(-i)} = Z_i^\top \hat{\pi}^{(-i)}\)(排除第 \(i\) 个观测的第一阶段拟合)代替 \(\hat{D}_i\),消除 \(U_i\) 自投影造成的偏倚。在最简情形下,JIVE 估计量 \(\hat{\beta}_{JIVE} \approx \beta + \frac{\sum_i (D_i - \hat{D}_i^{(-i)}) U_i}{\sum_i (D_i - \hat{D}_i^{(-i)}) D_i}\)。 - 选择偏差的侵入:若 \(E[U_i]=\gamma \neq 0\),则 \(\hat{\beta}_{JIVE}\) 的概率极限偏移为 \(\beta + \gamma \cdot c\)(\(c\) 取决于第一阶段强度与 \(K/n\))。作者的核心思路是:不假设 \(\gamma=0\),而是把 \(\gamma\) 当作已知参数,构造偏倚校正后的检验统计量。 - 最小内核命题:在给定 \(\gamma\) 下,校正偏倚后的 JIVE 统计量 \(T(\gamma) = \frac{\hat{\beta}_{JIVE} - \beta_0 - \text{Bias}(\gamma)}{\hat{\sigma}_{JIVE}}\) 依分布收敛于标准正态,且其非中心参数可解析写出,从而功效 \(\Pr(|T(\gamma)| > z_{\alpha/2} | \beta=\beta_1, \gamma)\) 可作为 \(\beta_1, \gamma, n, K, \pi\) 的显式函数算出。 - 为什么成立:JIVE 的留一消除了 \(O(K/n)\) 的自投影偏倚,使得方差估计可用交叉拟合(cross-fitting)稳定算出;选择偏差 \(\gamma\) 引起的偏倚是线性的,可从 JIVE 的分子中直接减去;减去后,残差的结构在多弱IV渐近下仍可逼近正态,非中心参数只依赖 \(\pi\) 的整体强度(而非单个弱IV),因此功效公式能闭式写出。
三、这篇论文做了什么¶
三句话: ①研究了在多弱IV与样本选择偏差并存时,如何对IV估计的因果效应进行敏感性分析与功效计算的问题。 ②核心工具是 Jackknife IV 估计量(消除多弱IV偏倚)结合选择偏差敏感性参数的偏倚校正,并推导了该校正检验的渐近分布与解析功效公式。 ③主要结论是:所提敏感性检验在多弱IV下渐近正态且功效可由闭式公式精确预测;实证表明,在密歇根州重罪判决数据中,监禁显著降低未来收入,且该结论对合理范围的选择偏差稳健。
关键设定与假设: - 设定:线性IV模型 \(Y_i = D_i \beta + X_i^\top \xi + U_i\),\(D_i = Z_i^\top \pi + X_i^\top \eta + V_i\),\(Z_i\) 为 \(K\) 维指示变量(法官ID),\(K/n \to \alpha \in (0,1)\)。 - 假设 1(多弱IV):\(\pi^\top \pi / n \to \mu^2 > 0\)(整体工具强度非零,但单个 \(\pi_k\) 可趋于0),即“许多弱IV”设定。相比 Hansen & Kozbur (2014) 的类似设定,本文进一步允许 \(\mu^2\) 较小(弱整体强度)。 - 假设 2(选择偏差参数化):\(E[U_i | Z_i, X_i, S_i=1] = \gamma \cdot h(Z_i, X_i)\),其中 \(S_i=1\) 表示被观测(进入判决),\(h\) 为已知函数(通常取1或线性函数),\(\gamma\) 为未知的敏感性参数。相比 Small et al. (2017) 假设 \(E[U_i]=0\)(无选择偏差),本文将其放宽为 \(\gamma \neq 0\) 并量化。 - 假设 3(排他性约束违犯参数化):允许 \(Z_i\) 直接影响 \(Y_i\)(违犯排他性),效应大小由另一敏感性参数 \(\delta\) 刻画,\(E[\text{直接效应}] = \delta\)。这与 Conley et al. (2012) 的放宽思路一致,但本文将其与选择偏差 \(\gamma\) 联立。 - 假设 4(单调性与独立性):法官分配对处理效应满足单调性(同一法官倾向对所有个体同向),且法官分配与潜在结果独立(给定 \(X_i\))。这是标准 IV-LATE 假设,未放宽。
主要结果: - 定理 1(JIVE 的渐近正态性与偏倚校正):在假设 1-3 下,JIVE 估计量 \(\hat{\beta}_{JIVE}\) 减去由 \(\gamma, \delta\) 决定的线性偏倚项后,依分布收敛于正态:\(\sqrt{n}(\hat{\beta}_{JIVE} - \beta - \text{Bias}(\gamma, \delta)) \to_d N(0, V_{JIVE})\)。方差 \(V_{JIVE}\) 由留一残差的交叉拟合给出。直觉:JIVE 消除了 \(O(K/n)\) 的自投影偏倚,选择偏差与排他性违犯引起的偏倚是参数 \(\gamma, \delta\) 的线性函数,可精确扣除。必要条件是 \(\mu^2 > 0\)(整体IV强度非零)与 \(K/n \to \alpha < 1\)(IV数目不超样本量)。 - 定理 2(敏感性检验的功效公式):对零假设 \(H_0: \beta = \beta_0\)(在给定 \(\gamma, \delta\) 下),检验统计量 \(T(\gamma, \delta) = (\hat{\beta}_{JIVE} - \beta_0 - \text{Bias}(\gamma, \delta)) / \hat{\sigma}_{JIVE}\) 的功效为 \(\Pr(|T| > z_{\alpha/2}) = \Phi\left( \frac{\sqrt{n}(\beta_1 - \beta_0)}{\sqrt{V_{JIVE}}} - z_{\alpha/2} \right) + \Phi\left( -\frac{\sqrt{n}(\beta_1 - \beta_0)}{\sqrt{V_{JIVE}}} - z_{\alpha/2} \right)\),其中 \(\beta_1\) 为真实效应,\(V_{JIVE}\) 可由第一阶段拟合与 \(\pi\) 的整体强度估计代入闭式算出。直觉:偏倚扣除后,检验退化回标准正态位移问题,非中心参数只依赖 \(\sqrt{n}(\beta_1 - \beta_0)/\sqrt{V_{JIVE}}\),而 \(V_{JIVE}\) 在多弱IV下有显式表达。解决的技术难点:多弱IV下方差估计的不稳定性——作者用留一残差 \(\hat{U}_i^{(-i)} = Y_i - \hat{\beta}_{JIVE}^{(-i)} D_i\) 的交叉项求和代替标准残差,避免了 \(O(K/n)\) 的方差偏倚。 - 定理 3(选择偏差 \(\gamma\) 的可识别界):在给定 \(\delta\) 下,\(\gamma\) 无法被数据唯一识别,但可由外生协变量与法官倾向的矩条件给出 \(\gamma\) 的上下界 \(\gamma \in [\gamma_{min}, \gamma_{max}]\)。作者用此界构造了“最不利情形”(worst-case)的敏感性检验:取 \(\gamma\) 使偏倚最大,看检验是否仍拒绝。
证明路线与技术技巧: - 整体路线: 1. 写出 JIVE 估计量的分子与分母的投影分解,分离出 \(\pi\) 的信号部分与 \(U/V\) 的噪声部分。 2. 用留一法消除噪声部分中 \(U_i\) 对自身 \(D_i\) 的自投影(\(P_{Z,ii} U_i^2\) 项),使分子偏倚从 \(O(K/n)\) 降至 \(o(1)\)。 3. 将选择偏差 \(\gamma\) 与排他性违犯 \(\delta\) 引入矩条件,计算它们对 JIVE 分子的线性偏倚贡献,得到 \(\text{Bias}(\gamma, \delta)\) 的闭式。 4. 用留一残差构造方差估计 \(\hat{V}_{JIVE}\),证明其在多弱IV下一致(\(\hat{V}_{JIVE} / V_{JIVE} \to_p 1\))。 5. 将偏倚校正后的 JIVE 标准化,用 Martingale CLT 证明其渐近正态,非中心参数由 \(\beta_1 - \beta_0\) 与 \(V_{JIVE}\) 决定,直接写出功效。 - 关键跳跃点:方差估计的一致性(步骤4)。在多弱IV下,标准 2SLS 残差 \(\hat{U}_i = Y_i - \hat{\beta}_{2SLS} D_i\) 因 \(\hat{\beta}_{2SLS}\) 的 \(O(K/n)\) 偏倚而失效;JIVE 残差虽偏倚小,但若用全样本拟合 \(\hat{\beta}_{JIVE}\) 算残差,仍会引入交叉项偏倚。作者的关键跳跃是:用完全留一的 JIVE 残差 \(\hat{U}_i^{(-i)}\)(排除第 \(i\) 个观测后重新拟合 \(\hat{\beta}_{JIVE}^{(-i)}\)),使得 \(\hat{U}_i^{(-i)}\) 与 \(Z_i\) 独立,从而交叉项 \(E[\hat{U}_i^{(-i)} Z_i]\) 的偏倚消除。 - 技术技巧点名: - Leave-one-out (留一法):用于消除 JIVE 分子中的自投影偏倚与方差估计中的交叉项偏倚,是整篇证明的基石。 - Martingale CLT(鞅中心极限定理):用于证明 JIVE 标准化统计量的渐近正态——因为留一后,JIVE 分子可写为鞅差分序列的和(每个观测的贡献依赖于排除它后的拟合),满足鞅条件。 - Worst-case sensitivity bounds(最不利敏感性界):用于构造 \(\gamma\) 的上下界,将不可识别的 \(\gamma\) 转化为可操作的保守检验。 - Closed-form power derivation(闭式功效推导):依赖偏倚线性扣除后统计量的正态位移结构,非中心参数由 \(V_{JIVE}\) 的显式表达决定。
真实例子与应用: - 数据:密歇根州 2003-2006 年重罪判决案例,\(n \approx 30,000\),\(K \approx 100\)(法官数目)。 - 如何用上去:将法官 ID 作为 \(Z_i\)(\(K\) 维指示向量),监禁判决作为 \(D_i\),未来收入作为 \(Y_i\),犯罪史等作为 \(X_i\)。因数据只含被判刑者(未判刑者不在数据中),存在选择偏差。用本文的 JIVE + 敏感性分析流程:先估 \(\hat{\beta}_{JIVE}\),再对 \(\gamma\)(选择偏差强度)与 \(\delta\)(排他性违犯强度)扫参数空间,在每个 \((\gamma, \delta)\) 组合下计算偏倚校正后的检验 \(T(\gamma, \delta)\) 与功效。 - 结果:\(\hat{\beta}_{JIVE} \approx -0.2\)(监禁降低收入约20%)。在 \(\gamma\) 扫至合理上界(选择偏差使未测量混杂解释收入变异的10%以内)时,检验仍拒绝 \(\beta=0\);功效公式预测在当前 \(n, K\) 下,对 \(\beta=-0.1\) 的检验功效约0.8。 - 想说明什么:验证本文方法在真实多弱IV+选择偏差数据下的可操作性,展示敏感性分析如何量化“结论对选择偏差多稳健”,以及功效公式如何指导“需要多大样本才能在给定敏感性下检出效应”。
🔎 结论是否比证明窄: - 作者在定理陈述中严格证明了 \(K/n \to \alpha \in (0,1)\) 且 \(\mu^2 > 0\) 下的渐近正态与功效。但在 intro 与讨论中,作者泛泛 claim 该方法“robust to many weak instruments”,未明确界定 \(\mu^2\) 的下界(当 \(\mu^2\) 极小接近0时,JIVE 方差爆炸,功效公式失效——这一极端弱IV情形未被理论覆盖,只在模拟中略提)。 - 功效公式假设 \(\hat{V}_{JIVE}\) 一致,这在 \(K/n \to \alpha < 1\) 下严格成立,但作者在应用中 \(K/n \approx 0.003\)(远小于1),此时 \(\alpha \to 0\) 的渐近近似是否精确未被讨论——这是一个“证明在 \(\alpha \in (0,1)\) 下成立,但应用在 \(\alpha \approx 0\) 下”的缝隙。
四、开放问题(点到为止)¶
- 极端弱IV下的推断失效界:当整体工具强度 \(\mu^2 \to 0\)(极弱IV)时,JIVE 方差发散,本文的功效公式与正态逼近失效。要证/要估:在 \(\mu^2 \to 0\) 下,JIVE 敏感性检验的 minimax 功效下界是什么?扎根点:定理 2 的必要条件 \(\mu^2 > 0\) 与 intro 中“robust to many weak instruments”的泛泛 claim 之间的缝隙。
- 高维惩罚IV与JIVE的敏感性分析比较:本文未讨论 Belloni et al. (2012) 的 Post-LASSO IV 路线在多弱IV+选择偏差下的表现。要算/要证:在相同 \((\gamma, \delta)\) 敏感性参数下,LASSO 选择强IV后的 2SLS 偏倚校正与 JIVE 偏倚校正,哪个功效更高?扎根点:intro 缺失的高维IV选择文献,以及本文 framing 中对 JIVE 路线的唯一化。
- 非线性选择偏差的参数化:本文假设 \(E[U_i | \text{被观测}] = \gamma \cdot h(Z_i, X_i)\) 且 \(h\) 已知(线性),若 \(h\) 未知或非线性(如 \(h\) 依赖法官倾向的阈值),偏倚不再是 \(\gamma\) 的线性函数,闭式功效公式是否仍可推出?扎根点:假设 2 中 \(h\) 为已知函数的限制,以及定理 3 对 \(\gamma\) 界的线性矩条件依赖。
- \(\alpha \to 0\) 的渐近近似精度:本文理论在 \(K/n \to \alpha \in (0,1)\) 下建立,但实证中 \(K/n \approx 0.003\)。要证:在 \(K\) 固定或 \(K/n \to 0\) 下,JIVE 敏感性检验的 Edgeworth 展开或高阶修正是什么?扎根点:定理 1-2 的渐近设定与实际数据参数的差距,以及功效公式在 \(\alpha \approx 0\) 下的模拟验证仅限于几个点,缺乏理论刻画。
(要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向“极弱IV下的 minimax 功效”或“非线性选择偏差” = 共识真 gap;互相打架于“JIVE vs LASSO IV” = 机会。)
Maintained by 陈星宇 · Homepage · Source on GitHub