跳转至

Bounds on causal effects in $ 2^{K} $ factorial experiments with noncompliance

作者: M Blackwell, N E Pashley
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf084


一、核心问题与贡献

①研究了在 $2^K$ 因子实验存在不依从设定下,如何识别与估计依从者平均因果效应(CACE)的问题。②核心方法是将传统多处理工具变量(IV)分析中的强单调性假设放松为偏序约束,并利用线性规划(LP)在有界结局变量下推导 CACE 的非参数识别界。③主要贡献在于提供了弱假设下 CACE 的可行界,避免了传统 IV 估计因单调性假设过强而导致的偏误,并解决了多处理维度下 principal strata 组合爆炸的识别难题。

二、基础设定

  • 核心概念与符号
  • $Z \in {0,1}^K$:$K$ 个二值因子的随机分配向量。
  • $D(z) \in {0,1}^K$:潜在处理接受向量,表示在分配 $z$ 下实际接受的处理。
  • $Y(d)$:潜在结局,取决于实际接受的处理 $d$。
  • Principal strata(主分层):由潜在接受向量 ${D(z)}_{z}$ 的取值模式定义的子群(如 complier, defier 等)。
  • CACE:依从者子群上的平均因果效应,如 $\tau_c = E[Y(d') - Y(d) | \text{complier}]$。
  • 关键假设
  • Ignorability / Randomization:$Z \perp!!!\perp (Y(\cdot), D(\cdot))$,分配独立于潜在结果。
  • Exclusion Restriction:$Y(z, d) = Y(d)$,分配仅通过实际接受的处理影响结局。
  • Relaxed Monotonicity(放松的单调性):传统 IV 要求 $D_k(1) \ge D_k(0)$ 对所有 $k$ 几乎必然成立(无 defier)。本文将其放松为偏序约束或对违背模式的限制(如允许某些特定维度的 defier,或仅要求随机分配对处理接受存在正向倾向),显著降低了行为假设的严苛度。
  • Bounded Outcome:$Y \in [a, b]$,这是推导非参数界的必要条件。
  • 问题背景:传统多处理 IV 估计(如 Angrist & Imbens, 1995)严重依赖多变量单调性假设,这在因子设计中极易违背(例如,同时被分配到两个处理可能产生拥挤效应导致反向依从)。与 Balke & Pearl (1997)(单处理 LP 界)和 Pashley & Bond (2021)(因子设计主分层)相比,本文的创新在于将 LP 框架扩展至 $2^K$ 设计,并在数学上处理了放宽单调性带来的高维组合约束。

三、主要定理 / 核心结果

  1. 原文陈述:在有界结局 $Y \in [a,b]$ 和放松的单调性约束下,CACE 的 sharp bounds 可通过线性规划求得。目标函数为 CACE 的线性表达,约束条件为主分层概率 $\pi$ 的非负性、归一性及由观测分布与假设导出的线性等式/不等式。
  2. 直观解释:放弃点识别后,参数的可行域由所有与观测数据及弱假设相容的潜在结果分布构成。LP 的极值点对应于最极端的潜在结果分配模式,从而给出 CACE 的最紧上下界。放宽单调性意味着允许更多 principal strata 存在,导致可行域扩大,界变宽,但保证了推断的鲁棒性。
  3. 解决了什么技术难点:解决了 $2^K$ 设计下 principal strata 数量随 $K$ 指数级增长($2^{2^K}$)导致的组合识别难题。通过将定性的行为假设转化为对 $\pi$ 的线性约束,避免了显式枚举所有 strata 对 CACE 的影响。
  4. 适用条件与局限:必须有界结局变量;界的宽度可能随 $K$ 增加而迅速发散,导致实际指导意义下降;LP 的规模受限于 $K$ 的大小,当 $K$ 较大时计算不可行。

四、证明框架 / 方法设计

  • 证明主干逻辑:构造法与线性规划对偶。
  • 拆解关键逻辑步骤
  • 参数化潜在结果分布:将所有 principal strata 的联合概率表示为参数向量 $\pi$,满足 $\pi \ge 0, \mathbf{1}^T \pi = 1$。
  • 施加观测约束:将可观测的联合分布 $P(Y, D | Z)$ 表达为 $\pi$ 和条件期望的线性组合,形成等式约束系统。
  • 施加假设约束:将放松的单调性假设转化为对 $\pi$ 中特定元素置零或偏序的线性不等式约束。
  • 构建线性规划:将 CACE 表达为 $\pi$ 和 stratum 内均值的函数,在上述约束下求解极值。
  • 验证 Sharpness:利用 LP 对偶理论或构造具体的潜在结果分布,证明 LP 的解是可被某个数据生成过程实现的紧界。
  • 最关键的技巧性引理或"跳跃点":如何将高维的 principal strata 组合与观测分布的映射转化为线性约束系统。特别是,放宽单调性后,如何避免引入非线性约束(通过定义偏序关系并将其转化为线性不等式),使得问题仍落在 LP 框架内。
  • 数学工具评价:是 Balke-Pearl 线性规划框架在多处理因子设计下的精巧扩展与组合优化。核心创新在于处理 $2^K$ 带来的组合复杂度与偏序约束的代数化,而非全新的分析框架。

五、与研究者兴趣的关联

  • 连接到哪个子方向:因果推断中的 partial identification 与 sensitivity analysis(针对 IV 核心假设单调性的敏感性分析)。
  • 可借鉴的核心思路:将严格的定性假设(如单调性、排除性限制)转化为参数空间的线性约束,通过线性规划求解可行界。这为设计 sensitivity analysis 提供了标准范式:将假设违背的程度参数化(如允许 defier 比例 $\le \delta$),直接嵌入 LP 约束中,观察界的变动。
  • 值得精读的关键参考文献
  • Balke & Pearl (1997), "Bounds on treatment effects from studies with imperfect compliance":LP 方法做 partial identification 的奠基之作,理解本文的数学基底。
  • Angrist & Imbens (1995), "Two-stage least squares estimation of average causal effects...":多处理 IV 与单调性假设的经典文献,理解为何需要放松假设。
  • Manski (2003), "Partial Identification of Probability Distributions":理解非参数界与假设收紧/放松的一般哲学。

六、延伸思考与练习

  • 假设扰动:若结局变量 $Y$ 无界(如连续正态分布),LP 框架失效,因为目标函数不再是紧集上的线性规划。此时需要什么新工具?(提示:可能需要矩约束下的半参数界,或引入形状约束如凸性/单调性来限制条件期望的空间)。
  • 开放问题:当 $K$ 较大时,LP 的维度呈指数级增长,如何利用因子设计的结构稀疏性(如只考虑主效应和低阶交互,忽略高阶交互 strata)来降维,使得高维因子设计的 partial identification 在计算上可行?
  • 理解检测题:在 $2^2$ 因子设计中,假设对因子 A 存在单调性,对因子 B 不存在单调性。请写出此时 principal strata 的数量,并说明如何将“对因子 B 不存在单调性”这一宽松假设转化为 LP 中的约束条件(提示:对比完全单调性下哪些 $\pi$ 被置零,现在它们不再为零,但可能受其他偏序约束)。

Maintained by 陈星宇 · Homepage · Source on GitHub