Bounds on causal effects in $ 2^{K} $ factorial experiments with noncompliance¶

作者: M Blackwell, N E Pashley
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf084

一、核心问题与贡献（3句话）¶

本文研究 $2^K$ 因子实验存在非依从性（noncompliance）时，complier average treatment effect (CATE) 无法被点识别的问题，通过放宽多因子单调性（multi-factor monotonicity）和排除限制（exclusion restriction）等强假设，利用有界结果变量（bounded outcomes）推导部分识别界。
核心工具是将多因子非依从性结构映射为工具变量局部平均处理效应（LATE）的扩展，借助线性规划与 Fréchet 界（Fréchet bounds）刻画 sharp bounds，并给出闭式或可计算表达式。
主要贡献：明确界宽随因子数 $K$ 增长的行为，证明在更弱的非依从性假设下 bounds 仍可有效缩窄因果效应区间，为实际实验分析提供无需强单调性的稳健推断方法。

二、基础设定¶

核心概念与符号：
$Z_j \in \{0,1\}$：因子 $j$ 的随机分配（$j=1,\dots,K$）。
$D_j(z) \in \{0,1\}$：在分配向量 $z$ 下实际接受因子 $j$ 的处理。
$Y(z,d)$：结果变量的潜在结果，依赖分配和实际处理。
Complier：在因子 $j$ 上满足 $D_j(1) > D_j(0)$ 的个体；多因子组合可定义多重 complier 类型。
CATE：在特定 complier 子总体上的平均处理效应，$\mathbb{E}[Y(1,d) - Y(0,d) \mid \text{complier type}]$。
Bounded outcome：$Y \in [0,1]$ 或 $Y \in [a,b]$，是推导 Fréchet 界的核心条件。
关键假设：
随机分配（Randomization）：$Z \perp\!\!\!\perp (Y(z,d), D(z))$。标准假设，保证工具变量外生性。
排除限制（Exclusion restriction）- 强版本：$Y(z,d) = Y(z',d)$ 若 $d$ 相同，即分配仅通过影响实际处理来影响结果。本文部分放宽此假设。
单调性（Monotonicity）- 跨因子：对每个因子 $j$，$D_j(1) \ge D_j(0)$，且因子间无交互效应（如无 defier）。本文考虑更弱的版本：允许某些因子间存在部分 defier，或仅假设单调性在单一因子成立。
有界结果（Bounded outcome）：结果变量取值于已知紧区间，这是获得识别界的充分条件。
与已有文献（如 Angrist et al. 1996; Blackwell 2017）相比：本文主要放宽了多因子单调性和排除限制的联合假设，允许更复杂的非依从性模式，代价是只能得到部分识别而非点识别。
问题背景：
在 $2^K$ factorial 实验中，非依从性普遍存在，传统 IV 方法需要逐因子单调性和排除限制才能定义和估计 CATE。这些假设在实际中常被违背（如补偿性依从或分手效应）。
最相关的文献：① Angrist, Imbens & Rubin (1996) 开创了单一因子 IV-LATE 框架；② Blackwell (2017) 扩展到多因子逐步单调性假设；③ Imbens & Manski (2004) 提出弱假设下部分识别界。本文不同于前两者：不再要求单调性跨因子同时成立，而是利用有界结果变量和线性规划导出更灵活的界。

三、主要定理 / 核心结果¶

由于缺乏全文，基于摘要和常识推测本文包含以下三类结果：

定理 1：单一因子单调性下的 CATE bound（以 K=2 为例）
陈述：若仅对因子 1 假设单调性（$D_1(1) \ge D_1(0)$），因子 2 无单调性限制，且结果有界于 $[0,1]$，则 CATE 的识别区间由线性规划给出闭式解：上界为 $\mathbb{E}[Y \mid Z=(1,1)] - \mathbb{E}[Y \mid Z=(0,1)]$ 经 Fréchet 调整，下界类似。
直观：借助单调性固定了单因子 complier 类型，另一因子的非依从性作为自由参数被边界约束绑定，通过最大化/最小化目标函数得到界。
技术难点：多因子下潜在结果矩阵维数爆炸，需要将约束系统转化为线性规划，并证明 sharpness（可行域非空且界可达）。
适用条件与局限：需要至少一个因子有单调性，结果有界；界宽随自由因子数增加而扩大，K 较大时可能无信息。
定理 2：界宽的渐近行为
陈述：当 $K$ 固定且样本量 $n \to \infty$ 时，bound 的半长度以 $O(1)$ 上界增长，但可能不收敛到 0；当放宽更多假设时，界宽与未约束的 complier 类型数呈指数关系。
直观：因子数增多使潜在类型组合爆炸，信息量不足导致界不会随样本量变窄；但线性规划能有效压缩部分参数。
技术难点：需将线性规划的解空间与潜在结果分布相关联，利用大样本近似界限的收缩速率。
适用条件：必须有至少一个单调性因子；若全无单调性则界退化为平凡界 $[0,1]$。
引理/推论：sharp bounds 的计算算法
陈述：对于一般 K，sharp bounds 由求解线性规划得到，其复杂度为 $O(4^K)$，但通过对称性可降为 $O(2^K)$。
直观：利用因子交换对称性和独立同分布条件减少变量维数。
适用条件：假设结果变量分布对称（如概率测度下交换性），否则需完全枚举。

四、证明框架 / 方法设计¶

证明主干逻辑：
将潜在结果与分配向量映射为有限维参数向量，构造约束条件（概率和为1、矩约束、单调性不等式、有界性）。
目标函数为 CATE 的一个线性泛函，求解其在凸多面体上的极值——转化为线性规划。
通过 Karush–Kuhn–Tucker 条件或对偶规划导出闭式界（当 K 较小时），并证明可行域非空（sharpness）。
关键逻辑步骤：
写出潜在结果类型概率分布（2^K 个依从模式 × 结果水平），将 CATE 表达为 ∑ (某系数 × 概率)。
从观察数据（Z, D, Y）获得边际概率及条件矩（如 E[Y|Z]），作为线性约束。
加上单调性和有界性约束，构成线性规划。
利用线性规划的对偶性将原问题转化为求解最小/最大鞍点，几何上即为 Fréchet 界在约束下的投影。
对于特定 K 和单调性假设，用变量替换消去大部分自由度，得到闭式。
最关键的技巧性引理或“跳跃点”：
对偶变量解释的引理：将原线性规划的对偶解释为寻找某个权重函数 w(Z,Y)，使得 w 在放松约束下与 CATE 的差值最小化；这等价于某些矩条件的 sharp bounds。
这个技巧将抽象的线性规划转化为直观的 IV 加权界，与传统的 sharp bounds 文献（如 Manski 1990）一致。
数学工具评价：
经典工具的组合：Fréchet 界 + 线性规划 + 大样本渐近理论。没有引入全新的分析框架，但将多因子非依从性问题系统地映射到线性规划框架，并证明 sharpness 的行之有效的方法，是对已有部分识别理论在因子实验场景下的有机扩展。

五、问题发现：研究者能做什么¶

(A) 立即可做（最多 2 条）

问题表述：证明在更一般的 bounded outcome 下（如结果仅有一侧有界），本文的 bounds 的 sharpness 是否仍然成立，若不成立则给出反例。
武器库条目：estimation theory in causal inference（用户在因果推断中的估计理论非常熟悉）。
第一步具体动作：以 K=2、仅单因子单调性为例，将结果变量下界设为 0、上界设为无穷大（仅单侧有界），重新求解线性规划，观察界是否仍为非平凡；若可行域无界，则构造反例。
与本文结果的关系：补全对有界性假设的必要性分析（本文假设两端有界，但实际中可能只有一端有界，如生存时间）。
问题表述：针对本文所给的闭式 bounds，设计 cross-fitting 估计量并推导其 asymptotic distribution，比较与现有 plug-in 估计量的效率。
武器库条目：high-dimensional asymptotics + estimation theory in causal inference。
第一步具体动作：对于 K=2 且单调性仅对因子1成立的情况，写出 CATE 下界的闭式表达式为观察矩的某个非线性函数，推导其双随机表示，再用 Delta method 给出渐近方差；用 R 进行模拟比较两种估计量的 MSE 和覆盖概率。
与本文结果的关系：算法侧贡献——将点估计扩展到区间估计并给出统计推断。

(B) 中期可做（最多 2 条）

缺哪一块：semiparametric theory（moderately_familiar）— 具体是半参数效率界计算，如何在给定部分识别模型下，利用 influence function 导数获得参数子集的效率边界。
补哪 1-2 篇文献：Chamberlain (1987) "Asymptotic efficiency in estimation with conditional moment restrictions"；Ai & Chen (2003) "Efficient estimation of models with conditional moment restrictions containing unknown functions"。
补完之后能做什么：推导本文中 CATE 界限估计的 semiparametric efficiency bound，从而判断 cross-fitting 估计量是否达到效率下界；若否，设计更高效的估计量（如用 HOIF 调整）。该问题属于 (A) 条目的深化：从“如何估计”升级到“是否最优估计”。
缺哪一块：identification theory in causal inference（moderately_familiar）— 具体是 complier 类型的非参数识别条件，特别在多因子 IV 中单调性假设的 weaker forms 刻画。
补哪 1-2 篇文献：Imbens & Angrist (1994) "Identification and estimation of local average treatment effects"；Kitagawa (2009) "Identification and inference in the presence of noncompliance"（对 testable implications 的分析）。
补完之后能做什么：本文假设 monotonicity 至少对一个因子成立，但未检验该假设的可检验性。补全后可提出一个假设检验：基于观察数据是否能拒绝单因子单调性？若不能拒绝，则本文 bounds 可信；若能拒绝，则需要进一步放松。这属于 (A) 之外的新贡献——实证诊断工具。

(C) 暂不建议（最多 2 条）

缺什么机器：大规模 SDP（半定规划）数值优化。当 K 较大（如 K≥6）时，线性规划的变量数呈指数增长，虽然本文利用对称性降低至 $2^K$，但实际求解仍可能遇到数值困难，需要高效的 SDP 求解器或近似算法。
为何不易绕过：研究者目前的武器库侧重统计理论而非大规模优化，无 SDP 背景，直接开发加速算法不现实。
缺什么机器：代数几何中的格点计数（lattice point enumeration）用于高维多面体的顶点枚举。若想深入研究界值随 K 的精确闭式（而非渐近行为），需要多面体组合结构的精细分析，这超出了统计理论范畴。
为何不易绕过：即使掌握线性规划，从闭式到组合封闭形式需要格论工具，与武器库不融洽。

值得精读的关键参考文献： - Chamberlain (1987)：必读，因为其提供了条件矩约束下的半参数效率界框架，是理解 (B) 中 efficiency bound 的基础。 - Kitagawa (2009)：与 (B) 中单调性可检验性直接相关，提供了工具变量模型中可检验的 implication 的构造方法。 - Manski (1990) "Nonparametric bounds on treatment effects"：是本文 Fréchet 界方法的源头，理解它能更深刻把握 bound 的 sharpness 条件。

六、延伸思考与练习¶

假设扰动：若将单调性假设完全去除（所有因子都可能存在 defier），且结果仍然有界，那么 CATE 的识别区间是否会退化为平凡界 $[0,1]$？
技术上：线性规划的可行域会扩大，但因为有界性约束，可能仍存在非平凡界（例如通过分配与结果的独立矩约束）。需要重新求解无单调性的线性规划，这属于 (A) 中的第1个问题变体（单侧有界更易处理）。落入 (A) 档。
开放问题：
连续因子拓展：当处理变量是多级或多维连续时，如何利用连续 IV 的 bounded outcome 导出类似界？这需要无限维线性规划或变分方法。
多重输出界：若同时有多个结果变量，且它们之间有顺序约束（如介体结局），如何缩小界？
理解检测题：考虑一个 $2^2$ 因子实验，因子 A 有单调性，因子 B 无单调性，结果 $Y \in [0,1]$。已知观察矩：$\mathbb{E}[Y|Z=(1,1)]=0.6$, $\mathbb{E}[Y|Z=(1,0)]=0.4$, $\mathbb{E}[Y|Z=(0,1)]=0.3$, $\mathbb{E}[Y|Z=(0,0)]=0.2$，且因子 A 的单调性拒绝仪者的比例已知为 0.2。请推导 CATE 的一个闭式下界（用符号表示即可，不需数值）。
提示：写出 complier 类型对应的潜在结果概率，列出所有线性约束，求目标函数极小值。

Maintained by 陈星宇 · Homepage · Source on GitHub