An average-case sensitivity analysis for unmeasured confounding¶

作者: Yao Zhang, Qingyuan Zhao
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：观测性因果推断的根本科学问题在于：无混杂假设不可检验，若存在未测量混杂，因果效应的识别将失效。敏感性分析旨在回答：未测量混杂需要多强，才能推翻当前因果结论？当前该子方向已从早期针对特定模型（如匹配、线性回归）的专用公式，走向半参数框架下的部分识别与高效估计，成熟度处于理论框架成型、但具体模型设定仍在不断迭代的阶段。

发展脉络： 1. 奠基工作：Rosenbaum 的匹配框架敏感性分析（约束处理分配的 odds ratio），以及 VanderWeele & Arah (2011) 在潜在结果框架下给出的一般混杂偏差公式。这些工作确立了“约束未测量混杂对处理/结局的关联强度”这一范式，但留下口子：公式往往依赖参数化假设，且对连续/高维情形不友好。 2. 主要进展（边际敏感性模型 MSM 的兴起）：Tan (2006) 引入 MSM（约束倾向得分 odds ratio 的最大偏离 \(\Gamma\)），Zhao, Small & Bhattacharya (2017) 将其推广至 IPW 估计，用分位数 bootstrap 构造置信区间。作者在文中明确指出：MSM “has gained popularity in recent years owing to its good interpretability and mathematical properties”。然而，MSM 留下的口子是：它只约束了倾向得分比率的最坏情况（逐点约束 \(\Gamma\)），导致部分识别界过宽。 3. 当前 frontier（收紧界与半参数高效化）： - Dorn & Guo (2021) 引入 quantile balancing，证明 Zhao 等人的界即使渐近下也非 sharp，并给出 sharp 界；Dorn, Guo & Kallus (2021) 进一步给出 doubly-valid/doubly-sharp 估计量，具备双重稳健性。 - Yadlowsky 等 (2018) 从分布鲁棒优化切入，对 CATE 给出 sharp 界，并构造 Neyman orthogonal 估计量实现 \(\sqrt{n}\) 收敛。 - Franks 等 (2018) 与 Scharfstein 等 (2021) 利用 Tukey factorization 分离已识别与未识别部分，构造半参数 one-step 估计器。 - Bonvini & Kennedy (2019) 转向“未测量混杂比例”这一新参数；Huang & Pimentel (2022) 提出基于方差的敏感性模型，用 \(R^2\) 参数化。 4. 本文的位置：作者认为 MSM 的 \(\Gamma\) 参数过于保守，提出用倾向得分比率的二阶矩（平均情形）替代逐点最坏约束，从而在同等混杂强度下给出更紧的界，并补全了该设定下的半参数高效估计理论。

子线索聚类： - 线索 A：约束倾向得分偏离（MSM 及变体）。核心做法：对 \(e(X)/e(X,U)\) 或其 odds ratio 施加约束。Zhao 等 (2017) 约束逐点上界；Yadlowsky 等 (2018) 约束 odds ratio 上界并做 DRO；Dorn 等 (2021) 用 quantile balancing 收紧界；本文约束二阶矩。 - 线索 B：约束混杂对结局的解释力。Cinelli & Hazlett (2019) 的 omitted variable bias 框架用 partial \(R^2\)；Chernozhukov 等 (2021) 将其推广至 ML causal 模型；Huang & Pimentel (2022) 约束权重方差的 \(R^2\)。 - 线索 C：分离识别与未识别部分。Franks 等 (2018) 与 Scharfstein 等 (2021) 用 Tukey factorization / selection function，允许灵活拟合已识别部分，未识别部分用敏感性参数刻画。

这个方向在追问的核心问题： 1. 如何参数化未测量混杂的强度，使得参数既可解释、又不过度保守？ MSM 的 \(\Gamma\) 易解释但保守；\(R^2\) 易解释但多局限于线性/加权框架；二阶矩（本文）是否更优？ 2. 在给定敏感性模型下，部分识别的 sharp 界是什么？ Dorn 等 (2021) 证明了早期 IPW 界非 sharp；本文需证明其二阶矩模型下的界是 sharp 的。 3. 如何对界进行半参数高效估计与推断？ 界是方向可识别参数的极值，需构造有效影响函数、一步估计器，并处理界的非正则性。

⚠️ 作者的 framing： - 作者把缺口 frame 成：MSM 只看最坏情况，导致界过宽；而实际混杂的平均强度通常远小于最坏情况，因此用二阶矩约束是“显然的下一步”。 - 被淡化的竞争路线：Huang & Pimentel (2022) 的方差/\(R^2\) 模型同样在约束“平均”而非“最坏”偏离，且参数有标准化界 \([0,1]\)，可解释性极强，但作者仅在引用中提及，未正面比较二阶矩与 \(R^2\) 的优劣。 - 缺失的引用/该查的：MSM 的原始提出者 Tan (2006) 未在检索列表中出现；分布鲁棒优化（DRO）的更一般理论（如 Duchi 等 2016 被引，但本文是否充分利用了 DRO 与二阶矩约束的等价性？）；此外，敏感性分析在纵向/边际结构模型中的推广（Bonvini 等 2022 被引但未深入）是否也能用二阶矩替代 \(\Gamma\)，作者未讨论。

张力：未见明显对立引用。但存在隐性张力：Dorn 等 (2021) 强调“界必须是 sharp 的才算合格”，而本文的二阶矩模型在约束更弱（只约束平均）的情况下，其 sharp 界是否一定比 MSM 的 sharp 界更窄？这取决于混杂的分布形态——若混杂高度集中（少数个体受极强混杂），二阶矩约束可能反而给出更宽的界。这一点作者未明确承认。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：二值处理（treatment），取值 \(\{0,1\}\)。
\(Y\)：结局（outcome），可为连续或离散。
\(X\)：观测协变量（observed covariates），维度任意。
\(U\)：未测量混杂，不可观测。
\(Y(1), Y(0)\)：潜在结果，想要但观测不到；可观测的是 \(Y = AY(1) + (1-A)Y(0)\)。
\(e(X) = P(A=1|X)\)：观测数据倾向得分（可识别、可估）。
\(e(X,U) = P(A=1|X,U)\)：全数据倾向得分（不可观测，敏感性分析的核心对象）。
\(\psi = E[Y(1)]\)：目标估计量，平均潜在结果（ATE 的一个分量）。
\(W = e(X,U)/e(X)\)：倾向得分比率（propensity score ratio），刻画未测量混杂对处理分配的影响；\(W>1\) 表示 \(U\) 使处理概率上升。注意 \(E[W|X]=1\)（条件期望约束）。
\(\Gamma\)：MSM 的敏感性参数，约束 \(W\) 的逐点上界（worst-case），即 \(1/\Gamma \le W \le \Gamma\)。
\(m\)：本文的核心敏感性参数，约束 \(W\) 的二阶矩（average-case），即 \(E[W^2|X] \le m\)。
\(n\)：样本量；\((X_i, A_i, Y_i)\) 为 \(n\) 个 i.i.d. 可观测样本。

模型：数据生成机制为 \((U, X, A, Y)\) 联合分布，其中 \(U\) 不可观测。无混杂假设下 \(A \perp Y(a) | X\)，即 \(e(X,U) = e(X)\)，\(W=1\)。敏感性分析放弃此假设，允许 \(W \neq 1\)，但施加约束：MSM 约束 \(W \in [1/\Gamma, \Gamma]\) 逐点；本文约束 \(E[W^2|X] \le m\)（只约束平均偏离）。

可观测数据：研究者只有 \((X_i, A_i, Y_i)\) 的 i.i.d. 样本。\(U_i, Y_i(1-a)\) 不可观测。\(e(X)\) 可从观测数据估出；\(e(X,U)\) 与 \(W\) 不可估，只能靠敏感性参数 \(m\) 约束其可能取值范围，进而对 \(\psi\) 做部分识别。

第二步：最小内核——二值结局下的闭式界推导

剥掉所有半参数估计、bootstrap、一般结局的壳，支撑整篇论文的最小内核是：在二阶矩约束 \(E[W^2|X] \le m\) 下，\(\psi = E[Y(1)]\) 的 sharp 上界有闭式解，且该解可通过一个简单的二次优化问题得到。

考虑最简特例：\(Y\) 为二值结局（\(Y \in \{0,1\}\)），且 \(X\) 为离散有限支撑（可逐层计算）。在此特例下： - \(\psi = E[Y(1)] = E[E[Y|X, A=1] \cdot e(X,U)] / e(X)\)（由 Bayes 与潜在结果定义推出，这是 IPW 形式的核心）。 - 令 \(\mu_1(X) = E[Y|X, A=1]\)（可观测条件均值），则 \(\psi = E[\mu_1(X) W]\)。 - 约束：\(E[W|X]=1\)，\(E[W^2|X] \le m\)，\(W \ge 0\)。

要证的命题（最小内核）：在上述约束下，\(\sup_W E[\mu_1(X) W]\) 的 sharp 上界是什么？

证明怎么走（一看就懂）： 1. 逐层优化：由于约束是条件于 \(X\) 的，且目标是对 \(X\) 取期望，可逐个 \(X\) 值求解 \(\sup_{W|X} \mu_1(X) W\)，再对 \(X\) 取期望。 2. 在给定 \(X=x\) 下，问题退化为：\(\sup_w \mu_1(x) w\)，约束 \(E[w|X=x]=1\)，\(E[w^2|X=x] \le m\)，\(w \ge 0\)。 3. 这是一个已知一阶矩、约束二阶矩的线性优化。由 Markowitz (1952) / Chebyshev 极值理论，线性泛函在二阶矩约束下的极值，在 \(w\) 为二值分布时达到（极端分布只取两个值）。 4. 具体地，设 \(w\) 取 \(w_1\) 与 \(w_2\)，概率分别为 \(p\) 与 \(1-p\)。由 \(E[w]=1\) 与 \(E[w^2] \le m\)，解出极值点，代入 \(\mu_1(x) w\)，得到上界闭式：

\[\text{Upper bound at } x = \mu_1(x) \left( 1 + \sqrt{(m-1)(1-\mu_1(x))/\mu_1(x)} \right)\]

（当 \(\mu_1(x) > 0\)；若 \(\mu_1(x)=0\)，界为 0）。 5. 对 \(X\) 取期望，即得 \(\psi\) 的 sharp 上界闭式。下界对称可得。

为什么成立：核心在于二阶矩约束把无限维的 \(W\) 分布优化，降维成了有限维的矩约束优化，而线性目标在二阶矩约束下的极值必在边界分布（二值分布）达到——这是 Markowitz 均值-方差框架的直接推论。论文的一般情形（连续 \(Y\)、半参数估计）只是在这个二次优化闭式解上，套上了影响函数与一步估计的壳。

三、这篇论文做了什么¶

三句话： ① 研究了观测性因果推断中，如何对无混杂假设做平均情形（而非最坏情形）的敏感性分析； ② 核心工具是用倾向得分比率 \(W\) 的二阶矩 \(E[W^2|X] \le m\) 替代逐点上界 \(\Gamma\) 作为敏感性参数，将部分识别转化为矩约束下的线性优化，推导出 sharp 闭式界； ③ 主要结论是：在二阶矩约束下，平均潜在结果的 sharp 界有闭式解，基于有效影响函数构造的一步估计器达到半参数效率，multiplier bootstrap 可覆盖敏感性曲线的置信带。

关键设定与假设： - 设定：观测数据 \((X, A, Y)\) i.i.d.，\(A\) 二值，\(Y\) 一般有界（假设 \(Y \in [0,1]\) 或类似有界性以保证矩存在）。 - 敏感性模型（本文核心假设）：\(E[W^2|X] \le m\)，其中 \(W = e(X,U)/e(X)\)，\(m \ge 1\) 为敏感性参数（\(m=1\) 回退到无混杂）。 - 统计含义：未测量混杂导致的倾向得分偏离，其条件方差有上界 \(m-1\)。相比 MSM 的逐点约束 \(\Gamma\)，这只约束平均强度，允许少数点偏离极大，但整体偏离受限。 - 相比已有文献：放宽了 MSM 的逐点约束，但引入了二阶矩约束；与 Huang & Pimentel (2022) 的方差约束有形式相似性，但后者约束的是 IPW 权重的方差，本文约束的是潜在权重 \(W\) 的方差。 - 其他假设：\(e(X)\) 有界远离 0 和 1（positivity）；\(\mu_1(X), \mu_0(X)\) 等条件均值属于某函数空间（用于半参数估计的收敛率假设）。

主要结果：

Theorem 1（Sharp closed-form bounds）：
陈述：在二阶矩约束 \(E[W^2|X] \le m\) 下，\(\psi = E[Y(1)]\) 的 sharp 上界为
\[\bar{\psi}(m) = E\left[ \mu_1(X) + \sqrt{(m-1) \mu_1(X)(1-\mu_1(X))} \right]\]
下界对称（将 \(\mu_1\) 替换为 \(1-\mu_1\) 的对应项）。对于一般有界 \(Y\)，界的形式类似，用 \(\mu_1(X)\) 与 \(\mu_1(X)\) 的方差项构造。
直觉：界由两部分组成——基准项 \(E[\mu_1(X)]\)（无混杂下的 IPW 估计量）与混杂偏差项 \(\sqrt{(m-1) \text{Var}(\mu_1(X)|X \text{层内})}\)。偏差项随 \(m\) 以 \(\sqrt{m-1}\) 增长，远慢于 MSM 下界随 \(\Gamma\) 的线性增长，这正是“平均情形”比“最坏情形”更紧的来源。
必要条件：\(Y\) 有界；\(e(X)\) 满足 positivity；\(W\) 满足二阶矩约束。
解决的技术难点：证明了在二阶矩约束下，线性泛函的极值在二值分布达到，从而把无限维优化闭式化。这直接借用了 Markowitz 均值-方差优化的极值结构。
Theorem 2/3（Efficient influence function 与一步估计器）：
陈述：推导了 \(\bar{\psi}(m)\) 的有效影响函数（EIF），并构造一步估计器 \(\hat{\bar{\psi}}(m) = \bar{\psi}_n(m) + \frac{1}{n}\sum_{i=1}^n \hat{\phi}(O_i)\)，其中 \(\hat{\phi}\) 是代入初始估计的 EIF。在 nuisance 参数（\(\mu_1, e\)）以 \(o(n^{-1/4})\) 速率估计时，一步估计器达到 \(\sqrt{n}\) 收敛与半参数效率下界。
直觉：界 \(\bar{\psi}(m)\) 是 \(\mu_1(X)\) 与 \(e(X)\) 的非线性泛函（含平方根项），直接代入估计会因非线性导致偏倚。一步估计器通过 EIF 修正偏倚，实现 debiased 估计。
解决的技术难点：\(\bar{\psi}(m)\) 中的 \(\sqrt{(m-1)\mu_1(X)(1-\mu_1(X))}\) 项在 \(\mu_1(X)=0\) 或 1 处不可微，但作者通过局部线性化（或限制 \(\mu_1\) 远离边界）处理了非正则性，证明了在 \(\mu_1\) 有界远离 0/1 时，EIF 存在且一步估计器有效。
Theorem 4（Multiplier bootstrap 同时置信带）：
陈述：对敏感性曲线 \(\{\bar{\psi}(m) : m \in [1, M]\}\)，用 multiplier bootstrap 构造同时置信带，渐近覆盖概率达到名义水平。
直觉：敏感性曲线是参数 \(m\) 的函数，需对整个曲线做推断（类似同时推断多个参数）。Multiplier bootstrap 通过对影响函数乘以随机权重，模拟曲线的渐近分布，避免对每个 \(m\) 单独做 bootstrap。
解决的技术难点：曲线 \(\bar{\psi}(m)\) 在 \(m\) 上连续但非线性，需证明 bootstrap 过程在 \(m\) 的区间上一致收敛。作者引用了 Belloni 等 (2015) 的高维/函数参数同时推断理论，将 multiplier bootstrap 推广到敏感性曲线。

证明路线与技术技巧：

整体路线：
Step 1：将部分识别问题（\(\sup_W E[\mu_1(X) W]\) 在矩约束下）转化为逐层条件优化。
Step 2：在条件层上，利用二阶矩约束与线性目标，证明极值在二值分布达到，解出闭式界（Markowitz 框架）。
Step 3：将闭式界表达为观测数据分布的泛函（含 \(\mu_1, e\) 的非线性组合）。
Step 4：推导该泛函的 EIF（通过路径导数 / Gateaux 导数计算）。
Step 5：构造一步估计器，证明在 nuisance 估计满足速率条件时达到 \(\sqrt{n}\) 收敛与效率（典型 semipara one-step 证明路线）。
Step 6：对敏感性曲线构造 multiplier bootstrap 置信带，证明一致覆盖（引用 Belloni 等的 bootstrap 理论）。
关键跳跃点：
跳跃点 A：闭式界的推导。从无限维的 \(W\) 分布优化到闭式解，关键在于识别出“二阶矩约束下的线性优化极值在二值分布达到”。这并非新数学（Markowitz 1952 已有），但在因果敏感性分析中首次使用，是本文的核心创新。
跳跃点 B：EIF 的推导与非正则性处理。\(\bar{\psi}(m)\) 含 \(\sqrt{\mu_1(X)(1-\mu_1(X))}\) 项，在 \(\mu_1\) 边界不可微。作者通过假设 \(\mu_1\) 有界远离 0/1（或通过截断）绕过此难点，在内部区域证明 EIF 存在。这是典型的半参数理论处理方式，但意味着界在 \(\mu_1\) 极端值处的推断可能不稳健。
技术技巧点名：
Markowitz 均值-方差优化 / 二值分布极值：用于闭式界推导，将矩约束优化降维。
Efficient influence function (EIF) / 路径导数：用于推导界的半参数效率界与一步估计器。
One-step estimation / debiased ML：构造一步估计器修正非线性泛函的代入偏倚。
Cross-fitting / sample splitting：用于初始 nuisance 估计，保证一步估计器的 \(\sqrt{n}\) 收敛不依赖 Donsker 条件。
Multiplier bootstrap / 同时推断：对敏感性曲线构造置信带，引用 Belloni 等 (2015) 的框架。

真实例子与应用： - 数据：National Supported Work (NSW) 示例数据（LaLonde 1986 经典数据集），包含处理组（职业培训）与对照组（观测对照），结局为收入。 - 怎么用上去：估计 \(\mu_1(X)\) 与 \(e(X)\)，代入闭式界公式，画出 \(\bar{\psi}(m)\) 与 \(\underline{\psi}(m)\) 随 \(m\) 变化的敏感性曲线。同时与 MSM 的 \(\Gamma\)-敏感性曲线对比。 - 得到什么结果：在相同混杂强度校准下（用观测协变量模拟混杂，校准 \(m\) 与 \(\Gamma\) 的对应关系），二阶矩模型的界比 MSM 的界更窄（更紧），尤其在 \(m\) 较小（混杂较弱）时优势明显。当 \(m\) 校准到对应 \(\Gamma=2\) 时，二阶矩界仍能保持正向效应结论，而 MSM 界可能已包含 0。 - 想说明什么：展示平均情形分析比最坏情形分析更紧、更实用；并展示如何用观测协变量（如年龄、教育）的混杂强度来校准 \(m\) 的合理范围（benchmarking）。

🔎 结论是否比证明窄： - Theorem 1 的闭式界在 \(Y\) 为二值时严格证明；对于一般有界 \(Y\)，界的形式类似但证明依赖 \(\mu_1(X)\) 的方差分解，作者声称“sharp”但在一般 \(Y\) 下是否真 sharp（是否仍被二值分布达到），证明细节需仔细核查——可能只在特定子类中 sharp。 - Theorem 2/3 的效率结论严格依赖 \(\mu_1(X)\) 有界远离 0/1 的假设，但作者在 claim 时泛泛说“一步估计器有效”，未在主定理陈述中反复强调此边界条件——这是一个结论比证明宽的地方。 - 敏感性曲线的 bootstrap 同时覆盖，理论上要求 \(m\) 在闭区间上且 \(\mu_1\) 远离边界，但实际数据中 \(\mu_1\) 可能接近边界，此时 bootstrap 的覆盖保证可能失效，作者未明确承认此局限。

四、开放问题（点到为止，扎根具体语句）¶

纵向/时间序列设定下的二阶矩敏感性模型：本文只考虑单时间点处理。若处理是纵向的（如边际结构模型），倾向得分比率 \(W_t\) 的二阶矩约束如何跨时间点联合施加？扎根点：Bonvini 等 (2022) 的 MSM 纵向推广被引用，但本文未讨论二阶矩模型的纵向推广。
\(\mu_1(X)\) 在边界（0 或 1）处的非正则性与推断失效：一步估计器的效率定理依赖 \(\mu_1\) 远离边界，但实际数据中 \(\mu_1\) 可能逼近边界。扎根点：Theorem 2/3 的证明假设 \(\mu_1\) 有界远离 0/1，但 real-data example 中未检查此条件是否满足。
二阶矩约束与 MSM 逐点约束的联合模型：能否同时约束 \(E[W^2|X] \le m\) 与 \(W \le \Gamma\)，以兼顾平均与最坏情形？扎根点：作者在 intro 中 frame 二阶矩为 MSM 的替代，但未讨论二者是否可叠加以进一步收紧界。
二阶矩参数 \(m\) 的校准与 benchmarking 的理论保证：作者用观测协变量模拟混杂来校准 \(m\)，但这是启发式的，缺乏理论保证（如校准出的 \(m\) 是否覆盖真实的 \(E[W^2|X]\)）。扎根点：Huang & Pimentel (2022) 对 \(R^2\) 有正式 benchmarking 理论，本文的 benchmarking 仅在 real-data example 中展示，未给出理论。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

An average-case sensitivity analysis for unmeasured confounding¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论