Sensitivity Analysis for the Average Treatment Effect under Discrete Unobserved Confounders¶

作者: Sung Jae Jun, Federico Zincenko
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.22255

一、领域脉络与小综述¶

这个方向是什么¶

本文属于「因果推断的敏感性分析」子方向，核心应对非混淆性假设（unconfoundedness） 被违反时，ATE估计的稳健性问题。经典的工具变量或代理变量路径各自依赖自身强假设，本文选择了一个更“古典”但可操作的切入点——承认存在离散未观测混合（finite mixture of latent types），用类型个数$ \bar{G} $作为一个有经济含义的敏感性参数，在$\bar{G}$的部分识别区间上逐点追踪ATE的 sharp identified set，从而与完全无从判断界限的Manski bounds（对无界支撑的无信息情形）形成对比。

发展脉络¶

作者在Intro中构造的叙事线比较清晰：

奠基与经典工作：
Rubin (1974-1978)、LaLonde (1986)、Hahn (1998)、Hirano-Imbens-Ridder (2003) —— 确立unconfoundedness作为ATE识别的基准假设。
Imbens & Angrist (1994) —— IV方法解决了非混淆问题但改变了目标总体（LATE），因而并非理想的一般方法。
敏感性分析的早期框架：
Imbens (2003) —— 提出一个fully parametric的敏感性分析：完全指定潜在结果、处理分配和未观测混淆变量的联合分布。作者认为“过强”。
Rosenbaum (2002) —— 经典敏感性检验，但强调无需经济解释（只看偏差幅度）。作者持相反立场：要有经济解释。
Masten & Poirier (2018) —— Agnostic方法，不建模混淆机制，仅对potential outcomes下的处理概率偏差界施加限制。作者认为缺乏可解释性。
Yadlowsky et al. (2022) —— 非参数敏感性分析，但基于odds-ratio，作者认为不够透明。
Bonvini & Kennedy (2022) —— 假设总体中有一部分人不满足unconfoundedness，用该比例作为敏感性参数。
混合模型与离散未观测异质性的现代技术：
Bonhomme-Lamadon-Manresa (2022) —— 面板数据中用离散化未观测异质性的方法。作者说自己“借鉴了这一组合”。
本文的“显然下一步”定位：
作者认为：现有敏感性分析要么太强（Imbens 2003全参数化）、要么不可解释（Masten-Poirier、Bonvini-Kennedy）。本文选择了一个折中路径——带有可解释参数$ \bar{G} $（未观测类型个数）的finte mixture模型，并且满足“Less restrictive than Imbens(2003)”和“More interpretable than Masten-Poirier(2018)”。
被淡化/回避的竞争路线：
Proximal causal inference (Chalak 2019)只在Intro中提到“proxies are not always available”，轻轻带过；完全没有提到近年出现的nonparametric proxy (Tchetgen Tchetgen et al.)。对因果推断领域的读者而言，缺少这个对比是一个明显空缺。
Causal sensitivity analysis via Rosenbaum bounds 社区中近几年有很多工作（如Cinelli-Hazlett 2020、Bonvini-Kennedy），作者只引了Cinelli & Hazlett用于支持“可解释性”论点，但未系统比较。

子线索聚类¶

Agnostic/Distribution-free sensitivity（Masten-Poirier 2018, Bonvini-Kennedy 2022）：不指定未观测混淆机制，直接用某种偏差度量（如差在条件处理概率、不可混淆子总体比例）。优点：稳健无模型错误；缺点：敏感性参数无结构解释文。
Explicit sensitivity via parametric / structural model（Imbens 2003, Yadlowsky et al. 2022, 本文）：对混淆变量或未观测异质性的分布做具体假设。本文属于这个簇，但选了一个不要求fully parameterize joint distribution的替代：只用离散类型个数+高斯噪声，利用finte Gaussian mixtures的identifiability。（注意：Yadlowsky的限制odds-ratio更近于参数的变种。）
Causal effect in mixed / panel with unobserved heterogeneity（Bonhomme-Lamadon-Manresa 2022, Gardner 2020）：也是finte types技术，但主要或专门用于面板/截面板数据分析，而非直接的敏感性分析。

该方向的核心追问¶

敏感性参数的选择：什么样的参数既有可解释的经济含义（从而能被研究者判断合理范围），又使得识别集合的刻画可行？
非次数化保证：在有或没有支撑假设下，如何避免the identified set退化为无信息（Manski bounds）？
类别对接问题：当治疗组和对照组的混合成分个数不等时，如何决定两类在$ \bar{G} $下的映射、进而得到sharp identified set？
估计与推断：在第一步需要估计混合成分个数（$ \check{G}(0), \check{G}(1) $）的情况下，如何保证全程估计的一致性，以及推断下界集合的正确覆盖？

⚠️ 作者的Framing（必须明确）¶

作者把缺口框架为：“既有explicit方法（Imbens 2003, Yadlowsky et al. 2022）要么太强/不够透明；agnostic方法（Masten-Poirier 2018, Bonvini-Kennedy 2022）缺少可解释性。我们的方法是explicit但更灵活——只要求finte types + Gaussian error。”
淡化：① Gardner (2020) 在同种离散type设定下做到了point identification，作者将其解读为“太强”——隐式要求rank invariance + 两类groups的type匹配已知。但若不对rank invariance做更强假说，就是point-identify与partial-identify的trade-off，作者未assess这个trade-off的代价。② 对高维协变量下的混合模型估计极困难（局部解析的维度诅咒），作者在Extention一小段中草草交代，并未实证检验。
明显缺少引用的竞争工作：
Nonparametric proxy (Tchetgen Tchetgen et al., Miao et al.) —— 完全没提。如果proxy存在就可以构造对照组和治疗组的Bridge function，直接用semiparametric identification而非finte mixture识别——这是一个更强的替代路线。
Causal sensitivity via Rosenbaum bounds and its recent extensions —— 除Cinelli-Hazlett 2020引用为“支持可解释性”外，没有比较。
Double/debiased ML + sensitivity —— 没涉及。
张力：未见明显对立引用——所有被引工作在“离散未观测混淆难以处理”上有共识，但各有偏好。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
$ D \in {0,1} $：处理状态（随机变量）。
$ Y(d), d \in {0,1} $：潜在结果。
$ Y = D Y(1) + (1-D) Y(0) $：观测结果。
$ G $：未观测离散潜变量（类型），取值$ {1,...,\bar{G}} $，$ \bar{G} \ge 2 $未知。
$ \mu_g(d) \equiv E[Y(d) \mid G=g] $：类型g在处理组(d=1)和对照(d=0)中的均值。
$ \check{G}(d) $：$ {\mu_1(d),...,\mu_{\bar{G}}(d)} $中不同值的个数。
$ \check{\mu}1(d) < \cdots < \check{\mu}{\check{G}(d)}(d) $：这些不同均值按升序排列。
$ \sigma^2(d) $：误差$ \epsilon(d) $的方差（同方差假设）。
$ \pi_j(d,d') \equiv P(G \in \mathcal{G}_j(d) \mid D=d') $：条件概率，其中$ \mathcal{G}_j(d) = {g: \mu_g(d) = \check{\mu}_j(d)} $是类型集合的划分（$ j=1,...,\check{G}(d) $）。
$ \iota \in {0,1}^{\check{G}(0) \times \check{G}(1)} $：二进制矩阵，其元素$ \iota_{j,k}=1 $当且仅当$ \mathcal{G}_j(0) \cap \mathcal{G}_k(1) \ne \emptyset $。
模型（数据生成机制）：
\[Y(d) = \sum_{g=1}^{\bar{G}} 1(G=g) \mu_g(d) + \epsilon(d), \quad \epsilon(d) \sim N(0, \sigma^2(d)), \quad \epsilon(d) \perp\!\!\!\perp (D, G).\]
$ \bar{G} $未知但有限；向量$ (\mu_g(0), \mu_g(1)) $对不同的g互异（lexicographically ordered）。
$ G $和$ D $可以任意相关（仅需每类每处理都正概率发生）。
可观测数据：研究者观测到 $ (Y,D) $的联合分布（即$ P(Y \le y \mid D=d) $是可识别的）。见式(3)-(4)，据Yakowitz & Spragins (1968)定理，从$ Y\mid D=d $的高斯混合物分布可以**无歧义**识别混合成分的个数$ \check{G}(d) $和各成分的参数$ (\check{\mu}_j(d), \pi_j(d,d), \sigma^2(d)) $。**但不可观测的**是$ G $如何从混合物成分“退回”到真正的潜类型——即：各部分划分$ \mathcal{G}_j(d) $的**组成**未知，跨组间类型对应$ \mathcal{G}_j(0) \cap \mathcal{G}_k(1) $未知——这些只能通过$ \bar{G} $和假设来部分识别。

第二步：最小内核¶

最简特例：当 $ \check{G}(0) = \check{G}(1) = 2 $（即然ot至今两类中皆有两个混合成分）且 $ \bar{G} = 2 $时，ISE全简化为点识别。

此时，按照Lemma 2，$ \bar{G} $的sharp identified set就是$ {2} $。
由于$ \check{G}(0)=\check{G}(1)=2=\bar{G} $，且第一列和第一行要求每个row/column至少有一个1，只能由$ \iota $为单位矩阵的置换：两个可能（$ \iota_{(1)} $对角，$ \iota_{(2)} $反对角）。见Example 1c(1)。
在这些情形下，$ \mathcal{M}\iota(0), \mathcal{M}\iota(1) $各自是singleton。因此TATE被唯一确定：要么1.0（对角情况），要么4/3（反对角）。以引直结论：当$ \bar{G} = \check{G}(0) = \check{G}(1) $且rank invariance或类似条件约束时点识别。（Gardner(2020)隐含了$ \bar{G} = \check{G}(0) = \check{G}(1) $。）

**推广到$ \bar{G}=3, \check{G}(0)=\check{G}(1)=2 $**：此时$ \bar{G} $=3在sharp identified set中（Lemma 2给出$ 2 \le \bar{G} \le 4 $）。由于$ \bar{G} $大于每个$ \check{G}(d) $，必然存在混合成分内部有多个类型（即某个$ \mathcal{G}j(d) $对应两个$ g $）。这表明跨组间类型对应不是一对一的，从而ATE只能部分识别。Example 1c(2)展示了$ \bar{G}=3 $时有4个$ \iota $矩阵，每个对应一个开区间T_\iota，并合起来形成$ T(3)=T\setminus{1} $。最小内核就是这个开区间结构推断——当$ \bar{G} $从$ \check{G}(0)+\check{G}(1)-1 = 3 $开始增大时，T(m)等于整个T。原因来自Lemma A.2和其对边界的覆盖：$ \bar{G} \ge \bar{G}_C = \check{G}(0)+\check{G}(1)-1 $时，边界（如inf T和sup T）被某个矩阵的$ T\iota$覆盖。

三、这篇论文做了什么¶

三句话：
研究了什么问题：当存在离散未观测混合变量（未知类型的个数$ \bar{G} $）时，分解对照组和处理组的观测结果为有限高斯混合物，给出ATE的sharp identified set作为$ \bar{G} $的函数，从而构建一个自然且可解释的敏感性分析框架。
核心工具/方法：部分识别（partial identification） × 有限混合模型理论（识别混合成分、连通组间的类型划分） × 二进制矩阵刻画法$ \iota $ + 引理/定理推导sharp bounds。
主要结论：有一条临界值$ \bar{G}_C = \check{G}(0)+\check{G}(1)-1 $，当$ \bar{G} \ge \bar{G}_C $时刻画退化为一种Manski bounds（与无支撑假设情形相同）；当$ \bar{G} < \bar{G}_C $时刻画严格收缩。此外给出了$ \bar{G} $的sharp identified set为$ [\max{\check{G}(0),\check{G}(1)}, \check{G}(0)\check{G}(1)] $。

关键设定与假设¶

Assumption 1：
$ \epsilon(d) \sim N(0,\sigma^2(d)) $与$ (D,G) $独立（高斯位置混合物）。
向量$ (\mu_g(0),\mu_g(1)) $互异（lexicographic order）。
每类每处理正概率：$ 0 < P(G=g, D=d) < 1 $。
误差$ \sigma^2(d) $对各类同方差（防止混合成分重叠导致不可识别）。
相比于已有文献：比Imbens(2003)弱（无需指定全联合分布）；比Masten-Poirier(2018)强（有分布假设）；比Gardner(2020)对跨组类匹配的要求松得多（不要求$ \check{G}(0)=\check{G}(1) $也不要求已知对应）。
**Sharp identified set for $ \bar{G} $**（Lemma 2）：$ \bar{G}_L = \max{\check{G}(0),\check{G}(1)} \le \bar{G} \le \check{G}(0)\check{G}(1) = \bar{G}_U $。
Sharp identified set for ATE for known $ \bar{G} $**（Theorem 2）：$ T(m) = \bigcup_{\iota \in I(m)} T_\iota $，外貌见(16)式和Lemma A.1。

主要结果¶

**Theorem 1（酸知$ \bar{G} $下的Sharp Set T）**：T是完全acker积极态度的sharp set，等价于$ \mathbb{P}(D=1) \mathbb{E}(Y|D=1) - \mathbb{P}(D=0) \mathbb{E}(Y|D=0) + t, \quad t \in [\mathbb{P}(D=0)\check{\mu}1(1) - \mathbb{P}(D=1)\check{\mu}{\check{G}(0)}(0), \quad \mathbb{P}(D=0)\check{\mu}_{\check{G}(1)}(1) - \mathbb{P}(D=1)\check{\mu}_1(0)] $。这个范围就是感知“caled Manski bounds”，关键在于边界用到混合成分的极值均值而非实际支撑——因此即使$ Y $无界支撑，Bounds仍有界。
Theorem 2（按$ \bar{G} $分层的Sharp Set和Cutoff）：
$ T(\bar{G}_C) = T $，但$ T \setminus T(\bar{G}_C) $只有有限个点。
当$ m < \bar{G}_C $时，$ T(m) $严格小于$ T $，且随$ m $减小而缩小（$ \inf T(m+1) < \inf T(m) \le \sup T(m) < \sup T(m+1) $）。
Cutoff $ \bar{G}_C \equiv \check{G}(0)+\check{G}(1)-1 $线性增长，而$ \bar{G} $ ad missable个数的上界$ \bar{G}_U $呈二次增长。所以完整的敏感性检查只需检查线性数的情形（$ m = \bar{G}_L, ..., \bar{G}_C $）。

证明路线与技术技巧¶

整体路线（3-5步）：
利用Yakowitz-Spragins定理识别混合成分：从$ Y\mid D=d $的分布唯一识别$ \check{G}(d) $和各成分参数$ (\check{\mu}_j(d),\pi_j(d,d),\sigma^2(d)) $。
**用二进制矩阵$ \iota $编码组间类型对应**（Lemma 1）：证明了$ \iota \in I $（每行每列至少一个1）与admissible的ordered partition对$ (\mathcal{P}(0),\mathcal{P}(1)) $一一对应。$ \iota $非零元素个数即$ \bar{G} $。
**在已知$ \iota $下刻画ATF的sharp set $ T_\iota $**（Lemma A.1）：通过求解线性规划下的最值，得到$ T_\iota $是区间（或单点），其上下界由特定$ \iota $-闭包索引给出。
**跨$ \iota $汇总得到$ T(m) $**：对所有$ \iota \in I(m) $取并集。关键引理Lemma A.2构造了两族特殊的$ \iota $，分别覆盖inf T和sup T，并证明当$ m \ge \check{G}(0)+\check{G}(1)-1 $时这些边界即T的整个区间。
**$ \bar{G} $的Sharp Set推导**：利用$ \iota $的和为$ \bar{G} $，经排除法得到[min{ #col, #row }, #rows * #cols]。
关键跳跃点：
从矩阵$ \iota $构造到$ T_\iota $界的具体表达式：需要根据$ \iota $标识对$ \check{\mu}_j $的索引做min/max，推导Lemma A.1公式。难点在证明inf和sup的封闭形式——作者用线性规划的separate minimization over p and q 巧解，是证明核心。
证明$ \bar{G}C $的“临界”性质（Theorem 2(2)(a)）：需要证明所有落在 $ [\bar{G}_C, \bar{G}_U] $内的$ m $对应的$ T(m) $只在有限个边界点排除了T。这里引用了Lemma A.2（特别是其覆盖性质“T可以被$ T{\iota(m')} $和$ T_{\bar{\iota}(m'')} $的闭包覆盖”），并处理了有限点集——较复杂，需要精细的集合包含论证。
技术技巧点名：
Yakowitz-Spragins定理：作为有限混合成分可识别的基础。
线性规划分离（Lemma A.1）：在已知$ \iota $下将$ T_\iota $的上下界转化为独立的最值问题，然后对每行/每列独立求解。
构造覆盖序列（Lemma A.2）：通过构建$ \iota^{(m)} $和$ \bar{\iota}^{(m)} $两个特殊的二进制矩阵族（第一行全1机结构造），使得它们的$ T $覆盖了整个T（闭包意义）。核心技巧是将边界成分（extremal of $ \check{\mu} $的序号）归类。
Hadamard directional derivative（参看Lemma S.2 in supplement）：为了从plug-in估计中得到$ \hat{\ell} $的渐近分布处理$ \min $函数。

真实例子与应用¶

LaLonde (1986) 数据集：实验治疗组和实验对照组（没用PSID对照，因为不保证类型重叠）。主要回应“零收入”下的样本选择问题。
应用方式：
首先用自己和只保留了正收入的样本（308条观测）。
假设$ \beta(0)=\beta(1), \sigma_{\epsilon \nu}(0)=\sigma_{\epsilon \nu}(1) $（交互项系数=0）简化。
先用Heckit消去covariates和sample selection，再在残余homogenized outcome上做finte Gaussian mixture估计。
结果（Table 2 & 3）：
$ \check{G}(0)=\check{G}(1)=2 $（通过Chen-Khalili估计），所以$ \bar{G} \in {2,3,4} $。
$ \bar{G}=2 $时，sharp set为两点集合（无选择$ {0.219,0.439} $；有选择$ {0.280,0.564} $），与点估计的Heckit系数~0.07形成鲜明对比——暗示训练效果被低估。
$ \bar{G} \in {3,4} $时，sharp set退化为Manski bounds（$ (-0.846, 1.500) $等），基本没有信息。
如果加rank invariance，$ \bar{G}=2 $情况变成点识别（无选择=0.439；有选择=0.564）。
例子目的：说明本方法可在实践中应用，并展示当时的决策——当$ \bar{G}=2 $（即不超过两个未观测类时）有明确下有界信息，而当allowed更多类时退化为无信息——演示敏感性分析的“临界”转折点。

🔎 结论是否比证明窄¶

论文声称“所有结果在Assumption 3（General非高斯混合物）下依然成立”（Section 5.2.1）。但是Issuance 为全概率重复Lemma 1-3和Theorem 1-2的证明和Assumption 1的证明并行：只给出了Lemma 5（识别混合物）和祈使性陈述说“所有之前的结果继续成立”。实际上，在这个更一般的设定下，$ T_\iota $的线性规划能否保持线性依赖于其下的均值函数是否单调的单调映射——证明扫描验确保只有高斯才能保证$ \check{\mu}_j(d) $就是$ E[Y(d) \mid G \in \mathcal{G}_j(d)] $。所以此承诺可能比严格证明更宽泛——技术上需要单独验证该非高斯分布族是否仍使得混合物均值的排序映射在$ \iota $下的操作不变（例如，如果分布族是Poisson，其均值排序很清真，但第三个矩条件会紊乱识别？作者没探讨）。
另外，在考虑样本选择时（Section 5.1），给出Lemma 4证明在Heckit残差下可识别混合物，但对这个更复杂的likelihood没有给出渐近推断的详细证明（只给出插件式方法的陈述和Supplement中的渐近分析仅在Assumption 1下成立），所以这在严场上未完全覆盖。

四、开放问题（扎根具体语句，点到为止）¶

扩展到期效应QTE：
论文Concluding Remarks末段（p.35）自己指出的开放问题——由于缺乏law of iterated quantiles，扩展到quantile treatment effects是nontrivial的。（扎根：”Extending our methodology to other causal parameters, such as quantile treatment effects, appears to be a nontrivial question.“）——目前全篇只做了ATE，而Median、分位效应的类似sharp set刻画是明确缺口。
高维协变量与局部化不可行：
作者在Section 5.1提到我们可以“conditional on X=x”，但也指出”When dimension of X is high, approximation becomes difficult“（p.26）。这意味着若协变量多，必须采用更structrual的模型（非局部的线性自和$ X $后的最终为constant remain），但该方法精听的泛化尚未实现（p.26：”...not practically attractive...“）。
Rank invariance假设的实际可检验性及其影响：
论文仅用rank invariance（式12）作为additional restrictions的可选例子（Example 1g p.23），但未讨论如何用数据检验这一假设。研究者在具体应用中，如果采用了rank invariance，他是基于纯假设还是存在验证方法？（这个问题扎根于p.24 ”I_ri = ... and we determined that it is a special case for point identification..." ——要不要跑CDF比较？）
Cutoff $ \bar{G}_C $的严格上界控制：
作者证明当$ \bar{G} \ge \bar{G}_C $时，sharp identified set退化为一种Manski bounds（Theorem 2(2)(a)）。但是，这两个是否严格相等还是在紧凑闭包意义下仅仅有限个边界点不同（”T \ T(m) is finite if $ \bar{G}_C \le m < 2\bar{G}_C - 2 $“）？这在实操上会影响估计传染病：除了边界点，整个区间是一样的，但在finite sample你可能会因边界点的sensitivity而产生不同的推断结论。这是一个隐含的开放点：是否可通过更精细的边界点处理（开、闭集）来改善推断？（扎根于Theorem 2后的陈述和Lemma A.2的覆盖性质。）

Maintained by 陈星宇 · Homepage · Source on GitHub