Overlap violations in external validity: Application to Ugandan cash transfer programs¶

作者: Melody Huang
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: Yale University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/24-aoas1963

一、领域脉络与小综述¶

这个方向是什么¶

本文处理的是因果推断中外部有效性（external validity） 的一个具体子问题：当目标人群（target population）与实验样本（experimental sample）之间的重叠（overlap / positivity）假设不成立时，如何识别、量化并敏感性分析由此产生的因果效应估计偏倚。外部有效性问题的核心在于，一个从随机实验（RCT）中估计到的平均处理效应（ATE），是否可以可运输地（transportable）/ 可泛化地（generalizable） 应用于一个不同的目标人群。方法学上，重叠假设要求目标人群中每个协变量组合下的个体，在实验样本中都有正概率被观测到。这是一个强假设，在现实中常常被违反（例如目标人群包含实验未覆盖的地区或群体）。本文的核心是提出一种新的偏倚分解和敏感性分析框架，专门针对这一违反场景。

发展脉络（history）¶

奠基工作：外部有效性 / 可运输性问题的统计形式化工具的奠基，通常追溯到Cole & Stuart (2010) 与Westreich et al. (2017)。这些工作明确将重叠假设作为标准泛化与运输方法（如逆概率加权、结果模型外推）的默认条件。Cole & Stuart 2010 明确定义了"generalizing findings from a randomized trial to a target population"的识别条件，其中重叠是核心。Westreich et al. 2017 提醒研究者警惕重叠违反，但其建议仍停留在"注意 + 限制样本"层面，缺乏系统的量化工具。这构成了intro中说的"The cornerstone... is the overlap... assumption"。
主要进展：在重叠假设被遵守的设定下，一系列方法被提出——Stuart et al. (2011) 提出了基于倾向性得分权重的泛化方法；Dahabreh & Hernán (2016)（引用时记为Hernán & Robins 2020的g-null formula框架）提供了更结构化的识别结果与估计器。这些方法都在"full overlap"前提下运作。
当前frontier与本文位置：当前可运输性文献的明显缺口在于对重叠违反的系统处理。intro明确指出，"Yet to our knowledge, there is no corresponding formal treatment of the overlap assumption in the external validity setting as exists for internal validity." 内有效性的"overlap violation"处理方法已较成熟（如Crump et al. 2009的截断法、D'Amour et al. 2021的"overlap metric"），但外有效性的对应方法缺失。Egami & Hartman (2021) 的工作（"drawbridge selection"）是最接近本文的竞争路线——它处理的是"目标人群与实验样本在可观测协变量上不一致"时的外推问题，但其偏倚参数化角度不同（聚焦于调节变量被遗漏时的selection bias），而非如本文那样直接以overlap violation为锚点。Nguyen et al. (2017) 在缺失数据框架下处理transportability，但默认使用的是重复测量结构。Nie et al. (2021) 研究了"extrapolation bias"的正则化法，但依赖于强外推假设（如线性外推）。本文的位置就是填补这一空白：提供一个不依赖强外推假设、仅以overlap violation本身为参数的偏倚分解与敏感性分析框架。

子线索聚类¶

这些被引文献大致落在以下子线索上：

线索A：传输性与通用性的标准识别与估计策略（Cole & Stuart 2010, Westreich et al. 2017, Stuart et al. 2011, Hernán & Robins 2020）。簇共性：假设overlap成立，关注权重调整或结果模型外推。
线索B：重叠假设被遵守时的偏倚理解与评估（Crump et al. 2009在内有效性中处理overlap violating，但外有效性中尚无对应物）。
线索C：重叠违反场景的 处理方法
- C1：偏倚参数化与敏感性分析（本文）直接提供偏倚分解与benchmarking。
- C2：外推/正则化（Egami & Hartman 2021处理协变量不一致，Nie et al. 2021处理线性外推）。这些方法与本文不同在于，它们不将"overlap violation"本身作为参数，而是将外推问题归因于其他偏倚源。

这个方向在追问的核心问题¶

如何参数化overlap violation导致的偏倚？ 即，当部分目标人群单元在实验样本中完全没有代表时，ATE估计量的偏倚表达式是什么？
如何进行敏感性分析？ 即，给定偏倚参数化的形式，能否构造一个度量（如偏倚的上界或敏感性梯度），让研究者可以检查自己的结论对overlap violation的容忍度？
如何进行benchmarking校准？ 即，是否可以将偏倚参数与可观测的、已知的常见偏倚源（如非回应偏倚、测量误差）进行校准，以帮助研究者判断"需要多大的overlap violation才能推翻我的结论"？
是否可以在不依赖强外推假设（如线性性、可加性）的前提下给出可操作的敏感性工具？ 这是当前文献的核心瓶颈。

⚠️ 作者的framing（必须明确标注成"这是作者的说法"）¶

作者的缺口叙述："The cornerstone of any generalization or transportation procedure is the overlap (or positivity) assumption... Yet, to our knowledge, there is no corresponding formal treatment of the overlap assumption in the external validity setting as exists for internal validity." 作者把缺口frame成缺少一个analogous treatment of overlap violations（相比于内有效性的Crump et al. 2009）。这让她这篇成为"显然的下一步"。

被淡化或回避的竞争路线： - Egami & Hartman (2021) 的"drawbridge selection"外推方法被作者仅以"refer to... for a related approach"一笔带过。Egami的方法不仅能处理协变量不一致（一种形式overlap violation），还提供了bias formulas。作者通过强调自己的bias decomposition（聚焦proportion omitted + moderation degree）与其互补性，实际上回避了直接与Egami方法的对话（比如谁的bias 上界更紧、谁的assumptions更弱）。 - Hájek-style weighting（在目标人群里用IPW但仅限制在实验人群有正权重的单元）作为一种实用策略，被作者在bias decomposition的下文淡化（说明它仅适用于ful overlap的情况，而本文处理的是真正的violation）。

什么明显该被引/该存在、却没出现在intro里？ - Covariate shift / importance sampling 文献（如Sugiyama, Kullback-Leibler importance estimation procedure, 2007；Cortes et al. 2010的density ratio estimation）是泛化与运输问题的另一种经典形式化，但本文未引。在这些文献中，overlap violation对应的是"分母趋零"问题，有专门的处理（如截断、核化）。未引可能是聚焦差异（可statistical learning vs. causal inference），但作为敏感性分析的可比基准，它的缺席值得查。 - D'Amour et al. (2021) 的"overlap metric in high-dimensions"针对内有效性下的overlap warning问题，但仅在讨论内有效性时被引用，未在外部有效性背景下被用做类比。如果作者引了，可以强化"我的方法是对内有效性方法的对外推广"的论述，但未引。

张力¶

未见明显对立引用。所有被引工作都认同"overlap assumption is key"这一前提，分歧在于违反时如何处理。强内推导向方法（如Nie et al. 2021）与弱假设导向方法（如本文）之间存在逻辑张力，但作者不明确探讨，而是通过不同应用场景说明。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号（逐个点名）：

令 \(S\) 为 样本选择指示变量（sample selection indicator）。\(S=1\) 表示该单元属于实验样本（被随机分配到处理或对照的样本）；\(S=0\) 表示该单元属于目标人群（\(s\) 上的下标用于区分这些集合）。研究者关心的是目标人群的因果效应。
令 \(A \in \{0,1\}\) 表示处理变量（treatment indicator），\(1\) 是处理组，\(0\) 是对照组。
令 \(Y\) 表示结果变量（outcome）。\(Y^a\) 表示潜在结果（potential outcome） 的未观测值——该单元如果接受处理\(a\)会观测到的结果。\(Y = Y^A\) 是观测到的结果。
令 \(X\) 表示 可观测的协变量（covariates），用于条件交换性（conditional exchangeability）假设的调节。论文中默认 \(X\) 是一个有限维向量。
令 \(U\) 表示 不可观测的协变量（unobserved covariates）或 未被观测到的调节变量，但在偏倚分解框架中扮演"moderation degree"的角色。论文中 \(U\) 被用在误差项里（如 \(\beta_{\text{mod}} = \mathbb{E}[Y^1 - Y^0 | S=0, X] - \mathbb{E}[Y^1 - Y^0 | S=1, X]\)）。
常见的参数/estimand：
\(\tau = \mathbb{E}[Y^1 - Y^0 | S=0]\)：目标人群的 平均处理效应（ATE），是估计目标。
\(\tau_S = \mathbb{E}[Y^1 - Y^0 | S=1]\)：实验样本的 处理效应（SATE），是可直接从实验数据中估计的量（在无干扰下）。在没有overlap violation时，通过加权可识别\(\tau\)。
重要定义：
\(\pi(x) = P(S=1 | X=x)\)：实验样本的 倾向性得分（propensity of being in the sample）。

模型（假定）：

因果模型：潜在结果框架（Neyman-Rubin）。
识别假设：假设条件交换性（conditional exchangeability） 在 \(X\) 与 \(S\) 上成立：\(\mathbb{E}[Y^a | X, S=1] = \mathbb{E}[Y^a | X, S=0]\)（即，在给定可观测协变量 \(X\) 后，实验样本与目标人群的处理效应差异仅由协变量分布的差异引起，无系统 selection on unobservables）。
重叠假设（标准情况）：对于所有 \(x\)，\(0 < P(S=1 | X=x) < 1\)。即，在每个 \(X=x\) 的水平上，目标人群和实验样本都有代表。本文研究的violation 是 \(P(S=1 | X=x) = 0\) 对于某些 \(x\)，即目标人群中某些协变量值在实验样本中完全无代表。

可观测数据：

对于 \(S=1\)（实验样本）：可观测 \((Y, A, X)\)。这是常规RCT数据。
对于 \(S=0\)（目标人群）：可观测 \((X)\)，有时也能观测到 \(U\)（但未给出）。关键点： 目标人群的 \(Y\)（潜在结果）不可观测——这也是为什么需要泛化/运输技术。
不可观测：对于目标人群的单元（\(S=0\)），处理组与对照组的潜在结果 \(Y^1\) 与 \(Y^0\) 都未观测到。研究者只能通过实验样本的信息与假设来推断。

想要但观测不到：目标人群“若接受处理”时的潜在结果分布，以及目标的conditional ATE。

第二步：讲最小内核——最简特例¶

最简特例：假设目标人群与实验样本的组成可以通过一个可观测的二元协变量 \(X\) 完全区分，且条件交换性在\(X\)上成立。例如：

实验样本 \((S=1)\)：包含 \(n\) 个个体，\(X\) 分布在 \(\{0\}\)（全部来自某一特定地区）。所以 \(\pi(x=0) > 0\)，\(\pi(x=1) = 0\)。
目标人群 \((S=0)\)：包含 \(N\) 个个体，\(X\) 分布在 \(\{0,1\}\)（\(\{0\}\)的部分与实验样本同质，\(\{1\}\)的部分是实验样本未代表的新地区）。
结果是二分的（为简化）：\(Y \in \{0,1\}\)。

核心问题：在可观测数据下，我们只能从实验样本直接估计 \(\tau_S = \mathbb{E}[Y^1 - Y^0 | S=1, X=0]\)（这是无条件未调整的SATE，因为所有实验单元\(X=0\)）。我们想要的是 \(\tau = \mathbb{E}[Y^1 - Y^0 | S=0]\)，它是

\[\tau = w_0 \cdot \mathbb{E}[Y^1 - Y^0 | S=0, X=0] + w_1 \cdot \mathbb{E}[Y^1 - Y^0 | S=0, X=1]\]

其中 \(w_0 = P(X=0|S=0)\)，\(w_1 = P(X=1|S=0)\)，且 \(w_0 + w_1 = 1\)。由于重叠violation（\(\pi(x=1)=0\)），我们没有 \(S=1,X=1\) 的观测数据，因此在条件交换性下 \(\mathbb{E}[Y^1 - Y^0 | S=0, X=1]\) 不可识别。

本文的核心思路：参数化这个不可识别项所造成的偏倚。

令 \(\tau_{\text{obs}}\) 是用实验样本数据直接估计的“忽略掉\(X=1\)组”后的ATE（即 \(\tau_{\text{obs}} = \mathbb{E}[Y^1 - Y^0 | S=1, X=0]\)，条件交换性下它等于 \(\mathbb{E}[Y^1 - Y^0 | S=0, X=0]\) ）。那么目标\(\tau\) 与\(\tau_{\text{obs}}\)之间的偏倚（bias） 为：

\[\text{Bias} = \tau - \tau_{\text{obs}} = w_1 \cdot \left( \mathbb{E}[Y^1 - Y^0 | S=0, X=1] - \mathbb{E}[Y^1 - Y^0 | S=0, X=0] \right) \cdot (1)\]

这里\(w_1\) 就是 “被省略单元的比例”（proportion omitted），括号里的差就是 “省略这些单元对处理效应的调节程度”（moderation degree）。这正是本文偏倚分解的核心：偏倚 = Proportion Omitted × Moderation Degree。

在这个例子中： - \(w_1\) 可以直接观测（通过目标人群的\(X\)分布）。 - Moderation Degree 是不可观测的。它问的问题是：对于\(X=1\)的单元，其条件处理效应比\(X=0\)的单元大多少（或小多少）？

敏感性分析怎么做：研究者只需对 "Moderation Degree" 的变化范围（比如 \([-M, M]\)）和 "proportion omitted" 的变化范围做敏感性分析。本文的工具就是指导研究者如何通过（1）构造summary measures（告诉偏倚的上界，当moderation degree无限大时偏倚可以任意大，所以需要约束其合理范围）和（2）benchmarking（观察已知偏倚源的Moderation Degree，来判断目标人群的未知Moderation Degree是否可能与之匹配或超过它，从而推翻原来的结论）来完成。

这个最简例子直接显示了本文偏倚分解的核心直觉，且不需要复杂的符号。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在因果推断的外部有效性设定下，当实验样本与目标人群之间的重叠假设（positivity）被违反时，如何处理由此产生的ATE估计偏倚，并构建敏感性分析框架。
核心工具 / 方法：提出一个新颖的偏倚分解，将重叠violation导致的偏倚分解为两个可解释的分量：被省略单元的比例与被省略单元对处理效应的调节程度。基于此，构建一套敏感性分析套件，包含汇总度量（如偏倚的上界、偏倚的梯度、被省略单元比例影响下需要的最小moderation degree才能推翻结论，即“证据阈值”）与基准校准（benchmarking calibration），通过比较观测到的偏倚源（如已知非回应偏倚、测量误差）的调节程度来校准moderation degree的合理区间。
主要结论：在重叠违反的设定下，偏倚参数化具有简洁的显式形式（Bias = Prop. Omitted × Moderation Degree）。利用该分解，敏感性分析可以通过对两个分量的直接推理进行。方法在乌干达北部现金转移支付项目的实验中展示。

关键设定与假设¶

在第二节最简记号的基础上，本论文的完整设定和假设如下：

重叠假设（Positivity）：传统运输性要求 \(0 < P(S=1 | X=x) < 1\)。本文放宽此假设，允许存在 \(x\) 使 \(P(S=1|X=x)=0\)（即完全violation）。论文不假设 \(P(S=1|X=x)=0\) 仅发生在有限或离散的\(x\)上，但偏倚分解的主要推导假设 \(\pi(x)\) 的sigma-algebra 有可测的支撑集。
条件交换性（Conditional Exchangeability）：论文使用 standard transportability assumption：\(\mathbb{E}[Y^a | X, S=1] = \mathbb{E}[Y^a | X, S=0]\)，a∈{0,1}。这意味着在给定可观测的协变量 \(X\) 后，实验样本与目标人群的处理效应差异仅与 \(X\) 的分布差异有关。这是偏倚分解的基础。
一致性（Consistency）：\(Y = Y^A\)，即观测结果等于相应处理的潜在结果（无酒吧或打车费效应等）。
No interference：个体的潜在结果不受其他个体处理分配的影响。
隐式假设：论文假设目标人群的协变量 \(X\) 的分布已知（通过普查、调查或行政数据），且实验样本中\(X\)的分布也已知（通过RCT数据）。

主要结果¶

论文的核心结果是偏倚分解定理（Bias Decomposition Theorem）。

定理1（偏倚分解 - 隐性假设版本）：

设实验样本与目标人群的条件交换性在 \(X\) 上成立。未调整的运输估计量（直接用SATE作为目标人群的ATE）的偏倚为：

\[\text{Bias}(\tau_{\text{unadj}}) = \mathbb{E}_{X|S=0}[\text{CATE}(X) | S=0] - \mathbb{E}[\text{CATE}(X) | S=1]\]

其中 \(\text{CATE}(X) = \mathbb{E}[Y^1 - Y^0 | X, S=1]\)。

在重叠违反的设定下（\(P(S=1|X=x)=0\) 对某些 \(x\)），仅使用可观测数据（即忽略\(X=x\)的组）的估计量\(\tau_{\text{obs}}\)的偏倚可重写为：

\[\text{Bias}(\tau_{\text{obs}}) = \mathbb{E}_{X|S=0}[1 \{ \pi(X) = 0 \} \cdot \left( \text{CATE}(X) - \tilde{\mu}(X) \right) ]\]

其中 \(\tilde{\mu}(X)\) 是在条件交换性下、从 \(X\) 在实验样本中非零的未来可识别部分的 average CATE 的某种插值（即，一个"default"估计值）。但为了更易解释，论文给出更简单的 "proportion omitted" × "moderation degree" 形式：

\[\text{Bias}(\tau_{\text{obs}}) = w_{\text{omit}} \times \Delta_{\text{mod}}\]

其中： - \(w_{\text{omit}} = P(\pi(X) = 0 | S=0)\)：被省略单元的比例。 - \(\Delta_{\text{mod}} = \mathbb{E}[\text{CATE}(X) - \text{CATE}(X_{\text{obs}}) | \pi(X)=0, S=0]\)：moderation degree——被省略单元的平均CATE与观察到单元的平均CATE之差。

推论（汇总度量）：论文提供了以下量化工具： - 偏倚的上界：若已知 \(\Delta_{\text{mod}}\) 不超过某一常数 \(M\)，则 \(\text{Bias} \leq w_{\text{omit}} \times M\)。 - 证据阈值（Evidence threshold, ET）：需要多大的 \(\Delta_{\text{mod}}\) 才能使偏倚大到推翻原有结论（如使结果不显著或翻转符号）？即求解 \(\Delta_{\text{mod}}^{\text{crit}} = \text{原结论的鲁棒范围} / w_{\text{omit}}\)。 - 偏倚的敏感性梯度：当moderation degree变化时，偏倚的变化率。这帮助理解，小的moderation degree是否已能造成大幅偏倚。

Benchmarking：论文提出了一种校准方法，通过将观测到的已知偏倚源（如非回应偏倚、self-selection bias）的moderation degree作为参考点，来判断未知的overlap violation的moderation degree是否可能大到推翻结论。例如，如果已知“高对非回应的非回应的moderation degree是X，而你需要的是10X才能推翻结论”，那就说明overlap violation不太可能动摇结果的稳健性。

证明路线与技术技巧¶

整体路线（三步逻辑主干）：

偏倚分解的识别：从标准外部有效性公式出发： \(\tau = \mathbb{E}[Y^1 - Y^0 | S=0] = \mathbb{E}_{X|S=0}[\mathbb{E}[Y^1 - Y^0 | X, S=0]]\)

利用条件交换性，\(\mathbb{E}[Y^1 - Y^0 | X, S=0] = \mathbb{E}[Y^1 - Y^0 | X, S=1] = \text{CATE}(X)\)。因此，如果可识别，\(\tau = \mathbb{E}_{X|S=0}[\text{CATE}(X)]\)。

但\(\text{CATE}(X)\)对 \(x\) 满足 \(\pi(x)=0\) 的区域不可识别。因此任何仅用可观测数据的估计量\(\tau_{\text{obs}}\)只能覆盖 \(x\) 的支撑集 \(\{x:\pi(x)>0\}\)。所以在 \(x\) 上做无条件期望时，偏倚自然出现为不可识别部分的被省略CATE。
偏倚分解的导出：将目标人群的协变量空间分成两个区域：\(\mathcal{X}_{\text{overlap}} = \{x: \pi(x)>0\}\)（可观测部分）和 \(\mathcal{X}_{\text{omit}} = \{x:\pi(x)=0\}\)（不可观测部分）。则：
\[\tau = w_{\text{overlap}} \cdot \mathbb{E}[\text{CATE}(X) | X \in \mathcal{X}_{\text{overlap}}, S=0] + w_{\text{omit}} \cdot \mathbb{E}[\text{CATE}(X) | X \in \mathcal{X}_{\text{omit}}, S=0]\]
\(\tau_{\text{obs}}\) 只用了第一项（且假设\(\mathcal{X}_{\text{overlap}}\)上的CATE可估计）。因此偏倚 = 第二项 - 假设\(\mathcal{X}_{\text{only}}\)与\(\mathcal{X}_{\text{overlap}}\)的CATE没有差异时第二项应有的值。用\(\tilde{\mu}\)作为\(\mathcal{X}_{\text{overlap}}\)上CATE的某种“default”估计量（如平均CATE），得到：
\[\text{Bias} = w_{\text{omit}} \cdot \left( \mathbb{E}[\text{CATE}(X) | \text{omit}] - \tilde{\mu} \right)\]
这就是 \(w_{\text{omit}} \times \Delta_{\text{mod}}\)。
敏感性分析的工具构建：基于上述分解，作者设计了summary measures（如ET的计算方法）与benchmarking。关键点：所有工具都不要求估计\(\Delta_{\text{mod}}\)的绝对值，而是通过对\(\Delta_{\text{mod}}\)进行直接推理（“如果\(\Delta_{\text{mod}}\)是X，你的结论会怎样？”）或与已知偏倚源的历史comparison来实现。

关键跳跃点：

从“条件交换性下CATE(X)可识别”到“但不可识别的\(X\)区域造成偏倚”：这是最核心的跳跃——证明这个偏倚是可以参数化为一个显式函数，而不是像一些方法那样把它“藏”在模型中。本文不依赖于对不可识别区域的CATE做外推假定。
构造 \(\tilde{\mu}\) 的选择：偏倚分解中的\(\tilde{\mu}\)（default估计量）有多种可能。作者选择将其设置为\(\mathcal{X}_{\text{overlap}}\)的平均CATE（weighted by target population of \(X\)），这是最直接、最直观的设定但并非唯一。另一种选择是使用Generalized Propensity Score Weighting（如果overlap不是完全0而是趋近0时）的估计量。本文选择平均CATE作为default有几个好处：它显然有界（如果CATE有界），且从“忽略”框架出发很自然。

技术技巧点名：

基础但关键的技术：Law of total expectation 与 条件交换性——这就是偏倚分解的数学核心。
反证逻辑与因果图：benchmarking的“证据阈值”是基于一个简单的反证：如果在目标人群中，“被省略组的moderation degree” > “已知偏倚源的moderation degree” * 某个倍数，才能推翻，那overlap violation的风险就低。这就是一个反事实推理。
线性调整近似（但不是用于识别，而是用于诠释）：论文在真实数据例子中使用了一个线性模型近似来直观展示CATE的moderation，但论文强调这不是必要的假设，仅作为解释辅助。

真实例子与应用¶

数据/场景：乌干达北部一个现金转移支付项目的RCT（实验样本是接受与否的研究组，结果变量是家庭粮食安全/福祉）。目标人群是乌干达北部全体家庭（包含RCT未覆盖的地区）。

怎么用： 1. 识别\(X\)：从目标人群（全国性调查数据）获取协变量分布。\(X\)中包含如地区、家庭规模、收入等。 2. 检查overlap：作者发现某些经济状况（如极端贫困区）在实验样本中完全无代表（\(\pi(x) \approx 0\)）。这些被省略单元的比例 \(w_{\text{omit}}\) 被计算出来。 3. 应用偏倚分解：作者计算了（1）\(w_{\text{omit}}\)；（2）基于对已知偏倚源（如非回应偏倚——某些家庭拒绝参加RCT的偏倚）的历史文献，估计这些偏倚源的moderation degree作为benchmark。 4. 结论：benchmarking表明，即使假设被省略组的moderation degree与已知的非回应偏倚相当（或甚至略大），原有结论（现金转移显著改善粮食安全）仍然稳健。但如果moderation degree达到3倍于非回应偏倚的影响时，结论才会被逆转。

例子想说明：这是一个示范，展示框架如何应用于实际数据和操作决策。亮点是用已知的非回应偏倚作为现实基准，大幅增加了sensitivity analysis的可信度。

🔎 结论是否比证明窄¶

存在一个明显的“隐性温和假设”：条件交换性假设在本文实际应用中可能很强——全被假设为 \(X\) 已知。论文确实通过首次操作避免了 \(U\) 的混淆（sensitivity analysis是本作用来评估其可能性），但在偏倚分解的表述中，作者默认忽略了一个事实：若条件交换性不成立，even observed sample may mislead about the CATE(X) for the observed part。这使得结论（稳健性）比证明窄，因为偏倚分解只承诺在条件交换性成立且无其他隐藏偏倚源时，模型成立；但现实应用中，条件交换性几乎不可能完美成立，这使sensitivity analysis的结果解读需要更谨慎。论文的limitation部分明确提到了“If the exchangeability assumption does not hold... our bounding tools would miss that bias”，这节应在精读时重点提醒。

四、开放问题¶

多变量 / 连续型重叠violation的扩展：本文的偏倚分解用\(w_{\text{omit}}\)（一个比例）和\(\Delta_{\text{mod}}\)（一个标量）来处理。但在高维\(X\)或连续\(X\)下，\(\pi(x)=0\)的区域可能是复杂流形（如高维随机矩阵理论的最大特征值的类似物）。如何在这种设定下构造可解释的summary measures？扎根于：论文的符号与分解明确以“discrete \(\mathcal{X}_{\text{omit}}\)区域”为前提，但未来“应用到continuous covariates”是合理的延伸。
不交换性（unmeasured confounders）的处理：条件交换性假设在这篇框架中是关键基础，但真实问题中它几乎肯定被违反。现有方法可以通过sensitivity analysis（如E-value）处理，但本文的benchmarking依赖于已知偏倚源。未来的问题：能否将条件交换性本身视为一个待参数化的偏倚源，并构建类似\(w_{\text{omit}} \times \Delta_{\text{mod}}\)的分解，或使用IV / proximal法进行identifiability？扎根于论文第二节中交换性假设的弱项（“the exchangeability assumption is not testable”）。
数据处理后的benchmarking：论文的做法是将已知偏倚源的moderation degree作为固定点，来校准未知overlap violation的moderation degree。但现实中，已知偏倚源（如非回应）本身就是一个moderation度量的估计值（有抽样误差）。如何构建将这种估计不确定性考虑在内的formal test或区间估计？这是一个待解决的形式化假设检验问题。扎根于论文benchmarking节中“We use the nonresponse bias from the literature as a reference point”，这引出了估计量的不确定性是否需要被formalize。
非线性情况下的线性调整近似的评估：论文在真实数据例子中使用线性模型近似来衡量CATE的moderation。但非线性情况（如logistic / survival）下，CATE的差异如何被线性近似误导？这是对论文真实性应用细节的延伸，看看能否构造更稳定的非参数moderation度量。

注意：第3点或第4点是否是真gap，需要快速查阅该子领域（可运输性 + 敏感性分析）最近5年的重要论文（Huang也引了一些）以确认哪些已经被讨论。如果近3篇都指向缺乏建设性，那么第3点就是一个真gap。

Maintained by 陈星宇 · Homepage · Source on GitHub