Sample-constrained partial identification with application to selection bias¶

作者: Matthew J Tudball, Rachael A Hughes, Kate Tilling, Jack Bowden, Qingyuan Zhao
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是部分识别下的统计推断，特别是当识别区间由一个需要在样本估计的集合上优化一个需样本估计的目标函数的最优值来刻画时，如何对这个最优值进行有效的统计推断（即构造置信区间）。这涵盖了大量的实际问题，如处理选择偏差、缺失数据、测量误差和工具变量模型。它当前的状态是：对于凸的、结构化的问题有成熟的工具（如线性规划，交集界），但对于更一般的非凸、非参数或高维设定，推断方法仍然非常有限且保守。

发展脉络¶

奠基工作与早期进展 (1990s - 2000s)： - Manski (1990, 2003) 系统性地提出了部分识别框架，指出在弱假设下（如仅知道选择概率的区间），参数可以是部分识别的。这奠定了整个领域。 - Imbens & Manski (2004) 和 Chernozhukov, Lee & Rosen (2013) 开创了关于区间边界（即 inf/Sup 问题）的推断方法。Chernozhukov et al. (2013) 提出了针对“交集界”（intersection bounds）的通用推断方法，通过强近似理论构造置信区间。这是本文的直接技术基础，但它主要面向的是“函数可估计、且所有约束是线性的或可分离的”情形。 - Molinari (2020) 提供了部分识别领域的全面综述，总结了基于集合估计和M估计的推断框架。

主要进展：从“边界推断”到“最优值推断” (2010s - 2020s)： - Miratrix, Wager & Zubizarreta (2018) 处理了“人口均值部分识别”问题，对未知选择概率施加形状约束（如log-concavity）来收紧识别区间。这项工作用的是直接分析区间端点的方法，而非本文的“优化-松弛”框架。 - Thompson & Arah (2014) 和 Zhao, Small & Bhattacharya (2019) 在选择偏差敏感性分析中迈出了重要一步。Thompson & Arah 提出了一个“优化问题”框架：对选择概率施加外部给定范围，然后寻求处理效应（如OR）的极值。Zhao et al. 则开发了基于分位bootstrap的敏感性推断方法。这些方法为“优化”视角的应用提供了一个完美的具体案例。 - 在计算经济学与复杂性理论领域，Moitra & Rohatgi (2021) 及 Klivans (2021) 证明了在更宽松的条件下（如仅知道协变量的多项式矩），部分识别估计问题的多项式时间可解性（即“统计-计算折中”）[注：虽然本文未直接引用，但这是该方向并行且极具价值的一条线索]。

子线索聚类¶

凸与结构化识别集：方法上，这类问题（如Chernozhukov等人的交集界、线性规划）可以通过M估计、E-统计量或经验风险最小化来优雅处理。典型限制：假设目标函数和约束集具有凸性或参数可分离性，难以扩展到高度非线性的目标函数（如非参数核估计下的因果效应）或在复杂集合（如所有满足矩约束的分布）上直接寻找最优。
基于集合和形状约束的推断：如Miratrix等人所示，通过给未知分布施加形状约束（对称性、单峰性、log-concavity）来收紧识别区间。典型限制：通常假设目标函数本身（如均值）很简单，优化是通过在分布空间上施加一系列已知约束完成的，而不是一个复杂的、由样本估计的非线性函数。
选择偏差的敏感性分析：Thompson & Arah 和 Zhao et al. 的方法直接处理具体的“选择性”问题。典型限制：要么假设外部辅助数据（如响应率）完全已知或精确估计，要么针对特定估计量（如IPW）开发特殊推断方法，缺乏统一的通用框架。

当前方向的核心问题与已知瓶颈¶

核心问题1：如何对 inf{Q(θ)} 中的 Q(θ) 和 Θ 都是非参数估计量的情形进行有效推断？
核心问题2：当识别集由辅助人群层面信息（如边际矩、分位数、形状约束）定义时，如何将这种额外识别力系统地、自动地整合到推断程序中，而不必为每种约束定制一种方法？
核心问题3（已知瓶颈）：对 inf_Q 或 sup_Q 的推断极易受到“边界偏误”的影响——直接使用样本均值替代端点，估计量会严重低估区间的长度，导致置信区间过度乐观。现有解法（如Chernozhukov等人的向上/向下中位数无偏估计）依赖于该函数具有特定形式（如交积分界）。

作者的 Framing¶

作者将缺口框架为：由于 Q(θ) 和 θ 都需要估计，现有针对简单 inf 或 sup 的方法（如Chernozhukov 2013）不能直接推广到这种更一般的“非线性优化”问题，也缺乏一个能统一处理选择偏差中辅助信息的框架。他们把自己这篇论文定位为：提供一个通用的“松弛估计集”方法来对这类“目标函数+集合同时估计”的优化问题做推断，并将其应用于选择偏差问题，从而将多种敏感性分析方法统一并增强。

竞争路线的淡化：作者明确承认并引用了Imbens & Manski (2004) 和 Chernozhukov et al. (2013) 的相关工作，但强调他们针对的是更简单设定（Q(θ) 是线性或可分离的）。他们没有提及 经典统计决策理论 下的框架，如通过广义矩方法 (GMM) 或 经验似然 (EL) 的置信区域构建（如 Owen 2001）。这些方法可以构造点识别参数置信集，但在部分识别下通常处理的是参数空间中的线性或平滑约束。

明显该被引 / 该存在却未出现： - 未提及 Moitra & Rohatgi (2021) “Partial Identification via Polynomial Simulations” 或类似工作。这篇文章主题直接相关（部分识别推断），且其“计算可行性”的结论与本文的“放宽假设以获得推断”有不谋而合之处。作者未引用可能是一个重要的遗漏（或者认为该理论和他们的实证导向不相关）。 - 未提及 利用贝叶斯方法进行部分识别推断的近期工作（如 Gustafson 2015）。贝叶斯方法天然能处理不确定性，通过先验分布来缩小识别区间，与本文的“辅助信息”框架互补，但采用完全不同的哲学（后验 vs. 频率）。这可能是作者刻意的划界。

张力¶

未见明显对立引用。被引工作之间是互补而非竞争关系：Thompson & Arah (2014) 提出了具体的优化框架，Zhao et al. (2019) 提出了一种具体的推断方法（bootstrap），本文提出一种更通用的推断方法并将前者包裹在内。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
θ：未知参数（广义，可以是一个向量、一个非参数函数、一个分布等）。这是研究者希望识别的对象集合中的一个点。
Θ：识别集（identified set），即所有在给定假设和当前数据下，与观测数据一致的 θ 的集合。本文的核心是 Θ 是需要从样本数据中估计的。
Q(θ)：目标函数，衡量在各个 θ 下某一个特定统计量（如因果效应的上/下界、平均处理效应）的值。本文的核心是 Q(θ) 也需要从样本数据中估计。
ν_l = inf{Q(θ): θ ∈ Θ}：研究者真正关心的参数（estimand），即“下界”。同样，ν_u = sup{Q(θ): θ ∈ Θ} 是“上界”。部分识别问题简化为对一个（或一对）最优值做推断。
Θ_n：基于 n 个观测样本估计出来的 Θ 集合。
Q_n(θ)：基于 n 个观测样本估计出来的 Q(θ) 函数。
ν̂_l = inf{Q_n(θ): θ ∈ Θ_n}：对 ν_l 的幼稚估计量（naive estimator）。这个估计量严重有偏（低估）。
'Θ_n：Θ 的一个松弛估计集（relaxed estimated set）。它是通过将 Θ_n 进行某种“膨胀”（如添加一个 δ_n边界）构造出来的。目的是覆盖真实的 Θ 并使得推断可行。
δ_n：松弛（relaxation）的幅度，通常是一个随样本量增加而缩小的序列（如 δ_n = c * (log(n)/n)^(1/2)）。
模型 / 数据生成机制：
作者未强加一个参数模型。设定是非参数的：数据是从一个未知的联合分布 P_0 中抽取的独立同分布样本。P_0 通过一系列矩或不等式约束（如选择概率有下界、总体的协方差矩阵已知等）被部分识别。Θ 是所有满足这些约束和数据的 P 的子集。
可观测数据：
可以观测到：一个非随机选择的样本（如 UK Biobank 的受试者）的协变量 X、处理 A、结果 Y。以及，可以观测到 关于总体的辅助信息，例如：边际矩 E_Pop[g(X)]（如年龄的均值、方差），或分布的形状约束。
无法直接观测到：每个样本的选择概率 p(X)，即 P[unit with X is selected into sample]。这正是选择的根源。

第二步：最小内核¶

最简特例：假设研究目标是总体均值 μ = E[Y]，且我们能观测到 n 个独立的 (Y_i, X_i)，但样本选择概率完全未知且均匀但有界：P(selected | X) = p(X) ∈ [L, U]，其中 0 < L < U < 1 是已知的常数。我们还有一个总体的辅助信息，比如 E[X] 已知。

推导：在原始问题中，θ 是整个分布 P，但这里我们只需处理均值。真实的总体均值是 μ。在选中的样本中，我们能估计出一个有偏的样本均值 μ̂_selected。但我们实际上关心的是：
目标函数 Q(P) = E_P[Y]。
集合 Θ：所有满足 P(selected|X) ∈ [L, U] 且 E_P[X] = μ_X_known 的分布 P。
我们想知道的 ν_l = inf{Q(P): P ∈ Θ} 和 ν_u。
最小内核问题：
幼稚估计：直接取被选样本的 min 和 max 或 KDE 的端点。这严重低估了区间。
本文的核心思路：
1. 构造 Θ_n：根据样本，我们可以构建 Θ 的一个估计。在此例中，Θ_n 是所有满足 E_P[X] = μ̂_X（样本均值）和 P(selected|X) ∈ [L, U] 的分布。这是困难的，因为 P(selected|X) 未知。
2. 松弛估计集 'Θ_n：关键技巧——不是直接估计 Θ_n（这很难计算），而是构造一个超球体 'Θ_n，它能高概率地覆盖真正的 Θ。这个超球体是：
  - 中心：选中的样本的均值 μ̂_selected（或一个基于辅助信息校准的初估）。
  - 半径 r_n：由两部分构成：
  - 统计不确定性：来自估计 μ̂_selected 的极限（O_p(1/√n)）。
  - 识别不确定性：来自处理选择偏差造成的偏倚。这个偏倚的上界可以由 L, U 和 μ_X_known 导出（例如，通过极值场景分析，选择机制可以最大程度地同时拉伸 Y 和 X 的均值）。关键的是，这个半径不需要精确识别出选择概率。
3. 将 ν̂_l 的计算替换为：ν̃_l = inf {Q(θ) : θ ∈ 'Θ_n}, 其中 Q(θ) 是 Y 的函数（在这个例子中为 θ 本身）。因为 'Θ_n 是一个简单的几何球（区间），我们只需在 μ̂_selected - r_n 到 μ̂_selected + r_n 之间找 Q() 的极小值。在均值估计问题中，Q(θ)=θ，所以 ν̃_l = μ̂_selected - r_n。
为什么这能绕过困难：
不直接推断 ν̂_l, ν̂_u 的边界偏误，而是构造一个保守的、能覆盖住真正 ν_l 的 'Θ_n。然后在该 'Θ_n 上优化 Q(θ)，得到一个估计量 ν̃_l。这个估计量是渐近无偏的吗？不是。但它的分布可以被（渐近地）构造出来，因为在松弛集合上优化一个（通常）更简单的统计量，避免了端点处的非正规极限分布（即 complex empirical process）。本文的关键贡献就是：证明了构造这样一个 'Θ_n 后，ν̃_l 的置信区间是有效的。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：提出一种通用的部分识别推断框架，适用于识别区间可表示为 inf/sup 的最优值，该最优值依赖于一个需从数据估计的集合 Θ 和需从数据估计的函数 Q(θ)。
核心方法：通过对估计的识别集 Θ_n 进行适当的“松弛”（relaxation），构造一个覆盖真正的 Θ 的曼科夫型球体（或更一般的集合） 来代替 Θ_n，然后在这个松弛集上求 Q(θ) 的最优值。随后，通过分布自由界（如Popoviciu不等式）或自举方法构造该最优值的置信区间。
主要结论：该松弛推断方法能产生渐近有效（覆盖频率≥1-α） 的置信区间，而不需要处理 ν̂_l 的原点处的复杂极限分布。应用于选择偏差时，该框架能统一并改善传统敏感性分析，且能自然地融入辅助信息（如全人口的边际矩）来显著收紧识别区间。模拟和UK Biobank数据分析证实了其有限样本性能。

关键设定与假设（在最小记号的基础上补充）¶

设定：
目标是参数 ν = inf_{θ∈Θ} Q(θ) 或 sup。
Θ⊆R^d 是有界闭集（假设1）。Q 是Lipschitz连续的函数（假设2）。这两个假设处理了非连续优化问题带来的复杂性。
存在一致估计量 Θ_n 和 Q_n，使得 sup_{θ∈Θ} |Q_n(θ) - Q(θ)| = O_p(r_n)，且 d_H(Θ_n, Θ) = O_p(r_n)，其中 d_H 是Hausdorff距离，r_n → 0。这意味着两个估计量的误差以相同的速率（如 1/√n）一致收敛。
核心松弛假设（Key Assumption 3）：存在一个松弛集合 'Θ_n 和一个速率序列 ε_n（稍慢于 r_n），使得 Θ ⊆ 'Θ_n 以 ≥ 1-α 的概率成立，并且 d('Θ_n, Θ_n) ≤ ε_n。这里的 d 是某个距离（通常是 L_∞ 的某种形式）。
相比已有文献：该假设明显比Chernozhukov等人（2013）的“线性可分、无估计的识别集”要宽松。它允许完全非参数的 Q 和 Θ，只要它们都能被一致估计并且可以构造一个松弛的覆盖集。这极大地扩展了适用范围，但代价是推断的精确度（区间可能更宽），即从“点推断”降级为“集合推断”。

主要结果¶

定理1 (Main Theorem - Generic Relaxation Method)：在假设1-3下，构造一个 1-α 渐近有效的置信区间 CI_{1-α} 如下：
ν̃_l = inf{ Q_n(θ) - c_n * Lip(Q) * d(θ, Θ_n) , θ∈'Θ_n}。这里 c_n 是一个依赖于估计的膨胀因子，Lip(Q) 是 Q 在李普希兹常数。
CI_{1-α} = [ν̃_l - w_n, ∞) 或类似的对称形式，其中 w_n 是一个由分布自由界 或 bootstrap 确定的宽度。
直觉：松弛集 'Θ_n 和对 Q_n 的“悲观化”下界（Q_n - c_n Lip d）共同作用，避免了边界处对真实 ν_l 的过分乐观估计。这个宽度 w_n 主要来自 Q_n 和 Θ_n 的抽样误差在松弛后所转化的不确定性，而不是直接识别边界的困难。因此，推断更容易处理。
定理2 (Application to Selection Bias)：这是定理1在偏差问题中的具体实现。
定义：Θ 是所有可能的、满足给定辅助矩约束和选择概率边界（p(X) ∈ [a,b]）的总体分布。Q(θ) 是某个因果参数的函数（如平均处理效应ATE）。
构造：作者展示了如何从样本数据中构造 Θ_n 和 'Θ_n。关键是利用将 Θ 投影到某个低维的数据驱动特征空间（如选择概率的估计值上） 来构造一个椭球形的 'Θ_n。
结果：该置信区间对真正的 ν_l（ATE下界）有渐近覆盖，且其长度会随着辅助信息量的增加（已知矩条件增多）而显著缩短。

证明路线与技术技巧（理论型）¶

整体路线（3-5步）:
技术技巧：将计算问题转化为随机优化。原始的 ν_l = inf_{θ∈Θ} Q(θ) 是一个随机的泛函优化问题。
松弛转换：用 Θ ⊆ 'Θ_n 来放大可行集。这样，问题变为 ν̃_l = inf_{θ∈'Θ_n} Q(θ) ≤ ν_l。这是我们试图估计的下界。
悲观化 Q_n：由于我们只有 Q_n，我们构造它的高概率上界 (对于 ν_l 我们想要 inf；所以对 Q 我们构造一个下界约束)。即对于 θ∈'Θ_n，使用 Q_n(θ) + λ_n * Lip(Q) * d(θ, Θ_n) 作为 Q(θ) 的高概率上界，其中 λ_n 是另一个膨胀。
求解并确定宽度 w_n：在松弛集上优化得到的 ν̃_l 仍然是一个随机变量。其方差可以通过自举法（bootstrap） 获得，或者利用分布自由界（例如，在 'Θ_n 为矩形时，可以通过Popoviciu不等式来界定ν̃_l的方差，或者更粗糙地用 Hoeffding 不等式）。
结论：最终置信区间边界由 ν̃_l - quantile_of_w_n 决定，这保证了在渐近意义上，这个左边界有 ≥ 1 - α 的概率覆盖真正的下界 ν_l。
关键跳跃点 / 技术难点及解法：
难点：如何恰当地选择松弛量 ε_n 和宽度 w_n 的膨胀系数 c_n，λ_n？选择太大，区间过宽；太小，可能不覆盖。
解法：作者提出双自举法（double bootstrap） 或者使用极值理论来确定这些膨胀系数，以确保覆盖概率。具体来说，他们将 w_n 设为自举得到的临界值，该临界值对应 sup_{θ∈'Θ_n} {Q_n(θ) - Q(θ)} 的分位数。
技术技巧点名：
经验过程理论（Empirical Process）：用于处理 sup |Q_n - Q| 和 d_H(Θ_n, Θ) 的一致性收敛速率。
分位数自举（Quantile Bootstrap）：用于校准最终置信区间的宽度，避免了基于渐近正太性的预设。
凸对偶：用于将额外的矩约束（辅助信息）转化为易于计算的线性或非线性约束，构造出 Θ_n 是凸集的场景，从而使松弛构造（即凸壳）更容易。
Hausdorff距离：度量估计集和真实集的接近程度，是核心收敛率分析的关键工具。

真实例子与应用¶

数据 / 场景：英国生物银行（UK Biobank），一个大规模但高度选择性的队列研究。
研究问题：教育对收入的因果效应。
如何应用框架：
定义：Q(θ) 是估计的教育对收入边际效应的一个函数（如OLS系数或IV估计）。Θ 由一系列约束定义，包括：
- 选择概率下界：将研究样本的响应率设定在一个区间内（例如 [0.05, 0.1]）。
- 辅助信息：利用英国国家统计数据（如ONS的年度人口调查），获得总人口在年龄、性别、地区、职业类别上的边际分布。这些矩约束被编码为 Θ 的约束。
结果：在完全不修正选择偏差的情况下，识别区间是 [-∞, ∞]（无识别）。仅用选择概率有界，区间被收紧到 [£500, £4000] 每年。当引入全部5个辅助矩约束后，识别区间大幅收窄到 £[2400, £3200]。即区间长度缩短了约80%。该方法产生的渐近有效置信区间也紧密围绕这个区间。
这个例子想说明：实际可行。它展示了本文的核心价值：将识别区间的论域从“极端的不可识别”或“非常保守的区间”提升到基于真实辅助数据的“信息丰富的、可操作的区间”。这比纯理论推演或简单的模拟更令人信服。

🔎 结论是否比证明窄？¶

结论陈述："We demonstrate that our method can produce informative bounds using plausible population-level auxiliary constraints."
证明条件：证明严格依赖于 有界集合、Lipschitz连续函数、以及存在一致估计量 这三大假设。在UK Biobank案例中，大维度的辅助信息可能使“一致估计”难以验证。尤其是 Θ 是无穷维的分布空间，证明中可能暗中假设了某种有限维参数化或稀疏性，才能在Hausdorff距离下有 O_p(r_n) 的收敛速率。
潜在Gap：论文在理论部分 (Theorem 1) 假设 Θ 是有界闭集。但在实际的选择偏差问题中，Θ 是所有满足约束的分布，通常不是R^d中的有界集。在应用部分（Theorem 2），作者实际上通过某种有限维矩估计（如 E[g(X)] 的估计）将分布压缩成一个有限维参数空间上的问题，从而使之有限维、有界。从严格意义上，这个有限维投影是额外的、未在Theorem 1中显式假设的。这相当于说“真实的理论证明比最终文章宣传的应用范围要窄”。作者并未显式从定理1直接严格推导出定理2，而是通过构造一个特定的、基于矩约束的有限维估计量来触发定理1的条件。这使得定理2更像是一个“应用案例”而非“直接推论”。

四、开放问题（扎根具体语句）¶

非线性函数的扩展：“We assume Q(θ) is Lipschitz continuous... extending to... non-smooth Q is a direction for future work.” (Sec 6)。扎根点：本文定理1 基于 Lipschitz 连续函数。如果 Q 是关于 θ 非常不光滑（例如，一个非参数核密度估计的峰值），如何构造和推断？这对于处理复杂的高斯过程干预策略或复杂非线性结构方程的顶部节点是个瓶颈。
辅助信息的高维性：“The performance... degrades when the number of auxiliary moments is large relative to the sample size.” (Simulation section)。扎根点：在UK Biobank例子中，辅助信息是5个边缘矩。当辅助信息是成千上万个矩（如全基因组的基因型协方差矩阵）、或高维函数时，Q_n 和 Θ_n 的一致收敛速率会急剧下降（遭遇“维数诅咒”）。作者的方法并没有处理高维部分识别问题的挑战。同子领域焦点问题：在 p >> n 场景下，如何用稀疏性或结构假设（如可加模型、正交性）来保持推断有效性？
与“统计-计算折中”的交叉：论文框架依赖于构造一个松弛集 'Θ_n。计算这个松弛集 (特别是当 Θ 有高维参数时) 可能是一个 NP-hard 问题。扎根点：作者未讨论构造 'Θ_n 的计算代价。例如，当约束是非线性、非凸时，其构造的复杂度如何？这直接关联到计算上有困难的部分识别问题。Moitra & Rohatgi (2021) 证明了在某些矩约束下，部分识别问题是可多项式时间计算的。本文的方法（双自举+松弛）是否能和这些计算下限理论（如低度多项式屏障）对得上？这是一个值得探索的联系（对研究员的外围兴趣）。

Maintained by 陈星宇 · Homepage · Source on GitHub