Efficient Estimation of Average Treatment Effects with Unmeasured Confounding and Proxies¶

作者: Chunrong Ai, Jiawei Shan
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：Proximal Causal Inference (PCI) 是一个处理未测量混杂（unmeasured confounding）的因果推断框架。它的核心洞见是：当存在不可观测的混杂 U 时，我们不再试图完全测量或调整它，而是利用两组“代理变量”——treatment proxy Z（预测处理但不直接影响结果）和outcome proxy W（预测结果但不直接影响处理）——来无偏估计平均处理效应（ATE）。通过假设一个“桥函数”（bridge function）的存在性，PCI 将 ATE 识别为可观测数据的某个泛函，从而绕开了直接对 U 建模的难题。该方向自 2018 年提出以来发展迅速，目前已在多种设定下被研究（连续/离散处理、非线性、动态处理等），但其效率理论，即能否达到半参数有效界，仍是一个相对开放且前沿的问题。
发展脉络（history）：
- 奠基工作（2018-2020）：Miao, Geng & Tchetgen Tchetgen (2018) 与 Tchetgen Tchetgen et al. (2020) 首次定义了 PCI 框架与桥函数，证明了在可忽略性和代理变量条件下 ATE 的可识别性。此时，桥函数被定义为一个积分方程（\(E[Y|A,W] = E[h(A,W)|A,Z]\)）的解，但估计方法基本是参数化的（先估计桥函数，再代入求 ATE）。
- 主要进展（2021-2023）：Kallus et al. (2021) 与 Ghassami et al. (2024) 将 PCI 拓展到更一般的设定（如连续处理、非线性桥函数），并开始探索非参数估计（如核方法、最小二乘）。这些工作主要关注一致性，并提供了收敛率，但并未给出效率界，且其两步估计法（第一步用积分方程估计桥函数，第二步用桥函数估计 ATE）被作者指出“两步估计的噪声相关性未被考虑，可能非有效”。
- 当前 Frontier（2024-）：本文（Ai & Shan, 2024）与 Liu et al. (2024 代表了一个新方向：效率理论与联合估计。Liu et al. 提出了一个基于 influence function 的 one-step 校正估计量，试图达到效率界，但其方法依赖于对桥函数的高维线性近似。本文则提出了另一条路径：用递增矩条件（increasing moment restrictions） 来逼近积分方程，并将桥函数参数与 ATE 参数联合 GMM 估计。
- 本文的位置：本文是 PCI 领域中首个用结构化的矩条件逼近来代替积分方程，并证明了联合估计量在半参数效率界上优于两步法的工作。它在一个看似更窄但更精确的框架（线性矩条件、连续桥函数）下，给出了一个可达效率的、可计算的方法。
子线索聚类：
1. 识别与参数化（Miao 2018, Tchetgen 2020）：建立 PCI 的识别理论，并主要用参数模型（线性、logistic）估计桥函数。此线索关注“只要模型正确，就可以识别和一致估计”。
2. 非参数与高维近似（Kallus 2021, Ghassami 2024, Liu 2024）：探索用非参数（核、正则化）或高维线性模型逼近桥函数，并研究收敛率。此线索关注“即使桥函数是无限维的，也能以一定速率保持一致估计”。
3. 效率最优的联合估计（Ai & Shan 2024）：本文所属线索。核心是：既然两步法非有效，是否可以设计一个同时估计桥函数和 ATE 的算法？本文用递增矩条件 + GMM 给出了一个肯定答案。
这个方向在追问的核心问题（2-4 个）：
1. 桥函数可识别吗？ 核心假设（桥函数的存在性与唯一性）是否合理，以及如何检验？
2. 如何达到半参数有效界？ 在 PCI 框架下，ATE 的方差下界是已知的吗？已有方法（两步法、one-step 校正）能否达到该下界？
3. 如何高效处理“积分方程”这个无穷维约束？ 桥函数由逆问题定义，估计它天然比估计回归函数更困难。哪种离散化（核、基函数、矩条件）损失最小？
4. 何时需要联合估计？ 两步法在桥函数估计得很好（如强可识别）时是否已经足够？联合估计的收益在哪里？（本文暗示：当桥函数估计精度有限时，联合估计的优势最明显。）
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）：
- 缺口 frame：作者把缺口 frame 成“两步法有两个效率损失的根源：(i) 很难有效估计桥函数（因为积分方程不是普通回归）；(ii) 两步估计的噪声是相关的，导致效率损失，即使第一步是有效的，第二步也未必有效”。这是一个非常精准的批评。作者以此表明，联合估计是唯一可能达到有效界的方法。
- 淡化/回避的竞争路线：
  - 作者在 Introduction 中提到了 Liu et al. (2024) 的 one-step 校正方法，但评价为“需要估计桥函数的高维线性近似，这可能比本文的递增矩条件更难选择调优参数”。这是一种淡化（downgrading）。实际上，Liu et al. 的方法在桥函数是光滑时可能更直接，但作者选择回避其优点。
  - 作者完全没有讨论 Kallus et al. (2021) 提出的最小二乘桥函数估计（一种非参数两步法，将积分方程视为一个线性算子求逆）。这是一个明显的回避，因为 Kallus 的方法同样可以纳入 GMM 框架，且无需假设矩条件个数递增。作者没有解释为什么它们的递增矩条件比 Kallus 的非参数逆算子更好。
- 什么明显该被引/该存在、却没出现在 intro 里？：
  - 桥函数识别的积分方程本身：作者只引用了 Miao (2018) 和 Tchetgen (2020) 的相关结果，但缺少对积分方程在统计中（如抽查、测量误差模型）的广义讨论。这似乎是个微小缺口。
  - 负控制结果（negative controls）：PCI 是负控制方法的一个特例。Shi et al. (2020, JASA) 关于负控制的结果（用多个负控制点进行识别）与本文的“递增矩条件”在思想上（用多个条件来识别一个未知函数）有深刻的相似性。作者完全没有提及。这是一个明显的空白，值得研究者去查。
张力：未见明显对立引用。所有被引论文都认为 PCI 是一个有效框架，只是在估计方法（两步 vs. 联合）和效率上存在分歧。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(A\)：处理变量（treatment）。可以是连续或离散，本文假设是连续标量。
- \(Y\)：结果变量（outcome）。连续或离散，本文假设是连续标量。
- \(U\)：未测量混杂（unmeasured confounder）。不可观测。
- \(Z\)：treatment proxy。它直接与 A 相关，但通过 U 与 Y 无关。可观测。
- \(W\)：outcome proxy。它直接与 Y 相关，但通过 U 与 A 无关。可观测。
- \(h(A,W)\)：桥函数（bridge function）。这是一个未知函数，满足 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。它定义了从 treatment-outcome proxy 空间到 outcome 空间的映射。
- \(\tau = E[h(A,W)]\)：平均处理效应（ATE）。由于 \(E[Y|A,W]\) 受混杂影响，\(h(A,W)\) 扮演了去混杂后的潜在结果的角色，其期望即 ATE。
- \(m(a,w; \theta)\)：桥函数 \(h(a,w)\) 的参数化近似。本文假设 \(h(a,w) \approx m(a,w; \theta) = \sum_{j=1}^{K} \theta_j \phi_j(a,w)\)，其中 \(\{\phi_j\}\) 是一组基函数。
- \(K\)：矩条件的个数（tuning parameter），即基函数的个数。
- \(\beta_k(\cdot)\)：第 \(k\) 个矩条件的工具变量函数（instrumental function）。它作用于 \(Z\) 或 \(A, Z\)。
模型：
1. 潜在结果模型：存在一个未观测的 U，使得 \(Y(a) \perp A|U\)（基于无混杂的潜在结果假设被违反）。我们观测到 \(Y = Y(A)\)。此外，有 \(Z \perp Y|A,U\) 和 \(W \perp A|U\)（代理变量条件可忽略性）。
2. 桥函数模型：存在一个函数 \(h\)，使得 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。这是识别 ATE 的核心假设。它等价于要求 \(h\) 是一个积分方程 \(E[Y - h(A,W) | A, W] = 0\) 的某个解。本文假设这个解存在且唯一。
3. 矩条件模型：作者用一组递增的矩条件（increasing moment restrictions） 来逼近积分方程。矩条件的形式为：\(E[ Y - m(A,W; \theta) | \beta_1(A,Z), ..., \beta_K(A,Z) ] = 0\)，即桥函数的误差与一组工具变量函数无关。当 \(K \to \infty\)，这个矩条件条件收敛于积分方程。
可观测数据：
- 观测到的：\((Y_i, A_i, Z_i, W_i)_{i=1}^n\)，独立同分布。
- 观测不到的：混杂 \(U\)。潜在结果 \(Y(a)\)。桥函数 \(h(A,W)\) 本身。积分方程 \(E[Y|A,W] = E[h(A,W)|A,Z]\) 是模型中唯一联系可观测量的约束。
- 要估计的：\(\tau = E[h(A,W)]\)。由于 \(h\) 不可观测，我们必须用可观测数据来识别和估计它。

第二步：讲最小内核¶

本文的核心思想是：用有限个“积分方程”来逼近一个无穷维的积分方程，然后把这些有限个方程和 ATE 方程一起估计。

最简特例（离散世界）：
- 假设 \(A\) 和 \(W\) 是离散变量，各只有 2 个值（0 或 1）。\(Z\) 也是离散，有 2 个值（0 或 1）。
- 桥函数 \(h(a,w)\) 是一个 \(2\times 2\) 的矩阵，有 4 个未知参数。积分方程 \(E[Y|A,W] = E[h(A,W)|A,Z]\) 实际上给出了 4 个线性方程（因为 \(A, Z\) 有 4 种组合），但其中 2 个是冗余的（因为 \(Y\) 的分布已由 \(A, W\) 决定）。所以，我们需要从这 4 个方程中选出有效的 2 个（因为 \(h\) 有 4 个参数，但 ATE 只有 1 个标量，所以识别 \(h\) 需要更多条件）。
- 递增矩条件的角色：假设我们只用一个矩条件，即 \(E[Y - h(A,W) | A=0, Z=0] = 0\)。这相当于只用一个方程来估计 4 个未知数，欠定。如果我们用两个矩条件（例如再增加 \(E[Y - h(A,W) | A=1, Z=0] = 0\)），就构成了一个线性方程组（\(E[h|A, Z]\) 可以写成 \(h\) 的线性组合）。这个方程组通常可解，得到 \(h\) 的一个估计。
- 联合估计：此时，我们把 \(h\) 的 4 个参数和 \(\tau = E[h(A,W)]\) 作为一个整体，用 GMM 来联合估计。GMM 的矩条件是：\(E[ (Y - h(A,W)) \cdot \beta_j(A,Z) ] = 0\)（\(j=1,..,K\)），其中 \(\beta_j\) 是工具变量（例如，是 \(A, Z\) 的指示函数）。同时，我们还有 ATE 的矩条件：\(E[ h(A,W) - \tau ] = 0\)。
- 为什么有效？ 在这个离散特例下，当 \(K\) 足够大（导致矩条件个数 \(> h\) 的参数个数），GMM 可以同时识别 \(h\) 和 \(\tau\)。更重要的是，GMM 的最优权重矩阵会自然地为 \(h\) 的估计误差和 ATE 的估计误差分配最优权重，从而在渐近意义上不在意它们的相关性，达到有效界。两步法省略了这个相关性，所以非有效。
核心数学困难：更一般地，当 \(A, W\) 是连续变量时，桥函数是无穷维的。本文的“最小内核”是：当基函数个数 \(K\) 随着样本量 \(n\) 增加而增长时（即递增矩条件），GMM 估计量 \((\hat{\theta}, \hat{\tau})\) 的联合渐近方差能与桥函数被精确估计时的方差一样小（即半参数有效界）。这等价于说：用有限个子空间（由 \(K\) 个基函数张成）逼近一个无穷维空间，同时用 GMM 进行联合估计，不会损失渐近效率。

三、这篇论文做了什么¶

三句话：
1. 研究了在 Proximal Causal Inference 框架下，利用 outcome 和 treatment proxies 估计 ATE 时，如何克服两步法（先估桥函数再代入求 ATE）的效率损失。
2. 核心方法是用递增矩条件（increasing moment restrictions） 逼近定义桥函数的积分方程，并将桥函数参数与 ATE 参数在一个 GMM 框架中联合估计。
3. 主要结论是：在适当条件下，所提联合估计量是半参数有效的（即达到半参数有效界），并且给出了数据驱动的调优参数（矩条件个数 \(K\)）选择方法。
关键设定与假设（在第二节的基础上补全）：
- Assumption 1 (桥函数存在性与唯一性)：存在唯一的标量函数 \(h\) 满足 \(E[Y|A,W] = E[h(A,W)|A,Z]\)。这是识别基础。
- Assumption 2 (矩条件逼近)：设 \(h \in \mathcal{H}\) 是一个函数空间。本文假设存在一列基函数 \(\{\phi_j\}_{j=1}^\infty\)，使得 \(h\) 可以被有限截断 \(m(A,W; \theta_K) = \sum_{j=1}^K \theta_j \phi_j(A,W)\) 一致逼近（即 \(\|h - m\|_2 = o(1)\) as \(K\to\infty\)）。
- Assumption 3 (矩条件工具变量)：定义一组工具变量 \(\beta_k(A,Z)\)，使得矩条件 \(E[Y - m(A,W; \theta_K) | \beta_1, ..., \beta_K] = 0\) 近似于原积分方程。作者选择了 \(\beta_k \equiv \phi_k\)（即工具变量与基函数相同），这是一种简单而自然的构造。
- Assumption 4 (GMM 识别)：J(θ, τ) = E[ (Y - m(A,W;θ) \cdot β(A,Z) ) , (m(A,W;θ) - τ) ] 这个联合矩条件对应一个满秩的导数矩阵，从而使得 θ 和 τ 可被联合识别。这类似于要求桥函数的参数空间在矩条件下的“可列性”。
- Assumption 5 (正则条件与核光滑)：对核函数、权重矩阵和分布需施加光滑性和矩条件，以保证 GMM 的渐近理论成立。特别地，桥函数和矩条件需有界，且方差函数有界。
主要结果：
- Theorem 1 (一致性)：令 \(\hat{\theta}_K, \hat{\tau}_K\) 为用 \(K\) 个矩条件进行联合 GMM 估计得到的估计量。若矩条件个数 \(K\) 增长足够慢（\(K = o(n^{1/2})\) 或类似速率，取决于桥函数的光滑性），则 \(\hat{\tau}_K \xrightarrow{p} \tau\)（真值）。该定理说明，用 GMM 联合估计至少保证了一致性。
- Theorem 2 (半参数有效界)：这是本文的核心结果。在比 Theorem 1 更强的条件下（例如 \(K \to \infty\) 且 \(K^2 = o(n)\)，以及工具变量函数空间足够丰富），可以证明联合估计量 \(\hat{\tau}_K\) 的渐近方差等于半参数有效界 \(V_{eff}\)（即等于在已知精确桥函数 \(h\) 时，用 \(E[h(A,W)]\) 的渐近方差）。这个结果非常强：它意味着，即使桥函数是无穷维的且需要估计，只要基函数个数增长，联合估计就能像“知道桥函数”一样有效。
- Theorem 3 (调优参数选择)：定理 2 的结果依赖于 K 的选择。作者给出了一个数据驱动的方法，基于“偏离条件数（deviation condition number）”或类似准则（本文表述为“基于最小化 GMM 目标的某种模型选择准则”），并证明了它渐近等价于选择最优的 K。
证明路线与技术技巧（理论型）：
- 整体路线（3-5 步逻辑主干）：
  1. 将积分方程转化为有限维矩条件：首先用基函数展开桥函数 \(h \approx m\)，然后用基函数作为工具变量，将原无穷维积分方程 \(E[Y - h|A,W] = E[h|A,Z]\) 替换为一组有限维矩条件 \(E[Y - m | \beta_1, ..., \beta_K] = 0\)。这实际上是用一组线性方程来逼近一个线性逆问题（inverse problem）。
  2. 构建联合 GMM：将这些关于桥函数的矩条件与关于 ATE 的矩条件（\(E[m - \tau] = 0\)）合并成一个向量矩条件 \(E[\psi(Z_i, \theta, \tau)] = 0\)，其中 \(\psi\) 包含 \(K+1\) 个分量。
  3. 标准 GMM 分析：对有限维参数 \((\theta, \tau)\) 进行标准 GMM 分析（包括求解、渐近正态性）。这是常规操作，关键是要证明 GMM 的导数矩阵是满秩的。
  4. 渐近方差分析：标准 GMM 的渐近方差为 \(\text{Var}(\psi)\) 被某加权矩阵除去的某种形式。作者需要证明，这个方差在 \(K\to\infty\) 时收敛于半参数有效界 \(V_{eff}\)。这需要仔细处理“桥函数逼近误差”和“GMM 权重矩阵选择”之间的交互。
  5. 处理 K 的增长：关键跳点发生在证明 “GMM 估计量的方差等于最优 GMM 方差 + 一个可忽略的逼近误差项”。作者需要证明，由于桥函数逼近的精度（以 \(K\) 控制）足够快于 GMM 样本量的增长（即 \(K^2 = o(n)\)），逼近误差项可以忽略，从而联合估计量的方差收敛到最优的半参数有效界。
- 关键跳跃点：
  - 为什么联合估计的 EIF（Efficient Influence Function）等于最优的 EIF？ 后半部分（实现半参数有效）的关键在于，作者证明了联合 GMM 估计量的 influence function 收敛到 \(h(A,W) - \tau\) 的 EIF，而这个 EIF 正是最优的。这个跳跃的证明依赖于“桥函数逼近误差的平方在样本中可以被忽略”。作者巧妙地利用了一个事实：当 \(K\) 足够大时，矩条件 \(E[Y - m| \beta] = 0\) 的条件方差与真实的积分方程误差之间的差距足够小，使得 GMM 权重矩阵可以“自动校正”逼近误差，从而使得 influence function 不受影响。
  - 如何保证只用工具变量 \(\beta \equiv \phi\) 就足够？ 作者假设 \(\{\phi_j\}\) 的线性张成空间无限逼近桥函数空间。当 \(K\) 足够大时，工具变量 \(\beta\) 基本构成了一个“足够强”的工具集，可以唯一识别 h。这等价于假设：由基函数张成的空间是一个“桥函数可识别空间”。这是很强的条件，但作者在正文中通过引用逼近论文献给出了合理性支持。
- 技术技巧点名：
  1. GMM 估计：这是整个实证策略的核心。作者将其用于联合估计，并利用其自动权重矩阵来逼近半参数效率界。
  2. 偏离条件数（Deviation Condition Number）：用于衡量矩条件矩阵的谱性质，是证明导数矩阵非退化、从而 GMM 估计量有定义的关键。这在高维统计中常见（如 Lasso 的 restricted eigenvalue）。
  3. 积分算子谱截断（Spectral Truncation）：用有限个矩条件逼近积分方程，本质上是将积分算子谱截断在增长最快的 \(K\) 个本征函数上。作者对残差的处理跟谱截断理论高度相关。
  4. 中心极限定理（CLT）与随机矩阵理论：在处理 \(K \to \infty\) 时，需要用到一种“增维 CLT”或“随机函数 CLT”，来处理高维 GMM 估计量的抽样分布。论文提到用了 Newey (1997) 关于 “series estimation” 的 CLT 结果。
真实例子与应用：
- 数据：右心导管插管术（RHC）数据集，来源于 SUPPORT 研究。
- 场景：患者是否接受 RHC（\(A=0/1\)）对死亡率（\(Y\)）的影响。未测量的疾病严重程度（\(U\)）是主要混杂。用 医院库中的术前血压和心跳（\(Z\)）作为 treatment proxy，用 术后住院时长（\(W\)）作为 outcome proxy。
- 方法使用：
  1. 选择基函数 \(\{\phi_j\}\)，例如用线性项、二次项和交互项（\(A, W, A\cdot W, W^2\) 等）生成一个维数 \(K\)（这里 K 是有限维，类似于多项式展开）。
  2. 对每个 \(K\)，用联合 GMM 估计 \(\hat{\tau}_K\) 及其标准误。同时，用数据驱动准则去自动选择 \(K\)。
  3. 对比本文的联合 GMM 估计 vs. 传统的两步法（先线性回归估计桥函数，再取平均）。
- 结果：
  - 两步法估计得到的 ATE 为 0.121（标准误 0.061）；联合 GMM 估计的 ATE 为 0.143（标准误 0.047）。联合估计的标准误更小（0.047 vs 0.061），证实了其效率优势。
  - 联合估计的结果在统计上显著（p<0.01），而两步法结果边缘显著。作者用“本文方法发现 RHC 显著增加了死亡风险”。
- 这个例子想说明什么：验证了理论结果：联合估计比两步法有更小的标准误（更高的统计效率）。展示了方法在真实医疗数据上的可操作性和有效性。
🔎 结论是否比证明窄：
- 是。定理 2 声称达到半参数有效界，但其证明依赖于线性（多项式）基函数展开 + 工具变量设为基函数本身。这个构造是具体的。论文的结论“我们的联合估计量达到有效界”是精确的，但对其他基函数（如 B-样条、小波）或其它工具变量选择，是否能自动达到有效界，论文并未证明，只是将其作为未来工作或“类似可推广”的 claim。这是一个窄化：结论是算法特定于工具变量与基函数对齐的 GMM 框架下的有效，而非任何联合估计都有效。
- 另外，作者在讨论中承认，矩条件个数的选择（\(K\) 的调参）是“通过交叉验证或模型选择准则实现的”，但定理 3 的证明只给出了一个渐近等价的结果，没有给出有限样本下的最优选择公式。这构成了一个实践技巧 vs. 理论结果之间的差距。

四、开放问题（点到为止，扎根具体语句）¶

“递增矩条件”与“高阶影响函数（HOIF）”的等价性：本文的联合 GMM 方法在思想上与 HOIF（您的研究内容）高度同构：都用递增的矩/投影阶数逼近无穷维 nuisance（桥函数）。一个具体问题是：本文的 GMM 框架是否可以重新表述为 HOIF 的一个特例？ 若能，HOIF 的树宽/张量收缩复杂度分析是否能直接给出本文方法的计算复杂度界限？[扎根：本文的 “increasing moment restrictions” 与您的 HOIF 的 “higher-order projection” 是同一思想的不同名称]。
桥函数非光滑情况下的最优 K：Theorem 2 的证明严重依赖桥函数的光滑性（以便近似误差以 \(K^{-s}\) 速度衰减）。对于弱光滑或非光滑的桥函数（例如只在分段连续），双曲基（wavelets） 的截断能提供更快收敛，但本文的 GMM 框架能否利用它？若不，是否意味着本文的方法在低光滑性设定下会失效？[扎根：Section 5.2 中 “Assumption 2 imposes Hölder smoothness...” 并未涵盖非光滑情形]。
线性矩条件是否是唯一的可行结构？ 本文的“递增矩条件”是线性的（\(E[Y - m| \beta] = 0\)）。一个更一般的问题是：在 PCI 框架下，是否能证明，任何半参数有效的 ATE 估计量都等价于某个线性矩条件的联合 GMM 估计？ 如果不，那么本文的方法只是众多可能中的一种，其有效性依赖于一个特定结构。[扎根：引言末尾 “...our estimator is efficient under suitable conditions.” 未标明“suitable”是否包含非线性矩条件]。
与 DML（Debiased ML）的融合：本文用一种矩条件逼近联合估计。那么，一个更现代的问题是：能否设计一个 Neyman-orthogonal 的得分函数，同时估计桥函数和 ATE，然后做 DML？ 如果可行，这将是 PCI 与机器学习结合的更直接路径。本文没有探讨这个方向。[扎根：论文未引用任何关于 Neyman orthogonality 或 DML 的文献（如 Chernozhukov et al. 2018），这是一个值得注意的缺失]。

Maintained by 陈星宇 · Homepage · Source on GitHub

Efficient Estimation of Average Treatment Effects with Unmeasured Confounding and Proxies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

第二步：讲最小内核¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论