Doubly robust proximal synthetic controls¶

作者: Hongxiang Qiu, Xu Shi, Wang Miao, Edgar Dobriban, Eric Tchetgen Tchetgen
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在只有一个处理单元、多个控制单元的纵向面板数据中，如何利用控制单元的观测结果来估计处理单元的反事实结果，从而得到处理效应。 经典合成控制法（SCM）通过寻找控制单元的加权组合来匹配处理单元的处理前轨迹，然后用这个加权组合在处理后的结果来估计反事实。当前该方向的成熟度较高，已有大量应用和理论工作，但核心挑战在于：当处理前匹配不完美时，估计量会有偏，且现有方法对反事实结果生成机制的正确设定有较强依赖。

发展脉络¶

奠基工作：合成控制法的提出与推广
- Abadie & Gardeazabal (2003) 和 Abadie et al. (2010) 提出了合成控制法的基本框架：通过求解一个优化问题，找到控制单元的权重，使得加权后的控制单元在处理前的结果和协变量上尽可能接近处理单元。Abadie et al. (2010) 将其应用于加州烟草控制计划的效果评估，并提出了基于置换检验的推断方法。本文引用语境指出，经典SC是“线性组合”。
- Doudchenko & Imbens (2016) 对SC方法进行了扩展，讨论了权重非负、截距项等更灵活的形式。
主要进展：处理不完美匹配与推断
- Ferman & Pinto (2016) 系统分析了处理前匹配不完美时SC估计量的性质，指出此时估计量通常有偏，并提出了去均值化的SC方法以改进偏差和方差。
- Ben-Michael, Feller & Rothstein (2018) 提出了增强合成控制法（Augmented SCM），通过引入一个结果模型（如岭回归）来校正因处理前匹配不完美导致的偏差。本文引用语境指出，该方法“使用结果模型来估计因不完美预处理拟合导致的偏差”。
- Arkhangelsky et al. (2021) 提出了合成双重差分法（SDID），结合了SC和DID的思想，具有更好的稳健性。
- 在推断方面，Chernozhukov, Wüthrich & Zhu (2017) 利用共形预测（conformal prediction）和结构断点检验的思想，提出了适用于高维估计量的置换推断方法。Li (2019) 利用投影理论推导了SC估计量的渐近分布，并提出了子抽样方法进行推断。Cattaneo, Feng & Titiunik (2019) 开发了SC的条件预测区间。
当前Frontier：引入Proximal Causal Inference
- Shi et al. (2021) 首次将proximal causal inference框架引入合成控制，将那些不参与构建SC的控制单元重新定位为未观测混杂的代理变量（proxy variables）。该工作将处理后的结果差异视为一个时间序列，为使用时间序列方法估计处理效应打开了大门。本文引用语境指出，该工作“将proximal CI框架形式化，用于SC的识别和推断”。
- 本文（Qiu et al., 2023） 在Shi et al. (2021)的基础上，进一步放松了对反事实结果模型正确设定的要求，通过引入协变量偏移（covariate shift）概念，得到了两个非参数识别公式，并开发了双重稳健的估计量。

子线索聚类¶

权重估计与匹配：核心是寻找最优的控制单元权重。代表工作：Abadie et al. (2010) 的经典SC，Abadie & L'Hour (2021) 的惩罚SC，Ben-Michael et al. (2021b) 的错峰采用（staggered adoption）SC。
偏差校正与稳健估计：当处理前匹配不完美时，通过引入额外的模型或方法进行校正。代表工作：Ben-Michael et al. (2018) 的增强SC，Arkhangelsky et al. (2021) 的SDID，以及本文提出的双重稳健SC。
推断方法：为SC估计量提供有效的置信区间和假设检验。代表工作：Chernozhukov et al. (2017) 的共形推断，Li (2019) 的子抽样推断，Cattaneo et al. (2019) 的预测区间。
Proximal Causal Inference框架：利用未观测混杂的代理变量进行识别和估计。代表工作：Miao et al. (2016, 2018) 的proximal CI基础理论，Cui et al. (2020) 的半参数proximal CI，Shi et al. (2021) 的proximal SC，以及本文。

这个方向在追问的核心问题¶

识别问题：在只有一个处理单元且存在未观测混杂时，处理效应是否可识别？需要什么样的假设（如代理变量、结构模型）？
估计问题：如何构造一个在模型误设下仍能保持一致的估计量？双重稳健性是一个核心追求。
推断问题：在有限样本下，如何为处理效应构造有效的置信区间？特别是当处理前时期数（T0）和处理后时期数（T1）都有限时。
效率问题：在给定识别假设下，估计量的半参数效率界是什么？能否达到？

⚠️ 作者的Framing¶

作者把缺口frame成什么：作者认为，现有SC方法（包括Shi et al., 2021的proximal SC）依赖于对反事实结果生成机制的正确建模（即结果桥函数（outcome bridge function）的正确设定）。本文通过引入协变量偏移概念，得到了一个基于加权的识别公式和一个结合了结果模型与加权模型的识别公式，从而能够构造一个双重稳健的估计量——只要结果模型或加权模型中至少有一个正确设定，估计量就是一致的。这使得本文成为Shi et al. (2021)的“显然的下一步”。
哪些竞争路线被他淡化或回避了：作者淡化了增强SC（Augmented SCM）和SDID等方法的双重稳健性。虽然这些方法也结合了结果模型和权重，但作者在文中指出，它们的双重稳健性是在i.i.d.数据的ATE/ATT框架下建立的，而本文是在单一处理单元的panel数据设定下，通过proximal CI框架和协变量偏移概念，首次正式建立了双重稳健性。作者回避了与这些方法在有限样本下性能的直接比较（模拟中虽有比较，但未深入讨论）。
什么明显该被引/该存在、却没出现在intro里：未见明显缺失的关键引用。作者引用了proximal CI领域的核心工作（Miao et al., 2018; Cui et al., 2020; Shi et al., 2021），以及SC领域的主要进展（Ben-Michael et al., 2018; Arkhangelsky et al., 2021）。一个可能的弱点是，作者没有引用关于“协变量偏移”在因果推断中更广泛应用的文献（如Shimodaira, 2000; Sugiyama et al., 2007），而是将其作为一个新概念引入SC领域。

张力¶

未见明显对立引用。各工作之间更多是互补和递进关系，例如Ferman & Pinto (2016) 指出不完美匹配的问题，Ben-Michael et al. (2018) 提出解决方案，而本文则从另一个角度（proximal CI）提供了新的解决方案。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- i：单元索引。i=1 表示处理单元，i=2,...,N+1 表示控制单元（共N个控制单元）。
- t：时间索引。t=1,...,T0 为处理前时期，t=T0+1,...,T 为处理后时期。
- Y_it：单元i在时间t的可观测结果。
- W_it：单元i在时间t的处理状态。W_it=1 表示已处理，W_it=0 表示未处理。对于处理单元（i=1），W_1t=0 当 t≤T0，W_1t=1 当 t>T0。对于控制单元（i>1），W_it=0 对所有t。
- Y_it(0)：单元i在时间t的潜在结果（未处理）。
- Y_it(1)：单元i在时间t的潜在结果（已处理）。
- τ_t：在时间t的处理效应。对于处理单元，τ_t = Y_1t(1) - Y_1t(0)。本文关注的是处理后时期的平均处理效应（ATT），即 φ(t+) = E[Y_1t(1) - Y_1t(0)] 对于 t > T0。
- X_it：单元i在时间t的可观测协变量（可能包含时变和时不变变量）。
- U_it：单元i在时间t的未观测混杂因素。
- Z_it：单元i在时间t的代理变量（proxy variables），用于捕捉未观测混杂U的信息。在本文的panel数据设定中，其他控制单元的结果或协变量可以作为代理变量。
- h(·)：结果桥函数（outcome bridge function），满足 E[Y_t(0) | X, U, W=0] = E[h(X, Z) | X, U, W=0]。它用可观测的代理变量Z来近似反事实结果的条件期望。
- q(·)：加权桥函数（weighting bridge function），满足 E[W * q(X, Z) | X, U] = 1。它用于构造一个加权函数，使得加权后的处理单元在协变量X上与控制单元平衡。
模型：
- 这是一个潜在结果框架下的panel数据模型。数据生成机制允许存在未观测的混杂因素U，它同时影响处理分配（W）和潜在结果（Y(0)）。
- 核心假设是proximal causal inference的假设：存在可观测的代理变量Z，使得在给定X和U的条件下，Y(0)和W是条件独立的（即 Y(0) ⟂ W | X, U），并且Z和U之间存在某种关联（如 Z ⟂ W | X, U 或 Z ⟂ Y(0) | X, U）。具体假设在论文中给出。
- 本文引入了一个新概念：协变量偏移（covariate shift）。它指的是，在给定处理分配的条件下，协变量X的分布在处理单元和控制单元之间是不同的。这个偏移是导致混杂的原因，也是本文识别策略的关键。
可观测数据：
- 研究者可以观测到所有单元在所有时间点的结果 Y_it、处理状态 W_it 和协变量 X_it。
- 研究者不能观测到未观测混杂因素 U_it。
- 研究者可以构造代理变量 Z_it。在本文的设定中，一个自然的构造是使用其他控制单元的结果。例如，对于处理单元，可以用控制单元 j 在时间t的结果 Y_jt 作为代理变量。这利用了panel数据的结构：不同单元的结果可能受到共同的未观测因素影响。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：假设只有一个控制单元（N=1），且没有时变协变量X。我们想估计处理单元在处理后的反事实结果 E[Y_1t(0)]。

设定：
- 处理单元：i=1，控制单元：i=2。
- 时间：t=1,...,T0 (处理前)，t=T0+1,...,T (处理后)。
- 可观测数据：Y_1t, Y_2t。
- 未观测混杂：U_1, U_2（假设时不变）。
- 代理变量：Z_1t = Y_2t（用控制单元的结果作为处理单元的代理变量）。
问题：估计 E[Y_1t(0)] 对于 t > T0。
经典SC方法：寻找权重 w，使得 Y_1t ≈ w * Y_2t 对所有 t ≤ T0 成立。然后估计 E[Y_1t(0)] = w * Y_2t。这要求处理前轨迹完美匹配，且隐含假设了 Y_1t(0) 和 Y_2t 之间存在稳定的线性关系。
本文的Proximal SC方法（双重稳健版本）：
1. 识别公式：作者证明了，在proximal CI假设下，E[Y_1t(0)] 可以通过以下两种方式识别：
  - 加权公式：E[Y_1t(0)] = E[ W_1t * q(Y_2t) * Y_1t ]，其中 q(·) 是一个加权函数，满足 E[W_1t * q(Y_2t) | U_1] = 1。这个公式通过加权来平衡处理单元和控制单元在未观测混杂U上的分布。
  - 结果模型公式：E[Y_1t(0)] = E[ h(Y_2t) ]，其中 h(·) 是一个结果桥函数，满足 E[Y_1t(0) | U_1] = E[h(Y_2t) | U_1]。这个公式用代理变量Y_2t的函数来预测反事实结果。
2. 双重稳健估计：作者构造了一个估计量，它结合了上述两个公式。具体地，他们使用广义矩方法（GMM）来同时估计 h(·) 和 q(·)。这个估计量的关键性质是双重稳健性：
  - 如果结果模型 h(·) 正确设定，即使加权模型 q(·) 错误，估计量仍然一致。
  - 如果加权模型 q(·) 正确设定，即使结果模型 h(·) 错误，估计量仍然一致。
  - 只有当两个模型都错误时，估计量才不一致。
3. 为什么能双重稳健？ 这源于GMM估计量的性质。作者构造的矩条件使得估计量的偏差是结果模型偏差和加权模型偏差的乘积项。因此，只要其中一个偏差为零，乘积项就为零，估计量就一致。
4. 与经典SC的区别：经典SC只依赖于一个模型（线性关系），且要求完美匹配。本文的方法通过引入两个模型（结果模型和加权模型），并利用proximal CI框架，实现了双重稳健性，从而放松了对完美匹配和模型正确设定的严格要求。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在只有一个处理单元的panel数据中，如何利用proximal causal inference框架，在存在未观测混杂的情况下，双重稳健地估计处理效应。
核心工具/方法：引入了协变量偏移（covariate shift）概念，得到了两个非参数识别公式（加权公式和结果模型公式），并基于广义矩方法（GMM）开发了两个估计量，其中一个具有双重稳健性。
主要结论：所提出的双重稳健估计量在至少一个模型（结果模型或加权模型）正确设定时是一致且渐近正态的。模拟和实证分析验证了其有效性。

关键设定与假设¶

设定：考虑一个处理单元和N个控制单元的panel数据，时间跨度为 t=1,...,T，处理发生在 T0+1 时刻。目标是估计处理后时期 t > T0 的平均处理效应（ATT），即 φ(t+) = E[Y_1t(1) - Y_1t(0)]。
假设：
1. 一致性（Consistency）：Y_it = Y_it(W_it)。即观测到的结果等于其对应的潜在结果。
2. 无跨单元干扰（No Interference）：一个单元的处理状态不影响其他单元的潜在结果。这是SC方法的常规假设。
3. Proximal Causal Inference假设：存在可观测的代理变量 Z，使得在给定未观测混杂 U 和协变量 X 的条件下，处理分配 W 和潜在结果 Y(0) 是条件独立的。具体地，作者假设存在结果桥函数 h 和加权桥函数 q，满足：
  - E[Y_t(0) | X, U, W=0] = E[h(X, Z) | X, U, W=0]
  - E[W * q(X, Z) | X, U] = 1 这些假设是proximal CI的标准假设，它们将不可观测的 U 与可观测的 (X, Z) 联系起来。
4. 协变量偏移（Covariate Shift）：这是本文引入的新概念，用于描述处理分配如何改变协变量 X 的分布。作者假设，在给定 U 的条件下，X 在处理单元和控制单元之间的分布差异可以通过一个已知或可估计的偏移函数来刻画。这个假设是推导加权识别公式的关键。
5. 技术性假设：包括矩条件、正则化条件（如桥函数的光滑性、积分算子的紧性等），以确保估计量的渐近性质。这些条件在论文的附录中详细给出。

主要结果¶

定理1（非参数识别）：在proximal CI假设和协变量偏移假设下，处理后时期的平均处理效应 φ(t+) 可以通过两个非参数公式识别：
1. 加权公式：φ(t+) = E[W * q(X, Z) * Y] - E[(1-W) * q(X, Z) * Y]，其中 q 是加权桥函数。
2. 结果模型公式：φ(t+) = E[W * (Y - h(X, Z))]，其中 h 是结果桥函数。这个定理为后续的估计提供了理论基础。
定理2（双重稳健估计）：作者提出了一个基于GMM的估计量 φ̂_DR，它同时估计结果桥函数 h 和加权桥函数 q。该估计量具有双重稳健性：
- 如果 h 被正确设定，即使 q 被错误设定，φ̂_DR 也是一致且渐近正态的。
- 如果 q 被正确设定，即使 h 被错误设定，φ̂_DR 也是一致且渐近正态的。
- 这个结果是通过将估计量表示为 φ̂_DR = φ̂_IPW + φ̂_AIPW 的形式，并证明其偏差是 (ĥ - h) * (q̂ - q) 的积分，从而当其中一个估计量一致时，偏差消失。
定理3（渐近正态性）：在正则条件下，双重稳健估计量 φ̂_DR 是渐近正态的，且其渐近方差可以通过“三明治”公式（sandwich formula）进行估计。这为构建置信区间和进行假设检验提供了依据。

证明路线与技术技巧¶

整体路线：
1. 识别：首先，利用proximal CI假设和协变量偏移，推导出两个非参数识别公式（加权和结果模型）。
2. 估计：将识别公式转化为矩条件。作者构造了一个GMM框架，其中矩条件同时涉及结果桥函数 h 和加权桥函数 q。
3. 双重稳健性：通过分析GMM估计量的影响函数（influence function），作者发现其偏差项是 (ĥ - h) * (q̂ - q) 的积分。这个乘积结构是双重稳健性的关键。
4. 渐近理论：利用经验过程理论（empirical process theory）和U-统计量理论，证明在正则条件下，估计量的一致性和渐近正态性。关键步骤是控制桥函数估计误差对最终估计量的影响。
关键跳跃点：
- 从经典SC到Proximal SC：经典SC依赖于一个线性模型，而proximal SC需要估计非参数桥函数。这个跳跃的难点在于如何保证桥函数的可识别性和可估计性。作者通过引入协变量偏移和利用GMM框架来解决这个问题。
- 双重稳健性的建立：在非参数或高维设定下，建立双重稳健性通常需要精巧的构造。本文的关键在于将估计量设计为两个识别公式的某种组合，使得偏差项成为两个模型误差的乘积。这类似于AIPW（增强逆概率加权）估计量的思想，但被推广到了proximal CI的设定中。
技术技巧点名：
- 广义矩方法（GMM）：作为估计的核心框架，用于同时估计桥函数和处理效应。
- 影响函数（Influence Function）：用于分析估计量的渐近性质，特别是推导双重稳健性。
- 经验过程理论（Empirical Process Theory）：用于控制非参数估计（如桥函数的级数估计）的误差对最终估计量的影响。
- U-统计量理论：由于估计量涉及对多个单元的求和，其渐近分布可以通过U-统计量理论来分析。
- 积分算子理论（Integral Operator Theory）：用于分析桥函数的存在性和唯一性，以及相关估计问题的适定性（well-posedness）。

真实例子与应用¶

数据/场景：巴西肺炎球菌结合疫苗（PCV）对全因肺炎风险的影响。这是一个经典的SC应用场景：巴西的一个州（处理单元）引入了PCV疫苗，其他州（控制单元）没有。目标是估计疫苗对肺炎住院率的因果效应。
方法应用：作者将本文提出的双重稳健proximal SC方法应用于该数据。他们使用其他州的结果作为代理变量，并估计了结果桥函数和加权桥函数。
结果：本文的方法估计出PCV疫苗显著降低了肺炎住院率，其估计值与之前的研究结果一致。与经典SC和增强SC等方法相比，本文的方法在置信区间宽度和稳健性方面表现出优势。
例子想说明什么：这个实证例子旨在展示本文方法在实际应用中的可行性和有效性，特别是在处理前匹配可能不完美的情况下，双重稳健性可以提供更可靠的推断。

🔎 结论是否比证明窄¶

论文的主要结论（双重稳健性）是在参数化或半参数化的桥函数模型下严格证明的。作者假设结果桥函数 h 和加权桥函数 q 属于某个有限维参数族（如线性模型、多项式模型等）。
在非参数设定下，作者在文中提到，如果使用级数估计（series estimation）等非参数方法估计桥函数，双重稳健性仍然可能成立，但需要更复杂的正则条件。论文的定理主要针对半参数设定，对于完全非参数的双重稳健性，作者在讨论中将其作为一个开放问题或未来工作。因此，论文的结论（严格证明的部分）比其声称的“非参数双重稳健”要窄一些，它更准确地说是“半参数双重稳健”。

四、开放问题¶

完全非参数的双重稳健性：本文的双重稳健性是在桥函数属于有限维参数族（半参数设定）下严格证明的。能否在完全非参数设定下（即桥函数是无限维的）建立类似的双重稳健性？这需要更复杂的非参数推断理论。扎根点：论文在讨论部分提到，对于非参数桥函数，双重稳健性需要更严格的条件，这是一个开放问题。
效率界：本文提出的双重稳健估计量是否达到了半参数效率界？在proximal CI框架下，对于单一处理单元的panel数据，ATT的半参数效率界是什么？这需要推导出该设定下的有效影响函数（efficient influence function）。扎根点：论文在引言中提到，其方法与i.i.d.数据下的ATT估计有关，但未讨论效率问题。
多个处理单元或动态处理：本文只考虑了一个处理单元和单一处理时间点。如何将proximal SC框架推广到多个处理单元、错峰采用（staggered adoption）或动态处理（随时间变化的处理）的设定？扎根点：论文在讨论中提到了错峰采用SC（Ben-Michael et al., 2021b）作为相关文献，但未将其与本文方法结合。
桥函数的选择与诊断：本文假设桥函数的形式已知（如线性）。在实际应用中，如何选择桥函数？是否存在一些诊断工具来检验桥函数是否正确设定？扎根点：论文在模拟中比较了线性桥函数和错误设定的桥函数，但未提供系统的模型选择或诊断方法。

Maintained by 陈星宇 · Homepage · Source on GitHub