Counterfactual inference in sequential experiments¶

作者: Raaz Dwivedi, Katherine Tian, Sabina Tomkins, Predrag Klasnja, Susan Murphy et al.
来源: Annals of Statistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1214/25-aos2519

一、核心问题与贡献（3句话）¶

研究问题：在存在适应性治疗策略的序贯实验中，为每个单元在每个时间点的反事实均值（counterfactual mean）提供点估计和置信区间，在参数数远超观测数的不可识别设定下实现pointwise推断。
核心方法：通过在反事实均值上引入一个潜在因子模型（latent factor model）作为非参数泛化，并采用最近邻变体（a variant of nearest neighbors）进行估计，避免了参数假设；理论分析建立了非渐近高概率误差界，并在适定速率下导出渐近有效置信区间。
主要贡献：首次在弱适应性策略假设下（仅要求策略的“遗忘性”性质），无需固定系数或线性结构，即实现了细粒度反事实均值的pointwise推断；所提出的非参数方法与已有参数潜在因子模型相比更具灵活性。

二、基础设定¶

核心概念与符号¶

单元 \(i=1,\dots,N\)，时间点 \(t=1,\dots,T\)。
治疗分配 \(A_{i,t} \in \{0,1\}\)（二值，可推广），分配概率依赖于历史（适应性策略）。
潜在结果 \(Y_{i,t}(a_{i,1:t})\)：给定治疗序列的潜在结果；反事实均值定义为 \(\mu_{i,t}(\mathbf{a}) = \mathbb{E}[Y_{i,t}(\mathbf{a})]\)，其中 \(\mathbf{a}\) 是特定治疗历史。
观测数据：\((A_{i,t}, Y_{i,t})\)，但只有实际分配下的结果被观测。
目标：对每个 \((i,t)\) 和任意治疗序列 \(\mathbf{a}_{1:t}\)，推断 \(\mu_{i,t}(\mathbf{a}_{1:t})\)。

关键假设¶

假设1（一致性 + 无未测量混杂）：在给定治疗历史下，观测结果等于对应潜在结果；且治疗分配仅依赖于已观测的历史（序贯可忽略性），由适应性策略 \(P(A_{i,t} | \text{history})\) 决定。
假设2（弱适应性策略）：“Order-1 no-interference” 或 “遗忘性” 性质：治疗分配在每个时间点仅依赖于当前和上一期的一些摘要统计量，且分配函数已知或可估计（但论文假设已知）。
假设3（潜在因子模型，核心）：存在一个未知的、非参数的低维结构：\(\mu_{i,t}(\mathbf{a}_{1:t}) = f(u_i, v_t, \mathbf{a}_{1:t})\)，其中 \(u_i \in \mathbb{R}^d\)，\(v_t \in \mathbb{R}^d\) 分别为单元和时间潜在因子，\(f\) 任意。等价于说反事实均值矩阵（固定治疗序列下）是低秩的（在可分离形式下）。
假设4（正则性）：潜在因子空间满足某些平滑性和混合性质（如Lipschitz连续性、Markov性等），确保最近邻估计的逼近误差可控。
与已有文献比较：相比固定效应或双线性因子模型（如Athey et al., 2018），本文允许完全非参数的 \(f\)，无需指定交互形式；但增加了潜在因子的存在性假设，这在无结构设定下是必要的可识别条件。

问题背景¶

已有方法的不足：在双线性因子模型（Bai 2009, Athey et al. 2018）中，反事实均值被假定为低秩矩阵（\(\mu_{i,t} = u_i^\top v_t\)），但其施加了可加/线性结构，且仅适用于静态（非序贯）设定；对于序贯实验，适应性策略导致更复杂的依赖结构，现有方法难以提供点推断。
与最相关参考文献的区别：（1）Bai (2009)：交互固定效应面板模型，但缺乏适应性策略；（2）Athey et al. (2018) 的 synthetic controls：依赖于线性因子模型，且不直接处理序贯分配。本文通过非参数潜在因子模型和最近邻估计，在序贯设定下实现了更细粒度的推断。

三、主要定理 / 核心结果¶

定理1（非渐近误差界）¶

陈述：对于每个 \((i,t)\) 和固定的治疗序列 \(\mathbf{a}_{1:t}\)，定义最近邻估计 \(\hat{\mu}_{i,t}(\mathbf{a}_{1:t})\)（基于其他单元的匹配）。在假设1-4下，存在常数 \(C>0\) 使得以至少 \(1-\delta\) 的概率，

\[|\hat{\mu}_{i,t}(\mathbf{a}_{1:t}) - \mu_{i,t}(\mathbf{a}_{1:t})| \leq C \left( \sqrt{\frac{d}{N_{\text{eff}}(t)}} + \sqrt{\frac{\log(1/\delta)}{N_{\text{eff}}(t)}} \right),\]

其中 \(N_{\text{eff}}(t)\) 是时间点 \(t\) 处符合匹配条件的近似“有效样本量”，依赖于治疗序列的历史概率 \(p_t\) 和单元数 \(N\)，典型地 \(\asymp N \cdot \min_{s \le t} p_s\)。

直观解释：误差由两部分组成：逼近误差（维度项 \(\sqrt{d/N_{\text{eff}}}\)）和随机误差（高概率界）。核心是有效样本量 \(N_{\text{eff}}\) 随策略适应性衰减——若治疗分配在某些历史下非常罕见，则该历史对应的反事实均值估计将更不精确。

解决的技术难点：（a）反事实识别：在未尝试验证观测的治疗序列下，如何利用其他单元的历史信息？潜在因子假设使得跨单元借用信息成为可能；（b）序贯依赖：最近邻匹配需要定义距离（基于潜在因子空间），但潜在因子未知，需利用观测数据的某种投影或构造辅助估计量；（c）非渐近控制：处理有限样本下的逼近误差与估计误差的权衡。

适用条件与局限： - 必要假设：潜在因子模型的低维性（维度 \(d\) 与 \(N,T\) 相比很小）、遗忘性策略（确保匹配的单元集足够大）。 - 局限：\(d\) 必须已知或保守选择；治疗序列的历史概率需有正的下界（否则有效样本量极小）；最近邻的邻居数选择需调参（论文用交叉验证或理论指导的固定 \(k\)）。

定理2（渐近正态性与置信区间）¶

陈述：若 \(N,T \to \infty\) 且 \(N_{\text{eff}}(t) \to \infty\)，且同样的假设成立，则标准化的估计误差

\[\frac{\hat{\mu}_{i,t}(\mathbf{a}_{1:t}) - \mu_{i,t}(\mathbf{a}_{1:t})}{\hat{\sigma}_{i,t}} \xrightarrow{d} \mathcal{N}(0,1),\]

其中 \(\hat{\sigma}_{i,t}\) 是适当的方差估计（基于匹配残差）。因此可构造渐近水平 \((1-\alpha)\) 置信区间 \(\hat{\mu}_{i,t} \pm z_{\alpha/2} \hat{\sigma}_{i,t}\)。

直观解释：随着单元和时间点数增长，偏差（来自逼近误差）相比方差成为高阶项，估计量中心化后趋于正态。这依赖于最近邻偏差的适当控制（例如匹配误差随 \(N_{\text{eff}}\) 增大而消失，且潜在因子空间的光滑性足以使偏差速率快于方差）。

解决的难点：在适应性序贯设定下推导偏差-方差分解的非渐近高阶项，并证明方差占优需对因子模型的平滑性（如 Hölder 条件）和策略的混合性质施加额外的正则性。

局限：渐近理论要求 \(N,T\) 同发散且速率匹配（例如 \(N/T \to \kappa >0\)），且潜在因子维度 \(d\) 固定。当 \(d\) 随 \(N,T\) 增长时，逼近误差可能不消失。

四、证明框架 / 方法设计¶

证明主干逻辑（定理1）¶

构造最近邻估计量：对目标单元 \((i,t)\) 和治疗序列 \(\mathbf{a}_{1:t}\)，在观测数据中寻找其他单元 \(j \neq i\)，其治疗历史 \(\mathbf{A}_{j,1:t}\) 与序列 \(\mathbf{a}_{1:t}\) “足够接近”（基于潜在因子投影后的距离）。取平均这些单元在时间 \(t\) 的观测结果 \(Y_{j,t}\)。
分解误差：将估计误差分解为匹配偏差（因实际治疗历史不同导致的均值差异）和随机误差（因潜在结果本身的随机性）。
控制匹配偏差：利用潜在因子模型的可分离性（\(\mu_{i,t}(\mathbf{a}) = f(u_i, v_t, \mathbf{a})\)）和假设2（遗忘性），证明在历史概率测度下，若两单元的治疗历史在分配概率上足够接近（如总变差距离小），则其反事实均值也接近（由潜在因子空间的 Lipschitz 性保证）。因此邻居数足够大时，匹配偏差有界。
控制随机误差：对每个邻居，观测结果 \(Y_{j,t}\) 是潜在结果加噪声；因邻居匹配独立于目标单元，可将邻居看作是条件独立的随机变量。利用 Hoeffding 不等式或 Bernstein 不等式，结合有效样本量 \(N_{\text{eff}}\)，得到高概率界。
合并界：以概率 \(1-\delta\)，同时处理偏差和随机误差，得到最终速率。

最关键的技巧性引理或“跳跃点”： - 匹配阶段：如何构造可行的距离函数？因潜在因子 \(u_i, v_t\) 是未知的，无法直接计算。论文创新地利用治疗分配历史（已知或可估计）构造一个“代理向量”（例如，治疗概率的充分统计量），并证明该代理向量在原潜在因子空间的意义下是等距的（或至少保持局部 Lipschitz 性质）。这一技巧绕开了因子估计，实现了纯观测驱动的匹配。 - 有效样本量的刻画：定理的速率依赖于 \(\min_{s \le t} p_s\)（治疗序列的历史路径概率）。如何证明在遗忘性策略下，匹配集的大小约等于 \(N \cdot \min_{s \le t} p_s\)？这需要结合策略的马尔可夫性质和遍历性论证，可能是证明中最细致的地方。

数学工具评价：经典工具的巧妙组合——最近邻的高维非渐近分析（常见于非参数回归）与潜在因子结构的结合，再加上马尔可夫链或替换性策略的概率估计。没有全新分析框架，但解决了特定结构下的技术挑战。

五、问题发现：研究者能做什么¶

研究者武器库：very_familiar 包括 nonparametric statistics, minimax bounds, estimation theory in causal inference, high-dimensional asymptotics；moderately_familiar 包括 HOIF, semiparametric theory, identification theory。

(A) 立即可做（最多2条）

A1. 验证潜在因子模型下最近邻估计量的 minimax 最优性 - 问题表述：对式（1）中的非渐近误差界，建立匹配设定下的 minimax 下界（考虑潜在因子维度 \(d\)、有效样本量 \(N_{\text{eff}}\)、以及 Lipschitz 常数），检验定理1的速率是否在极值意义下 sharp（即是否达到 minimax 收敛率）。 - 具体武器：minimax bounds for estimation problems + nonparametric statistics。 - 第一步动作：构造一个硬假设（hard hypothesis）问题——将潜在因子空间上的光滑函数类上的估计问题转化为一个低维嵌入后非参数回归的 minimax 下界问题。例如，设定 \(f\) 满足 \(d\)-维 Lipschitz 条件，利用 Assouad 引理或 Fano 不等式，计算最优收敛率是否为 \(\sqrt{d/N_{\text{eff}}}\) 量级（忽略对数因子）。如果定理1的速率已是此下界，则 sharp；否则可提出改进方法（如调整匹配距离或加权）。 - 与本文的关系：补全性工作——本文给出了上界，该问题回答上界是否紧。

A2. 在潜在因子模型下推导反事实均值的 semiparametric efficiency bound - 问题表述：假设已知潜在因子维度 \(d\) 以及 \(f\) 的结构（但未知参数），推导每个 \(\mu_{i,t}(\mathbf{a})\) 的 semiparametric 效率下界（即任何正则估计量的渐近方差的下界），并与本文最近邻估计的渐近方差进行对比。 - 具体武器：estimation theory in causal inference + high-dimensional asymptotics（用于处理 \(N,T\) 双索引渐近）。 - 第一步动作：写出模型的半参参数化——将潜在因子 \(u_i, v_t\) 视为无穷维 nuisance 参数，目标参数为 \(\mu_{i,t}\)。计算正交影响函数（EIF），需考虑适应性策略导致的观察概率加权。可通过一阶 Taylor 展开得到波动性，再结合因子结构的双线性或更一般的同质性假设，得到方差下界表达式。然后对比本文定理2中方差估计量的形式，判断是否达到效率下界。 - 与本文的关系：扩展——回答本文的最近邻估计是否达到有效的一半或完全有效；若未达到，可提出基于 EIF 的倍分纠偏方法（如 DML）。

(B) 中期可做（最多2条）

B1. 结合 HOIF 构造高阶纠偏估计以降低偏差 - 缺哪一块：HOIF 的高阶 bias 展开和对潜在因子模型的适配。 - 补哪1-2篇文献：Robins et al. (2008, 2017) 关于高阶影响函数用于 longitudinal 设定；或 van der Laan et al. (2018) 的 TMLE 高阶扩展。另外，Rothenhäusler & Yu (2021) 关于在因子模型下的倍分纠偏。 - 补完之后能做什么：若本文最近邻估计的偏差（来自匹配近似）在有效样本量增长慢于方差时主导误差，可以利用二阶影响函数构造偏差显式校正，使得估计量的渐近偏差从 \(O(N_{\text{eff}}^{-1/d})\) 降到 \(O(N_{\text{eff}}^{-2/d})\) 甚至更优，同时方差不变。这需要把潜在因子的非参数估计嵌入 HOIF 框架，并用 tensor-contraction 评估计算成本（对接武器库中的 computation of higher-order U-statistics with einsum，因为高阶项涉及多重求和）。

B2. 在潜在因子模型下建立识别理论：何时因果参数可由观测数据点定值？ - 缺哪一块：identification theory in causal inference——对于序贯实验下适应性策略，我们需要刻画反事实均值的非参数可识别性条件和部分可识别边界。 - 补哪1-2篇文献：Manski (1990) 的 partial identification 基础；或 Kitagawa & Wang (2023) 关于动态处理效应下的部分识别。 - 补完之后能做什么：对潜在因子模型施加不同强度的结构约束（例如秩限制、可加性、单调性），推导出本文反事实均值的识别区域（而非点识别的单一值）。若区域较大，则说明最近邻估计依赖于假设3（潜在因子存在性）至关重要；若区域很小，则可放松假设。将识别问题与估计问题衔接，给出部分识别下的置信区间（依赖于所加的假设）。

(C) 暂不建议（最多2条）

C1. 无潜在因子假设下的非参数匹配（直接将历史长度相同的单元匹配） - 缺什么机器：高维马尔可夫链的池化技巧或“curse of dimensionality”的精细刻画——当治疗历史长度 \(t\) 增大时，治疗序列的可能性呈指数衰减，有效样本量将迅速坍缩。需要比本文更强的混合性假设或核方法，但即使使用核光滑，收敛率也会随历史长度指数衰减。 - 为何不易绕过去：在无结构假设时，这就是一个经典的“高维指数族”或“稀疏分布估计”问题，经典 minimax 下界表明 rate 不可能好于 \(N^{-1/(2^t)}\) 之类，根本不可行。本文的潜在因子模型正是规避此诅咒的唯一手段，期望移除该假设而获得可用的推断是不现实的。

C2. 使用深度学习（如 transformer）替换最近邻进行匹配 - 缺什么机器：序列数据下的深度神经网络泛化理论（特别是对于反事实嵌入的非参数回归），以及其对适应性策略依赖性的分析。目前缺乏一个清晰的非渐近框架来分析深度模型在该设定下的误差控制，尤其是当模型复杂度随 \(T\) 增长时。 - 为何不易绕过去：即使使用宽广的深度网络，其有效样本量需求仍受制于网络容量和数据的实际分布；且深度网络的调试难以保证可重复性和置信区间构造。除非研究者专门从事深度学习的非渐近理论，否则目前文献中的结果不够成熟以导出置信区间。如果未来有类似论文（如利用贝叶斯神经网络得到后验收缩率），则可能可做，但现阶段不建议。

值得精读的关键参考文献（2-3篇）： 1. Athey, S., & Imbens, G. W. (2006). Identification and inference in nonlinear difference-in-differences models. Econometrica. 该文对静态非线性潜在因子模型下反事实均值的可识别性做了系统讨论，其“共同趋势”假设的放缩版本与本文潜在因子模型有直接类比，可帮助理解本文假设的强度。 2. Bai, J. (2009). Panel data models with interactive fixed effects. Econometrica. 是本文参数化潜在因子模型的基准，本文的推广路线正是从线性到非参数，阅读该文可看清技术改进的路径，并了解已有结果下最近邻估计的效率对比。 3. Lei, J. (2020). Conditional convergence for matching estimators in block designs. Biometrika. 提供了在面板设定下最近邻匹配的非渐近误差界的标准方法，尽管其不涉及序贯适应性策略，但其中的匹配距离构造和偏差控制技巧可以直接搬运或改编。

六、延伸思考与练习¶

假设扰动：若删除“遗忘性策略”假设（假设2），即治疗分配可依赖于任意长度的历史，那么匹配的有效样本量可能急剧下降，定理1的界将退化为无速率或指数慢的收缩。技术上需要引入某种 Markov 性更强的条件（如“有限依赖”）或改用估计治疗概率的倾向得分倒概率加权（IPW）方法，使得 \(\sqrt{d/N_{\text{eff}}}\) 中的 \(N_{\text{eff}}\) 被替换为 \(N \cdot \min_{s \le t} p_s\) 的某个下界指数。这种扰动后的问题落入B档（需要补足识别理论和加权估计量在高维下的行为）。
开放问题：
作者在文章中要求潜在因子维度 \(d\) 是已知的稳态。若能通过数据自适应选择 \(d\)（例如 BIC 或交叉验证），并证明其对误差界的损失可控，这将极大地增强方法的实用性。
本文的最近邻估计假设治疗序列 \(\mathbf{a}_{1:t}\) 是事先固定的。若想推断“所有”可能序列的反事实均值，如何同时控制多重性？一个可能的开放方向是在概率上构造 uniform confidence band，可尝试利用本文证明的逐点误差界的орож结构，结合高斯过程的最大不等式。
理解检测题：考虑一个简化设定：\(T=1\)（单时间点），适应性策略退化为随机分配，每个单元仅被分配一次治疗。请解释本文的潜在因子模型如何退化为一个标准的因子模型（类似于 Athey et al. 2018 的 synthetic control），并说明定理1的速率变为 \(\sqrt{d/N}\)。现在若增加“完全随机化治疗”假设（不论历史），那么最近邻估计是否退化？为什么有用？

Maintained by 陈星宇 · Homepage · Source on GitHub