Berkeley) Synthetic Interventions¶

讲者: Anish Agarwal and Dennis Shen (
讨论人: Jason Poulos
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-08-03
主题: 因果推断
视频: https://youtu.be/e8nomN9hxZM · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2006.07691 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

方向定位：面板数据下的多干预政策评估

本报告的工作属于 面板数据因果推断 这个大方向，具体聚焦于 推广合成控制法 (Synthetic Control, SC) 到多个处理干预的情形。这个子方向的核心追问是：当政策（处理）不止一个，而研究者想评估每一个 (单位, 干预) 组合的反事实结果时，如何仅凭有限的面板数据（每个单位只接受过一个或少数几个干预）就能完成推断。

经典奠基：合成控制法 (SC)。由 Abadie, Diamond, Hainmueller (2003, 2010) 开创。SC 的核心是只估计一个反事实：若处理单元未接受处理，它在控制下的潜在结果（一个 N×1 或 N×T 的问题）。SC 通过寻找控制单元的一个加权凸组合来“合成”处理单元在控制下的轨迹。关键在于它假设了低维潜因子结构（通常称为“交互固定效应模型”），并利用预干预期的拟合来学习权重。本报告引用了 Abadie (JEL, 2020) 的综述。
当前主流/前沿路线：
1. 矩阵补全 (Matrix Completion) 视角：如 Athey, Bayati, Doudchenko, Imbens, Khosravi (2021) 等，将面板数据因果推断视为「有缺失数据的矩阵补全」问题。他们通常假设潜在结果矩阵是低秩的，并在补全时引入正则化（如核范数）。这个视角自然地处理了「一个处理」的情形。
2. 张量补全 (Tensor Completion) 视角：这正是本报告所处的路线。当处理多个干预时，潜在结果从一个 N×T 的矩阵扩展为一个 N×T×D 的张量。假设这个张量有低秩结构（CP 分解），从而能在更广泛的数据缺失模式下进行补全。这是一个相对较新、更活跃的方向。
3. 交互固定效应模型 (Interactive Fixed Effects Models)：如 Bai (2009) 以及被广泛应用于 SC 的模型（Xu, 2017 等）。这些模型假设潜在结果由少量潜因子（因子加载与因子交互）生成，是上述补全方法的参数化特例。本报告的数学模型与此紧密相关。
本报告的位置：报告明确延续了 Abadie (2020) 提出的开放问题，即为多个处理情形设计 SC 的推广。它站在 张量补全 + 潜因子模型 的交叉点，提供了一个从估计量（基于 PCR 的 linear model）到识别假设（张量因子模型 + 子空间包含）、再到统计理论（一致性、渐近正态、假设检验）的完整框架。其关键突破在于表明：只要每个单位经历两个干预（包含一个“控制”），就能推断所有 N×D 个因果参数。这与经典 SC 的「N+T+1」数据量需求形成了对比。

二、最小内核 / 一个最简例子¶

核心概念：用「另一种干预下的其他单位」来合成「目标单位在目标干预下的反事实」。

符号与模型设定: - 可观测数据：一个三阶张量的一部分实体。有 N 个单位（如N个地区），T 个时间点，D 种干预（如D种政策）。我们观测到的是这张张量的极稀疏子集。令 \(Y_{nt}^{(d)}\) 表示单位 n 在时间 t 在干预 d 下的潜在结果（注意: 这是理论量，观测到的只是其中一部分）。 - 核心目标 (Estimand)：对于目标单位 n（如美国）和目标干预 d（如“严格封锁”），我们想估计 \(\theta_{n}^{(d)} = \frac{1}{T_1} \sum_{t \in T_{post}} \mathbb{E}[Y_{nt}^{(d)}]\)。即，单位 n 在整个后续期间在干预 d 下的平均期望潜在结果。这被称为因果参数。 - 关键假设 (简洁版)： 1. A1 (张量因子模型)：潜在结果的期望可以被一个低秩张量分解表示: \(\mathbb{E}[Y_{nt}^{(d)}] = \sum_{l=1}^r u_{nl} \cdot v_{tl} \cdot s_{dl}\)。其中 \(u_{nl}, v_{tl}, s_{dl}\) 分别是单位、时间、干预对应的潜因子。这是最重要的结构假设。 2. A2 (线性跨度包含)：对于目标单位 n，其单位潜因子向量 \(\vec{u}_n\) 属于由那些“曾接受过干预 d 的单位”的潜因子向量张成的线性空间。即 \(\vec{u}_n = \sum_{j \in \mathcal{I}(d)} w_j^{(n,d)} \vec{u}_j\)。 3. A3 (潜在因子上的选择)：给定所有潜因子，剩余随机误差与处理分配无关。这相当于控制了所有潜伏混杂。

一个最简例子: - N = 3 个地区: A（目标），B，C。D = 2 种干预: 控制 (c) 和 高税收 (t)。T = 2 个时间段: 干预前 pre，干预后 post。 - 观测数据：A 地区从 pre 到 post 都只经历了 控制 (c)。B 和 C 地区在 post 期经历了 高税收 (t)，但在 pre 期经历了 控制 (c)。我们观测到了 A_pre_c（A在control下的pre期）和 (B_pre_c, C_pre_c) 以及 (B_post_t, C_post_t)。我们需要估计的是 \(\mathbb{E}[Y_{A, post}^{(t)}]\)。 - 如何工作： 1. 学习模型：在控制干预下，我们知道（由A1）\(\mathbb{E}[Y_{A,pre}^{(c)}] = u_{A1} v_{pre,1} s_{c,1} + u_{A2} v_{pre,2} s_{c,2}\) 等等。A1 保证 B 和 C 的潜因子 \(\vec{u}_B, \vec{u}_C\) 和 \(\vec{u}_A\) 有关。A2 保证 \(\vec{u}_A\) 在 \(\{\vec{u}_B, \vec{u}_C\}\) 的线性张成空间内。因此，我们可以用 B 和 C 的“合成”来逼近 A。具体来说，我们寻找一个权重向量 \(\hat{w} = (\hat{w}_B, \hat{w}_C)\)，使得在干预前控制下:

\[\text{Fit: } \mathbb{E}[Y_{A,pre}^{(c)}] \approx \hat{w}_B \mathbb{E}[Y_{B,pre}^{(c)}] + \hat{w}_C \mathbb{E}[Y_{C,pre}^{(c)}]\]

注意，这里的 E 是期望。由于有随机误差，我们用观测值近似，并通过主成分回归 (PCR) 来学习 \(\hat{w}\)，使其不受噪音影响且具有可推广性。 2. 预测干预：A2 的一个关键结论是，这个 \(\hat{w}\) 是跨时间和跨干预不变的。也就是说，在干预后高税收下，同样成立:

\[\mathbb{E}[Y_{A,post}^{(t)}] = \hat{w}_B \mathbb{E}[Y_{B,post}^{(t)}] + \hat{w}_C \mathbb{E}[Y_{C,post}^{(t)}]\]

3. 获得估计：我们用观测到的 B 和 C 在 post_c 下的结果 \(\hat{Y}_{B,post}^{(t)}, \hat{Y}_{C,post}^{(t)}\) 以及之前学好的 \(\hat{w}\)，来做预测 \(\hat{\mathbb{E}}[Y_{A,post}^{(t)}] = \hat{w}_B Y_{B,post}^{(t)} + \hat{w}_C Y_{C,post}^{(t)}\)。然后 \(\hat{\theta}_{A}^{(t)}\) 就是这些预测的时间平均。

为什么是这个例子说明核心思想：这个例子直观地展示了 SI 的精华：不需要观察到 A 在高税收下的任何直接数据。你只需要A在控制下的前期数据（用于对齐潜因子）和其他单位在目标干预下的数据（作为“供体”）。核心就在于线性跨度包含，它锁定了“合成权重”的跨域（从控制到高税收，从预干预到后干预）不变性。整个过程，从估计权重的线性代数（用PCR）到实际问题，都围绕这个不变性展开。

三、报告主体：讲者讲了什么¶

(注：以下所有时间戳引用的是视频中对应的 [H:MM:SS]；口语转写内容可能包含ASR错误，已结合幻灯片和论文摘要校正。)

[0:04]—[0:12] 动机：COVID-19 与多政策评估
讲者以COVID-19为例，指出不同国家采取了不同强度的限制措施（低/中/高），如美国实施了“低强度”限制。问题：如果美国实施了“中等”或“高强度”措施，COVID-19死亡数会怎样？
引出「潜在结果张量」(Potential Outcomes Tensor) 的概念：一个单位（国家）×时间×干预的三维张量。观测值只是这个张量中稀疏的一个切片（每个国家只能看到它在实际采取的政策下的结果）。
强调“因果推断是一个张量补全问题”。
[0:13:37]—[0:21:31] 合成干预 (SI) 估计量
直觉：要估计美国在“高限制”下的结果，需借鉴其他实际采取高限制的国家的数据。所有国家在控制干预（这里指疫情前的“低限制”状态）下的数据提供公共基础。
对比 SC：经典 SC 只估计一个反事实：处理单元在控制下的结果。它通过一个凸组合（权重非负且和为1）来合成。SI 则扩展到同时估计多个干预下的反事实。
SI 的独特估计量：基于主成分回归（PCR）。不是将权重限制在凸组合上，而是对包含权重的线性回归施加一个低秩约束（即 \(\hat{w}\) 被约束在 \(Z_{pre}\) 的前 k 个主成分张成的子空间里）。这样做比凸组合更灵活（表达性更高），同时通过低秩降维有效防止过拟合。
为何选 PCR：幻灯片中明确指出，即使线性模型 \(Y = Z w + \text{noise}\) 中 \(w\) 是自由的，也会因为 \(Z\) 存在噪音和缺失值（特别是供体单位vs目标单位的异质性）而容易过拟合。PCR 通过 PCA 强制 \(Z\) 的秩低（谱稀疏），从而对噪音和缺失值鲁棒。幻灯片展示了一个实际数据的奇异值谱，前几个奇异值很大，后面很小，支持了低秩结构假设。
[0:21:58]—[0:29:20] 因果框架: 何时 SI 有效？ (假设部分)
核心假设：A1 (张量因子模型)：所有期望潜在结果构成一个低秩张量（CP 秩），\(\mathbb{E}[Y_{nt}^{(d)}] = \sum_{\ell=1}^r u_{n\ell} v_{t\ell} s_{d\ell}\)。这比控制组的矩阵因子模型多了一个干预的潜因子 \(s_{d\ell}\)。
A2 (线性跨度包含, Linear Span Inclusion)：一个非常关键的假设。它要求目标单位 \(n\) 的潜因子向量 \(\vec{u}_n\) 能够被“接受过目标干预 d 的单位群”中的潜因子向量线性表示。这个假设保证了 “合成权重”不随时间和干预的改变而改变——这是 SI 估计量成功转移模型的基础。讲者详细推导了 A1+A2 得出 \(\mathbb{E}[Y_{nt}^{(d')}] = \sum_{j \in \mathcal{I}(d)} w_j^{(n,d)} \mathbb{E}[Y_{jt}^{(d')}]\) 的过程。
A3 (潜因子选择)：\(\epsilon_{nt}^{(d)} \perp\!\!\!\perp \vec{D} \mid \text{latent factors}\)，即给定潜因子后，处理分配和潜在结果的随机误差独立。这是控制潜变量混杂的关键。
直觉化：幻灯片用一个 DAG 说明了 A3：潜因子 (\(LF\)) 同时驱动处理分配 (\(D\)) 和包含结构成分 \(f(LF)\) 的潜在结果 \(Y\)，但处理分配不能直接驱动噪音 \(\epsilon\)。这种设定允许了基于潜变量的选择偏倚。
[0:29:33]—[0:42:25] 理论结果 (由 Dennis 介绍)
识别 & 估计：在上述假设下，因果估计 \(\theta_{nd}\) 能被识别为观测数据中供体组（接受干预 d）的经验均值的一个线性组合（由权重 \(w\) 决定）。权重 \(w\) 可以通过在控制干预下的预干预数据拟合出唯一的最小范数解（在子空间包含条件下）。
A4 (子空间包含, Subspace Inclusion)：这是一个独立于前三个假设的纯代数假设。它要求干预前的子空间（由 \(Z_{pre}\) 的左奇异向量张成）包含干预后的子空间（由 \(Z_{post}\) 的左奇异向量张成）。这保证了从训练（pre）到测试（post）的泛化能力。如果这个假设不生效（比如分布发生了剧烈变化），即使其他假设成立，模型也可能失效，讲者用模拟例子清晰地展示了这一点。
统计性质：
- 一致性：SI 估计量对 \(\hat{w}\) 和 \(\hat{\theta}_{nd}\) 的估计都是相合的。\(\hat{w}\) 的误差 \(O_p(\min(T_0^{-1/2}, N_d^{-1/2}))\)，\(\hat{\theta}_{nd}\) 的误差 \(O_p(T_1^{-1/2})\)。幻灯片给出了模拟验证，误差衰减速率与理论 \(1/\sqrt{T_1}\) 匹配。
- 渐近正态性：经过适当缩放，\(\hat{\theta}_{nd} - \theta_{nd}\) 收敛到标准正态分布。这为构造置信区间和假设检验提供了严格基础。幻灯片中给出了构造 95% 置信区间的具体公式（包含可计算量，如噪音方差 \(\sigma\) 和 \(\|w\|_2\)）。
假设检验 (Subspace Inclusion 的检验)：设计了一个统计量 \(\hat{\tau}\)（由 \(U_{pre}\) 和 \(U_{post}\) 估计之间的差值构造），用于假设检验 \(H_0\): 子空间包含成立 vs. \(H_1\): 不成立。报告给出了精确的临界值 \(\tau_{1-\alpha}\)，并证明第一类错误和第二类错误均被 \(\alpha\) 控制。
[0:42:28]—[0:47:48] 应用：合成 A/B 测试
问题：理想 RCT（每单位都经历所有干预）效果好但实际不可行；标准 RCT（所有单元都接受同一套干预）可行但无法个性化。SI 能否介于两者之间，仅用 N × 2 次实验（每个单位经历控制 + 一个干预）来估计 N × D 所有结果？
案例1：电子商务：25 组客户（用户组），3 种促销折扣（10%/30%/50%）+ 控制。仅用每个组的一种折扣数据（相当于 25 × 2 = 50 次实验）来预测所有 25 × 4 = 100 种结果。
结果：通过计算“修正 R²”（比较 SI 预测误差 vs. 标准 RCT 池化均值的误差），SI 在所有场景下都远优于 RCT（修正 R² ≈ 0.98），说明存在显著的客户异质性，个性化是必要的，而 SI 仅用一半的实验成本就实现了。
案例2：临床试验（简要提及）：6 种患者组，3 种治疗方案，同样显示 SI 的实用潜力，支撑了其“数据高效性”。

讨论 & 展望： - 报告结束前的提问环节强调了几个关键点：干预的定义（用实际观察到的行为（如 mobility drop）而不是名义政策名来定义干预，解决了干预的不等价性问题），连续型干预（通过协变量来考虑），IPW 调整（通过加权训练损失来处理分布不平衡），交错处理（目前是局限性，未来方向），以及连接最优处理配给。

四、对应论文与开放问题¶

对应论文: - 这篇报告的核心论文是： - "Synthetic Interventions" (arXiv: 2006.07691). 作者: Anish Agarwal, Devavrat Shah, Dennis Shen. 本次报告由 Anish 和 Dennis 主讲。 - 讲者还提到了其团队的两篇相关论文作为技术背景（幻灯片上有标题线索，具体可核实）： - Agarwal, Shah, Shen, Song (JASA, 2021) 或 arXiv: 1902.10920, 关于主成分回归用于矩阵补全的理论基础。 - Agarwal, Shah, Shen (arXiv: 2010.14449)，另一篇用于相关问题的论文。

开放问题 (扎根于转写，仅罗列): 1. 连续干预的推广 [1:00:24] 讨论者Jason提出：能否将干预从离散变量扩展到连续变量？例如，可以研究药物剂量（连续变量）的效果。A4 假设（子空间包含）如何处理这个情形？ 2. 加入处理模型 (Treatment Model) [1:00:35] Jason 建议：是否可以引入一个处理分配模型（如倾向性分数）来做逆概率加权？这可能是为了处理比 A3 更复杂的混杂结构，或在处理分配依赖于协变量的情形下更 robust。 3. 交错处理场景 (Staggered Treatment Adoption) [1:00:34] 讨论者明确提到这是关键局限：假设所有单位在同一个时间点接受处理，无法处理“不同单位在不同时间接受处理”的更常见情形。 4. 与最优治疗配给 (Optimal Treatment Regimes) 的连接 [1:01:12] Jason 指出：SI 能估计所有 (个体, 干预) 的效果，这正好是个性化治疗配给问题的核心输入。报告本身没有深入探索如何从 SI 输出过渡到寻找最优策略。

Maintained by 陈星宇 · Homepage · Source on GitHub