Berkeley) Synthetic Interventions¶
讲者: Anish Agarwal and Dennis Shen (
讨论人: Jason Poulos
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-08-03
主题: 因果推断
视频: https://youtu.be/e8nomN9hxZM · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2006.07691 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
方向定位:面板数据下的多干预政策评估
本报告的工作属于 面板数据因果推断 这个大方向,具体聚焦于 推广合成控制法 (Synthetic Control, SC) 到多个处理干预的情形。这个子方向的核心追问是:当政策(处理)不止一个,而研究者想评估每一个 (单位, 干预) 组合的反事实结果时,如何仅凭有限的面板数据(每个单位只接受过一个或少数几个干预)就能完成推断。
-
经典奠基:合成控制法 (SC)。由 Abadie, Diamond, Hainmueller (2003, 2010) 开创。SC 的核心是只估计一个反事实:若处理单元未接受处理,它在控制下的潜在结果(一个 N×1 或 N×T 的问题)。SC 通过寻找控制单元的一个加权凸组合来“合成”处理单元在控制下的轨迹。关键在于它假设了低维潜因子结构(通常称为“交互固定效应模型”),并利用预干预期的拟合来学习权重。本报告引用了 Abadie (JEL, 2020) 的综述。
-
当前主流/前沿路线:
- 矩阵补全 (Matrix Completion) 视角:如 Athey, Bayati, Doudchenko, Imbens, Khosravi (2021) 等,将面板数据因果推断视为「有缺失数据的矩阵补全」问题。他们通常假设潜在结果矩阵是低秩的,并在补全时引入正则化(如核范数)。这个视角自然地处理了「一个处理」的情形。
- 张量补全 (Tensor Completion) 视角:这正是本报告所处的路线。当处理多个干预时,潜在结果从一个 N×T 的矩阵扩展为一个 N×T×D 的张量。假设这个张量有低秩结构(CP 分解),从而能在更广泛的数据缺失模式下进行补全。这是一个相对较新、更活跃的方向。
- 交互固定效应模型 (Interactive Fixed Effects Models):如 Bai (2009) 以及被广泛应用于 SC 的模型(Xu, 2017 等)。这些模型假设潜在结果由少量潜因子(因子加载与因子交互)生成,是上述补全方法的参数化特例。本报告的数学模型与此紧密相关。
-
本报告的位置:报告明确延续了 Abadie (2020) 提出的开放问题,即为多个处理情形设计 SC 的推广。它站在 张量补全 + 潜因子模型 的交叉点,提供了一个从估计量(基于 PCR 的 linear model)到识别假设(张量因子模型 + 子空间包含)、再到统计理论(一致性、渐近正态、假设检验)的完整框架。其关键突破在于表明:只要每个单位经历两个干预(包含一个“控制”),就能推断所有 N×D 个因果参数。这与经典 SC 的「N+T+1」数据量需求形成了对比。
二、最小内核 / 一个最简例子¶
核心概念:用「另一种干预下的其他单位」来合成「目标单位在目标干预下的反事实」。
符号与模型设定: - 可观测数据:一个三阶张量的一部分实体。有 N 个单位(如N个地区),T 个时间点,D 种干预(如D种政策)。我们观测到的是这张张量的极稀疏子集。令 \(Y_{nt}^{(d)}\) 表示单位 n 在时间 t 在干预 d 下的潜在结果(注意: 这是理论量,观测到的只是其中一部分)。 - 核心目标 (Estimand):对于目标单位 n(如美国)和目标干预 d(如“严格封锁”),我们想估计 \(\theta_{n}^{(d)} = \frac{1}{T_1} \sum_{t \in T_{post}} \mathbb{E}[Y_{nt}^{(d)}]\)。即,单位 n 在整个后续期间在干预 d 下的平均期望潜在结果。这被称为因果参数。 - 关键假设 (简洁版): 1. A1 (张量因子模型):潜在结果的期望可以被一个低秩张量分解表示: \(\mathbb{E}[Y_{nt}^{(d)}] = \sum_{l=1}^r u_{nl} \cdot v_{tl} \cdot s_{dl}\)。其中 \(u_{nl}, v_{tl}, s_{dl}\) 分别是单位、时间、干预对应的潜因子。这是最重要的结构假设。 2. A2 (线性跨度包含):对于目标单位 n,其单位潜因子向量 \(\vec{u}_n\) 属于由那些“曾接受过干预 d 的单位”的潜因子向量张成的线性空间。即 \(\vec{u}_n = \sum_{j \in \mathcal{I}(d)} w_j^{(n,d)} \vec{u}_j\)。 3. A3 (潜在因子上的选择):给定所有潜因子,剩余随机误差与处理分配无关。这相当于控制了所有潜伏混杂。
一个最简例子:
- N = 3 个地区: A(目标),B,C。D = 2 种干预: 控制 (c) 和 高税收 (t)。T = 2 个时间段: 干预前 pre,干预后 post。
- 观测数据:A 地区从 pre 到 post 都只经历了 控制 (c)。B 和 C 地区在 post 期经历了 高税收 (t),但在 pre 期经历了 控制 (c)。我们观测到了 A_pre_c(A在control下的pre期)和 (B_pre_c, C_pre_c) 以及 (B_post_t, C_post_t)。我们需要估计的是 \(\mathbb{E}[Y_{A, post}^{(t)}]\)。
- 如何工作:
1. 学习模型:在控制干预下,我们知道(由A1)\(\mathbb{E}[Y_{A,pre}^{(c)}] = u_{A1} v_{pre,1} s_{c,1} + u_{A2} v_{pre,2} s_{c,2}\) 等等。A1 保证 B 和 C 的潜因子 \(\vec{u}_B, \vec{u}_C\) 和 \(\vec{u}_A\) 有关。A2 保证 \(\vec{u}_A\) 在 \(\{\vec{u}_B, \vec{u}_C\}\) 的线性张成空间内。因此,我们可以用 B 和 C 的“合成”来逼近 A。具体来说,我们寻找一个权重向量 \(\hat{w} = (\hat{w}_B, \hat{w}_C)\),使得在干预前控制下:
post_c 下的结果 \(\hat{Y}_{B,post}^{(t)}, \hat{Y}_{C,post}^{(t)}\) 以及之前学好的 \(\hat{w}\),来做预测 \(\hat{\mathbb{E}}[Y_{A,post}^{(t)}] = \hat{w}_B Y_{B,post}^{(t)} + \hat{w}_C Y_{C,post}^{(t)}\)。然后 \(\hat{\theta}_{A}^{(t)}\) 就是这些预测的时间平均。
为什么是这个例子说明核心思想: 这个例子直观地展示了 SI 的精华:不需要观察到 A 在高税收下的任何直接数据。你只需要A在控制下的前期数据(用于对齐潜因子)和其他单位在目标干预下的数据(作为“供体”)。核心就在于线性跨度包含,它锁定了“合成权重”的跨域(从控制到高税收,从预干预到后干预)不变性。整个过程,从估计权重的线性代数(用PCR)到实际问题,都围绕这个不变性展开。
三、报告主体:讲者讲了什么¶
(注:以下所有时间戳引用的是视频中对应的 [H:MM:SS];口语转写内容可能包含ASR错误,已结合幻灯片和论文摘要校正。)
- [0:04]—[0:12] 动机:COVID-19 与多政策评估
- 讲者以COVID-19为例,指出不同国家采取了不同强度的限制措施(低/中/高),如美国实施了“低强度”限制。问题:如果美国实施了“中等”或“高强度”措施,COVID-19死亡数会怎样?
- 引出「潜在结果张量」(Potential Outcomes Tensor) 的概念:一个单位(国家)×时间×干预的三维张量。观测值只是这个张量中稀疏的一个切片(每个国家只能看到它在实际采取的政策下的结果)。
-
强调“因果推断是一个张量补全问题”。
-
[0:13:37]—[0:21:31] 合成干预 (SI) 估计量
- 直觉:要估计美国在“高限制”下的结果,需借鉴其他实际采取高限制的国家的数据。所有国家在控制干预(这里指疫情前的“低限制”状态)下的数据提供公共基础。
- 对比 SC:经典 SC 只估计一个反事实:处理单元在控制下的结果。它通过一个凸组合(权重非负且和为1)来合成。SI 则扩展到同时估计多个干预下的反事实。
- SI 的独特估计量:基于主成分回归(PCR)。不是将权重限制在凸组合上,而是对包含权重的线性回归施加一个低秩约束(即 \(\hat{w}\) 被约束在 \(Z_{pre}\) 的前 k 个主成分张成的子空间里)。这样做比凸组合更灵活(表达性更高),同时通过低秩降维有效防止过拟合。
-
为何选 PCR:幻灯片中明确指出,即使线性模型 \(Y = Z w + \text{noise}\) 中 \(w\) 是自由的,也会因为 \(Z\) 存在噪音和缺失值(特别是供体单位vs目标单位的异质性)而容易过拟合。PCR 通过 PCA 强制 \(Z\) 的秩低(谱稀疏),从而对噪音和缺失值鲁棒。幻灯片展示了一个实际数据的奇异值谱,前几个奇异值很大,后面很小,支持了低秩结构假设。
-
[0:21:58]—[0:29:20] 因果框架: 何时 SI 有效? (假设部分)
- 核心假设:A1 (张量因子模型):所有期望潜在结果构成一个低秩张量(CP 秩),\(\mathbb{E}[Y_{nt}^{(d)}] = \sum_{\ell=1}^r u_{n\ell} v_{t\ell} s_{d\ell}\)。这比控制组的矩阵因子模型多了一个干预的潜因子 \(s_{d\ell}\)。
- A2 (线性跨度包含, Linear Span Inclusion):一个非常关键的假设。它要求目标单位 \(n\) 的潜因子向量 \(\vec{u}_n\) 能够被“接受过目标干预 d 的单位群”中的潜因子向量线性表示。这个假设保证了 “合成权重”不随时间和干预的改变而改变——这是 SI 估计量成功转移模型的基础。讲者详细推导了 A1+A2 得出 \(\mathbb{E}[Y_{nt}^{(d')}] = \sum_{j \in \mathcal{I}(d)} w_j^{(n,d)} \mathbb{E}[Y_{jt}^{(d')}]\) 的过程。
- A3 (潜因子选择):\(\epsilon_{nt}^{(d)} \perp\!\!\!\perp \vec{D} \mid \text{latent factors}\),即给定潜因子后,处理分配和潜在结果的随机误差独立。这是控制潜变量混杂的关键。
-
直觉化:幻灯片用一个 DAG 说明了 A3:潜因子 (\(LF\)) 同时驱动处理分配 (\(D\)) 和包含结构成分 \(f(LF)\) 的潜在结果 \(Y\),但处理分配不能直接驱动噪音 \(\epsilon\)。这种设定允许了基于潜变量的选择偏倚。
-
[0:29:33]—[0:42:25] 理论结果 (由 Dennis 介绍)
- 识别 & 估计:在上述假设下,因果估计 \(\theta_{nd}\) 能被识别为观测数据中供体组(接受干预 d)的经验均值的一个线性组合(由权重 \(w\) 决定)。权重 \(w\) 可以通过在控制干预下的预干预数据拟合出唯一的最小范数解(在子空间包含条件下)。
- A4 (子空间包含, Subspace Inclusion):这是一个独立于前三个假设的纯代数假设。它要求干预前的子空间(由 \(Z_{pre}\) 的左奇异向量张成)包含干预后的子空间(由 \(Z_{post}\) 的左奇异向量张成)。这保证了从训练(pre)到测试(post)的泛化能力。如果这个假设不生效(比如分布发生了剧烈变化),即使其他假设成立,模型也可能失效,讲者用模拟例子清晰地展示了这一点。
- 统计性质:
- 一致性:SI 估计量对 \(\hat{w}\) 和 \(\hat{\theta}_{nd}\) 的估计都是相合的。\(\hat{w}\) 的误差 \(O_p(\min(T_0^{-1/2}, N_d^{-1/2}))\),\(\hat{\theta}_{nd}\) 的误差 \(O_p(T_1^{-1/2})\)。幻灯片给出了模拟验证,误差衰减速率与理论 \(1/\sqrt{T_1}\) 匹配。
- 渐近正态性:经过适当缩放,\(\hat{\theta}_{nd} - \theta_{nd}\) 收敛到标准正态分布。这为构造置信区间和假设检验提供了严格基础。幻灯片中给出了构造 95% 置信区间的具体公式(包含可计算量,如噪音方差 \(\sigma\) 和 \(\|w\|_2\))。
-
假设检验 (Subspace Inclusion 的检验):设计了一个统计量 \(\hat{\tau}\)(由 \(U_{pre}\) 和 \(U_{post}\) 估计之间的差值构造),用于假设检验 \(H_0\): 子空间包含成立 vs. \(H_1\): 不成立。报告给出了精确的临界值 \(\tau_{1-\alpha}\),并证明第一类错误和第二类错误均被 \(\alpha\) 控制。
-
[0:42:28]—[0:47:48] 应用:合成 A/B 测试
- 问题:理想 RCT(每单位都经历所有干预)效果好但实际不可行;标准 RCT(所有单元都接受同一套干预)可行但无法个性化。SI 能否介于两者之间,仅用
N × 2次实验(每个单位经历控制 + 一个干预)来估计N × D所有结果? - 案例1:电子商务:25 组客户(用户组),3 种促销折扣(10%/30%/50%)+ 控制。仅用每个组的一种折扣数据(相当于
25 × 2 = 50次实验)来预测所有25 × 4 = 100种结果。 - 结果:通过计算“修正 R²”(比较 SI 预测误差 vs. 标准 RCT 池化均值的误差),SI 在所有场景下都远优于 RCT(修正 R² ≈ 0.98),说明存在显著的客户异质性,个性化是必要的,而 SI 仅用一半的实验成本就实现了。
- 案例2:临床试验(简要提及):6 种患者组,3 种治疗方案,同样显示 SI 的实用潜力,支撑了其“数据高效性”。
讨论 & 展望: - 报告结束前的提问环节强调了几个关键点:干预的定义(用实际观察到的行为(如 mobility drop)而不是名义政策名来定义干预,解决了干预的不等价性问题),连续型干预(通过协变量来考虑),IPW 调整(通过加权训练损失来处理分布不平衡),交错处理(目前是局限性,未来方向),以及连接最优处理配给。
四、对应论文与开放问题¶
对应论文: - 这篇报告的核心论文是: - "Synthetic Interventions" (arXiv: 2006.07691). 作者: Anish Agarwal, Devavrat Shah, Dennis Shen. 本次报告由 Anish 和 Dennis 主讲。 - 讲者还提到了其团队的两篇相关论文作为技术背景(幻灯片上有标题线索,具体可核实): - Agarwal, Shah, Shen, Song (JASA, 2021) 或 arXiv: 1902.10920, 关于主成分回归用于矩阵补全的理论基础。 - Agarwal, Shah, Shen (arXiv: 2010.14449),另一篇用于相关问题的论文。
开放问题 (扎根于转写,仅罗列): 1. 连续干预的推广 [1:00:24] 讨论者Jason提出:能否将干预从离散变量扩展到连续变量?例如,可以研究药物剂量(连续变量)的效果。A4 假设(子空间包含)如何处理这个情形? 2. 加入处理模型 (Treatment Model) [1:00:35] Jason 建议:是否可以引入一个处理分配模型(如倾向性分数)来做逆概率加权?这可能是为了处理比 A3 更复杂的混杂结构,或在处理分配依赖于协变量的情形下更 robust。 3. 交错处理场景 (Staggered Treatment Adoption) [1:00:34] 讨论者明确提到这是关键局限:假设所有单位在同一个时间点接受处理,无法处理“不同单位在不同时间接受处理”的更常见情形。 4. 与最优治疗配给 (Optimal Treatment Regimes) 的连接 [1:01:12] Jason 指出:SI 能估计所有 (个体, 干预) 的效果,这正好是个性化治疗配给问题的核心输入。报告本身没有深入探索如何从 SI 输出过渡到寻找最优策略。
Maintained by 陈星宇 · Homepage · Source on GitHub