On Causal Inference with Temporal and Spatial Spillovers in Panel Data¶
讲者: Anish Agarwal
讨论人: Iavor Bojinov and Ashesh Rambachan
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-11-07
主题: 因果推断
视频: https://youtu.be/MLvmxbLnZT8 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2210.11003 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告属于面板数据因果推断领域,具体来说是合成控制 / 合成干预方法在动态处理效应与网络干扰下的扩展。该子方向追问的核心问题是:在面板数据中,如何利用跨单位、跨时间、跨处理分配模式的结构性假设,在存在时间溢出(过去干预影响当前结果) 和空间溢出(他人的干预影响当前结果) 时,识别个体化的反事实结果(即特定干预序列下的期望潜在结果)。
- 奠基与主流路线:经典的合成控制法 (Synthetic Control, Abadie & Gardeazabal 2003; Abadie, Diamond & Hainmueller 2010) 假设潜在结果在控制下服从低秩潜因子模型 (LFM),且处理只发生在单一时间点,之后被处理单元保持处理状态。其识别策略依赖于将有潜因子的被处理单元表示为未处理单元的凸组合。合成干预法 (Synthetic Interventions, Agarwal, Shah & Shen 2023) 将其推广,允许每个单元在任何时间点接受任何干预,但仍假设无时间溢出(即t期结果只取决于t期干预),并基于单位潜因子在所有干预下保持不变的更严格LFM进行识别。
- 当前 Frontier 与此次报告的定位:近期研究努力在保留LFM框架的基础上,放松“无时间/空间溢出”的限制。本报告是这一方向的重要推进,提出两个工作:
- “合成blip效应”(Synthetic Blip Effects):针对时间溢出,提出一种加性时间变化 / 不变潜因子模型,将动态处理效应分解为“blip效应”(类似脉冲响应)和基线结果,并利用去偏表示(blip效应表示, Robins 1997) 与递归识别策略,大幅降低样本复杂度(从 \(O(A^T)\) 降至 \(O(A \cdot T)\) 甚至 \(O(A)\),A为干预数,T为时间步数),并允许干预分配在控制序列后具有适应性(即可根据过去观测结果调整)。
- “网络合成干预”(Network Synthetic Interventions):针对空间溢出,假设一个已知的邻居图(neighborhood graph),干预只通过邻居影响结果,并提出一个加性邻居潜因子模型,将合成干预的识别思想直接扩展到每个单元及其邻居的整体干预分配。
报告最终设想将两者结合,即引入“加性-延长潜因子模型”,并递归识别“网络blip效应”。(演讲稿最后部分,[0:47:10-0:47:25])
二、最小内核 / 一个最简例子¶
核心思想可以用一个\(T=2\)(两个时间步)、二值干预(\(A=\{0,1\}\), “0”为控制)、无空间溢出的最简例子来说明。
符号与设定: - 可观测数据:有 \(N\) 个单元。每个单元 \(n\) 在每个时间点 \(t=\{1,2\}\) 上的观测结果 \(Y_{n,t}\),以及该时间点接受的干预 \(A_{n,t} \in \{0,1\}\)。 - 目标参数(Estimand):对每个单元 \(n\),其期望潜在结果 \(\mathbb{E}[Y^{(a_1,a_2)}_n]\),即单元 \(n\) 在干预序列 \((a_1, a_2)\) 下的期望结果。(听写稿[0:06:33-0:06:43]和幻灯片均确认此点)。 - 核心模型(Additive Time-Varying LFM, \(\text{H=2}\)):
最简思想(Blip Effect 递归识别):
-
目标分解:运用blip效应表示(Robins 1997),将目标参数写成telescoping sum(幻灯片[0:25:43-0:26:00]):
\[\mathbb{E}[Y^{(a_1,a_2)}_n] = \underbrace{(\mathbb{E}[Y^{(a_1,a_2)}_n] - \mathbb{E}[Y^{(0,a_2)}_n])}_{\text{Blip}_1(a_1)} + \underbrace{(\mathbb{E}[Y^{(0,a_2)}_n] - \mathbb{E}[Y^{(0,0)}_n])}_{\text{Blip}_2(a_2)} + \underbrace{\mathbb{E}[Y^{(0,0)}_n]}_{\text{Baseline}}\]Blip效应 \( \text{Blip}_t(a_t)\) 定义为:在除 \(t\) 时刻外所有其他时间段统一干预为0(控制)的前提下,个体在\(t\)时刻接受干预 \(a_t\) 相比控制的效果。基线结果 \(\mathbb{E}[Y^{(0,0)}_n]\) 是单元完全处于控制序列下的期望结果。 -
识别步骤 1:基线结果——寻找在 \(t=1,2\) 都接受控制干预 \((0,0)\) 的“供体”单元。因为这些供体的观测结果在模型下就反映了其基线结果。利用LFM的假设(供体单元潜因子可线性组合表示其他单元潜因子),可以通过这些供体的观测结果线性组合出所有单元的基线结果(即合成控制的思想)。
-
识别步骤 2:Blip_2(a_2)——寻找在 \(t=1\) 接受控制(0),而在 \(t=2\) 接受干预 \(a_2\) 的“供体”。他们的 \(t=2\) 期望结果等于 \(\mathbb{E}[Y^{(0,a_2)}_n] = \text{Baseline}_n + \text{Blip}_2(a_2)\)。步骤1已有基线,所以可以“减去基线”从而直接获得这些供体的Blip_2(a_2)。再次利用LFM,可以从这些供体的Blip_2(a_2)合成出所有单元的Blip_2(a_2)。
-
识别步骤 3:Blip_1(a_1)——寻找在 \(t=1\) 受干预 \(a_1\),在 \(t=2\) 受某个随机观测干预 \(A_2\)(而不是固定的0)的“供体”。他们的期望结果为:
\[\mathbb{E}[Y^{(a_1,A_2)}_n] = \text{Baseline}_n + \text{Blip}_1(a_1) + \text{Blip}_2(A_2)\]利用已有基线(步骤1)和已识别的Blip_2(A_2)(步骤2中已对所有干预都有识别),对供体观测结果进行“去偏”:\[\mathbb{E}[Y^{(a_1,A_2)}_n] - \text{Baseline}_n - \text{Blip}_2(A_2) = \text{Blip}_1(a_1)\]这就从供体处获得了Blip_1(a_1),再通过LFM合成出所有单元的Blip_1(a_1)。完成递归。
最终识别:将三个部分(基线、Blip_1(a_1)、Blip_2(a_2))相加即可得到目标参数 \(\mathbb{E}[Y^{(a_1,a_2)}_n]\)。整个识别只需要每个干预时间步组合下的供体单元数至少等于潜因子维度,而不是像朴素扩展那样需要指数级的 \(A^T\) 个供体。
三、报告主体:讲者讲了什么¶
[0:00:00 - 0:04:00] 开场与问题提出(Motivating Example) - 演讲者以电商广告投放为例:用户(Bob和Alice)在不同天看到不同广告,其购买决策受(1)当天广告;(2)昨天广告(时间溢出);(3)朋友的广告和决策(空间溢出)等的综合影响。 - 初步定义:时间溢出为过去干预影响当前结果;空间溢出为他人干预影响当前结果。重点介绍识别策略而非估计和推断。
[0:06:00 - 0:11:40] 核心结构与经典方法回顾 - 目标因果参数:针对任意单元 \(n\) 在任意干预序列下的期望潜在结果 \(\mathbb{E}[Y^{(a_1,\ldots,a_T)}_n]\)。总参数数量为 \(N \cdot A^T\)。 - 经典工具:潜因子模型(LFM)。回顾合成控制(潜在结果只在控制下有LFM,只问“被处理者若未处理会怎样”)和合成干预(潜在结果在所有干预下有LFM,也问“未处理者若处理会怎样”)。关键识别思想:单位潜因子可表示为其他单位潜因子的线性(或凸)组合,从而将潜在结果的期望表示为观测结果的线性组合。 - 朴素扩展的局限:若将LFM直接扩展至时间溢出 \((Y^{(a_1,\ldots,a_T)}_{n,T} = \langle v_n, w^{(a_1,\ldots,a_T)}_T \rangle + \epsilon)\),将面临 (1) 指数级样本复杂度(需每个干预序列都有供体); (2) 不允许适应性分配(干预不可依赖于过去观测结果)。(幻灯片中给出了图示和DAG限制,[0:12:55-0:13:57])
[0:14:00 - 0:23:00] 提出的模型:加性潜因子模型 - 模型形式: 1. 加性时间变化LFM:\(Y^{(a_1,\ldots,a_T)}_{n,T} = \sum_{\ell=1}^T \langle v^{T,\ell}_n, w^{(a_\ell)} \rangle + \epsilon\)。干预效果可加,且单位潜因子 \(v^{T,\ell}_n\) 依赖于总时间 \(T\) 和施加时间 \(\ell\)。 2. 加性时间不变LFM:仅依赖于滞后长度 \(T-\ell\)。 - 动机([0:20:24-0:22:36]):此模型是自回归过程(AR) 和线性动力系统(LDS) 的自然推广。通过对LDS的状态方程进行迭代展开,最终结果可写为所有过去干预的加性函数。不同单元(异质动力系统)的转移矩阵若来自一个低秩流形,则其潜因子也可相互线性表示,从而允许信息跨单元共享。 - 模型增益(幻灯片表格,[0:18:01-0:19:05]): - 朴素LFM:需要指数级供体,非适应性。 - 加性时间变化LFM:供体样本复杂度降至 \(O(A \cdot T)\),允许“分阶段采纳”(staggered adoption)后的适应性。 - 加性时间不变LFM:供体样本复杂度降至 \(O(A)\),几乎从第一步起就允许完全适应性。
[0:23:00 - 0:36:40] 识别策略:合成Blip效应 - 识别假设:处理分配矩阵满足“分阶段采纳进入自适应体制”([0:23:10-0:24:10])。即有共同的控制序列(如全0),单元以分阶段方式离开此序列。离开后,干预可适应于观测结果。离开控制序列的单元在每个时间点都足够(用于构造供体池)。 - 核心技术:Blip效应表示。将 \(T=2\) 情况下的目标参数分解为两个Blip效应和一个基线结果([0:25:30-0:26:40])。Blip效应定义是在其他时间点同为0的情况下,单个时间点干预的效果。演讲者回答了Thomas Richardson的问题([0:31:00-0:33:00]),澄清在本设置的LFM假设下,Blip效应只依赖于该时间点的干预,不依赖于其他时间点的干预序列(因为加性假设下,共同部分消掉了)。 - 证明纲要(递归识别)([0:28:30-0:36:10]): 1. 步骤1:用全控制序列(0,0)的供体,通过合成控制思想,对所有单元建立合成基线。 2. 步骤2:对每个干预 \(a_2\),用(0, a_2)的供体,观测结果减去其合成基线,得到这些供体的Blip_2(a_2);再用LFM合成出所有单元的Blip_2(a_2)。 3. 步骤3:对每个干预 \(a_1\),用(a_1, A_2)供体(A_2为其随机观测值),观测结果减去合成基线和合成Blip_2(A_2),得到这些供体的Blip_1(a_1);再用LFM合成所有单元的Blip_1(a_1)。 - 整个过程是动态规划/递归:识别最后时间步的Blip后,反向逐步识别较早时间步的Blip。因此,样本复杂度仅需在每次递归中找到一个供体池的系数,从而避免指数级爆炸。 - 问题与澄清([0:36:46-0:40:00]):讨论了适应性的实际含义(政策可依赖观测结果的噪声项)。提到了关于测量等价性(measurement invariance) 的问题([0:39:12-0:40:10]),讲者澄清了关键等价性:对于每个时间步,单位潜因子不能是干预的函数,即单位与干预潜因子须可分离。
[0:41:06 - 0:46:40] 空间溢出:网络合成干预 - 目标参数:对所有单元 \(i\) 的结果,依赖于所有单元的网络干预分配。 - 干扰限制:假设存在一个已知图,结果只受自身与其直接邻居的干预影响。 - 模型:提出加性LFM,即单位 \(n\) 的期望潜在结果是所有邻居潜因子与各自干预潜因子乘积的和。通过将自身和所有邻居的潜因子拼接成更长的“延长潜因子”(\(\tilde{v}_n\)),模型化简为类似于原始合成干预的形式但潜因子维度更大。 - 识别([0:44:27-0:46:20]):识别策略的核心是改变供体选择规则。不再寻找所有单元均处于控制的时段,而是寻找具有相同邻居结构且整个邻居都处于目标干预分配的单元作为供体。图形示例:一个有3个节点的小型网络,识别红节点在控制下的结果时,供体是那些不仅自身控制,且其相邻的2个节点也同时处于控制的节点。
[0:46:50 - 0:58:30] 结论与未来工作(Discussion and Open Questions) - 综合时空溢出([0:46:53-0:47:20]):假设一个“加性-延长潜因子模型”,在时间维度上递归识别“网络Blip效应”。这是未来工作,本报告是预案。 - 讨论环节关键问题(由Ashesh Rambachan提出): - LFM的优势:与传统基于顺序随机化的方法相比,LFM允许利用单位间线性关系放松重叠假设和序列随机性([0:49:10-0:50:15])。(讲者回应:这是用潜在结构替代了观测协变量驱动的条件独立假设)。 - 加性假设的检验与稳健性([0:53:39-0:56:20]):讨论了模型若错误(例如真实的干预效果不是加性)时的稳健性。讲者承认递归过程可能放大模型误设带来的偏差,但指出无免费午餐:若允许更复杂的时间溢出,更强的假设是不可避免的。他建议可将AR过程的检验方法应用于此框架,并考虑有限滞后假设作为折衷。
四、对应论文与开放问题¶
对应论文: - 主要论文:本报告主要讲述的工作是“Synthetic Blips: Generalizing Synthetic Controls for Dynamic Treatment Effects”。arXiv ID: 2210.11003 (2022) 。作者:Anish Agarwal, Sukjin Han, Dwaipayan Saha, Vasilis Syrgkanis, Haeyeon Yoon。 - 第二部分工作(网络空间溢出):“Network Synthetic Interventions”,联合 Sarah Cen (MIT), Devavrat Shah (MIT), Christina Yu (Cornell)。没有arXiv号给出,讲者说这块工作的估计推断论文已写好([0:06:10])。 - 不确定项:讲者提到的合作者Vasilis Syrgkanis来自斯坦福大学([0:01:34-0:01:38])。在幻灯片最后列举的几位新工作合作者如Alberto Abadie、Devavrat Shah等,均对其有明确标注。
开放问题(可基于材料明确指出的): 1. 综合时空溢出的“全模型”:如何真正、形式化地将加性时间模型与空间溢出模型结合,形成可直接操作的“网络blip效应”递归识别方案?(幻灯片结论部分及[0:47:10-0:47:25]均表示为“conjecture”和“potentially handle”,说明尚未解决)。 2. 加性假设的模型误设稳健性:当加性结构假设不成立时,提出的递归识别策略的偏差具体有多大?是否有偏稳健或半非参数推广的可能?(讨论环节[0:53:39-0:55:50])。 3. 非自适应/弱自适应策略的显式刻画:在分阶段采纳下,需要多长的非适应控制期才能保证识别?该时长如何决定其样本复杂度与算法性质的关系?(讨论环节[0:36:48])。 4. 在线与自适应算法:如何设计一种在线算法,使得当新单元中途加入面板时,可以逐步更新已有的blip效应预测,而不必从头开始进行全部递归?(未在材料中直接讨论,但可推断为研究空白)。 5. 与其他动态因果推断方法的比较:在仅需估计平均处理效应时,比直接估计ATR的方法,本文的个体化反事实轨迹整合出的ATE是否统计上更优?(讨论环节[0:57:28-0:58:30]明确提及这是一个未知的问题)。
Maintained by 陈星宇 · Homepage · Source on GitHub