跳转至

Talk 1: Estimating the causal effect of an intervention in a time series setting: the C-ARIMA approach (Fiammetta Menchetti)

讲者: Fiammetta Menchetti ; Armeen Taeb
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-07-20
主题: 因果推断
视频: https://youtu.be/RjMEtv3C5S0 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

方向:在时间序列设置下,借助 Rubin 因果模型(RCM)对一个单一、持续性干预的因果效应进行识别、估计与推断。该方向当前的主流工具可分为两类:

  1. 面板数据方法(需有控制单元):双重差分(DiD; Card & Krueger 1993)、合成控制(SC; Abadie et al. 2010, 2015)及其组合。它们依赖平行趋势等函数形式假设,且要求存在未受干预的控制单元。
  2. 干预分析(Intervention Analysis; Box & Tiao 1975, 1976):直接在 ARIMA 模型中引入哑变量(如水平偏移、斜率改变)来估计“冲击”大小。但此类方法没有明确定义因果 estimand、未讨论识别假设,因此估计量只是“关联”,不保证因果解释。
  3. CausalImpact(Brodersen et al. 2015):用贝叶斯结构时间序列(BSTS)模型预测无干预的反事实,再与观测值对比。它是频率学派方法的直接竞争者。

C-ARIMA 的定位
提出一种频率学派替代方案——在 RCM 下明确写出四个假设(单一持续性干预、时间无干扰、协变量-处理独立、非预期个体化处理),将潜在结果过程显式建模为带干预项的 ARIMA(可含季节性与协变量),从而把干预分析的灵活性与因果识别的严谨性统一。不要求控制单元,只依赖干预前的时间序列动态学习预测模型。

有把握的关键工作(名称来自幻灯片,拼写已通过幻灯片校正): - Bojinov & Shephard (2019); Rambachan & Shephard (2019); Bojinov et al. (2020) —— 在随机实验框架下形式化时间序列的潜在结果。 - Box & Tiao (1975, 1976) —— 经典干预分析(ARIMA 冲击模型)。 - Brodersen et al. (2015) —— CausalImpact(贝叶斯结构时间序列)。 - Card & Krueger (1993) —— DiD 经典应用。 - Abadie et al. (2010, 2015) —— 合成控制。


二、最小内核 / 一个最简例子

符号与数据

  • 时间点 \(t=1,\dots,T\);干预发生时间 \(t^*\)(已知,且 \(1 < t^* < T\))。
  • 单个单元(如一个产品),无跨单元干扰(故可忽略单元下标)。
  • 二元处理变量 \(W_t \in \{0,1\}\)
    \(W_t = 0\) 对所有 \(t \le t^*\)(干预前全部控制);
    \(t > t^*\),要么 \(W_t=1\)(受干预)要么 \(W_t=0\)(不受干预)。本例只考虑受干预的单元(即 \(W_t=1\) 对所有 \(t>t^*\))。
  • 可观测结果 \(Y_t\)(如日销售额)。
  • 潜在结果 \(Y_t(w)\)\(w\in\{0,1\}\)\(Y_t = Y_t(W_t)\)
  • 核心识别困难:对 \(t>t^*\),只能观测到 \(Y_t(1)\),无法观测 \(Y_t(0)\)(无干预下的反事实)。

四个假设(从幻灯片精确名称)

  1. (A1) 单一持续性干预:所有单元同时经历一次永久性干预。
  2. (A2) 时间无干扰:单元 \(i\) 的潜在结果只取决于自身处理路径,与其他单元无关。
  3. (A3) 协变量-处理独立性:协变量 \(X_t\)(如日期哑变量)不受处理影响。
  4. (A4) 非预期个体化处理:给定过去信息,每个单元被分配到处理的概率只依赖自身历史,且不依赖于未来信息。

这些假设使得我们可省去单元下标,并定义 \(Y_t(w)\) 为一般性潜在结果。

最简特例:无季节、无协变量、AR(1) 模型

  • 假设 \(\{Y_t(0)\}\) 服从 AR(1) 过程(平稳、高斯白噪声):
    \[Y_t(0) = \phi Y_{t-1}(0) + \varepsilon_t,\quad \varepsilon_t \overset{\text{iid}}{\sim} N(0,\sigma^2),\quad |\phi|<1.\]
  • 干预效应是可加的\(Y_t(1) = Y_t(0) + \tau_t\)。特别地 \(\tau_t = 0\) 对所有 \(t\le t^*\),且对 \(t>t^*\) 为待估的点因果效应
  • 可观测数据:\(Y_1,\dots,Y_{t^*}\)(来自 \(Y_t(0)\)),\(Y_{t^*+1},\dots,Y_T\)(来自 \(Y_t(1)\))。

估计流程(三步)

  1. 模型拟合:用干预前数据 \(\{Y_1,\dots,Y_{t^*}\}\) 拟合 AR(1) 模型,得到 \(\hat\phi, \hat\sigma^2\)
  2. 反事实预测:在 \(H_0: \tau_t=0\)(无效应)下,一步向前预测:
    \[\hat Y_{t^*+1}(0) = \hat\phi Y_{t^*},\quad \hat Y_{t^*+2}(0) = \hat\phi \hat Y_{t^*+1}(0),\ \dots\]
    一般地,\(\hat Y_{t^*+k}(0) = \hat\phi^k Y_{t^*}\)(AR(1) 特殊形式)。
  3. 效应估计
  4. 点效应:\(\hat\tau_{t^*+k} = Y_{t^*+k} - \hat Y_{t^*+k}(0)\)
  5. 累积效应:\(\hat\Delta_{t^*+k} = \sum_{h=1}^k \hat\tau_{t^*+h}\)
  6. 平均效应:\(\hat{\bar\tau}_{t^*+k} = \hat\Delta_{t^*+k} / k\)

推断:幻灯片定理指出,在 \(H_0\) 下,上述估计量是零均值正态分布,方差由模型参数解析给出(具体公式见幻灯片定理,未在这里展开)。利用此性质可构造置信区间或检验。

核心思想:用干预前数据学习时间序列动态,预测反事实,与观测值之差即为因果效应估计。C-ARIMA 将此思想扩展到更一般的 ARIMA、季节 ARIMA、含协变量情况,并给出正式假设和推断理论。


三、报告主体:讲者讲了什么

[0:00:00–0:01:32] 动机与研究目标

  • 开场致谢,介绍合作者:Fabrizio Cipollini, Fabrizia Mealli(发音:chapolino → Cipollini, miali → Mealli,幻灯片已确认)。
  • 动机:(基于幻灯片)RCM 虽能定义因果效应,但时间序列中相关方法(DiD, SC)需控制单元且依赖函数形式假设;干预分析(Box & Tiao)使用了 ARIMA 但缺乏因果定义与识别假设。
    → 提出 C-ARIMA 以弥合两者缺口。
    [0:01:31] 明确指出:"closing the gap between causal inference under Rubin and intervention analysis"。

[0:01:34–0:03:08] C-ARIMA 两大支柱

  1. RCM 下的因果框架(假设与 estimand)。
  2. 基于 ARIMA 的推断方法。
  3. [0:02:30] 与 CausalImpact(Brodersen et al. 2015)对比:C-ARIMA 是频率学派替代,基于 ARIMA(更能表示广泛过程,实现容易),而 CausalImpact 基于 BSTS。

[0:03:12–0:07:08] 因果框架(第一个支柱)

  • [0:03:18] 定义 \(W_{i,t}\) 为处理分配。
  • [0:03:30] 假设 A1:单一持续性干预 – 举例:超市价格政策,在时间 \(t^*\) 永久降价(幻灯片图例:价格折线图)。
  • [0:04:54] 假设 A2:时间无干扰(也称 temporal no-interference / "tempura sutra"?幻灯片是 "temporal no-interference")。
  • [0:05:18] 假设 A3:协变量-处理独立性 – 协变量(如日哑变量、价格)不应被处理影响,用于改进反事实预测。
  • [0:05:40] 假设 A4:非预期个体化处理 – 处理分配只依赖自身过去,不依赖其他单元。
  • [0:07:09] 在这些假设下,可简化符号:\(Y_t(w)\) 表示一般单元在时间 \(t>t^*\) 的潜在结果。

[0:07:14–0:08:06] 因果估计量

  • 点效应 \(\tau_t(w;w') = Y_t(w)-Y_t(w')\)
  • 累积效应 \(\Delta_t(w;w') = \sum_{s=t^*+1}^t \tau_s\)
  • 时间平均效应 \(\bar\tau_t = \Delta_t / (t-t^*)\) – 本报告重点。

[0:08:10–0:14:04] C-ARIMA 模型与推断(第二个支柱)

  • [0:08:15] 基础模型(幻灯片 eq.3):
    \[Y_t(w) = \frac{\theta_q(L)}{\phi_p(L)}\varepsilon_t + \tau_t \mathbf{1}_{\{w=1\}},\]
    其中 \(\phi_p(L),\theta_q(L)\) 是滞后多项式,所有根在单位圆外;\(\varepsilon_t\) 白噪声。\(\tau_t\) 即为点因果效应。
  • [0:09:40] 更一般形式(包含季节性与差分、协变量):
    \[(1-L^s)^D(1-L)^d Y_t(w) = \frac{\Theta_Q(L^s)\theta_q(L)}{\Phi_P(L^s)\phi_p(L)}\varepsilon_t + (1-L^s)^D(1-L)^d X_t'\beta + \tau_t\mathbf{1}_{\{w=1\}}.\]
    讲者强调,即使模型复杂,\(\tau_t\) 仍为因果效应。
  • [0:10:20] 重写模型为 \(S_t = z_t + \tau_t\),其中
    \(S_t = T(Y_t) - T(X_t)'\beta\)\(T(\cdot)\) 是使序列平稳的差分变换,\(z_t\) 是平稳的 ARIMA 部分。
  • [0:10:56] 零假设 \(H_0: \tau_t=0\) 对所有 \(t>t^*\)。则 \(k\) 步向前预测(条件期望)为
    \(\hat S_{t^*+k} = \mathbb{E}[S_{t^*+k} \mid \mathcal{I}_{t^*}, H_0] = \hat z_{t^*+k|t^*}\)
  • [0:11:40] 该预测是对反事实的最佳近似。
  • [0:11:55] 估计量(幻灯片):
    \[\hat\tau_{t^*+k} = S_{t^*+k}(w) - \hat S_{t^*+k}(w'),\quad \hat\Delta_{t^*+k} = \sum_{h=1}^k \hat\tau_{t^*+h},\quad \hat{\bar\tau}_{t^*+k} = \hat\Delta_{t^*+k}/k.\]
  • [0:12:46] 定理(幻灯片):在 \(H_0\) 与模型假设下,上述估计量服从均值为 0 的正态分布,方差由 \(\sigma^2_\varepsilon\) 及预测步长决定(幻灯片给出具体方差公式)。可利用此结果进行推断(区间估计、检验)。
  • [0:13:17] 估计三步:
  • 干预前数据估计 ARIMA 模型(学习动态与协变量关系);
  • 预测干预后反事实序列;
  • 对比观测值,计算效应并利用定理推断。

[0:14:08–0:16:40] 与传统干预分析对比

  • 传统方法:在 ARIMA 中直接加入哑变量 \(D_t\)(1 若 t>t^*)表示水平偏移,系数 \(\beta_0\) 即为估计效应。
  • 缺点:必须正确假设效应形式(水平/斜率/脉冲),否则需试错;且缺乏因果假设,无法确保系数是因果而非关联。
  • C-ARIMA 优势:不预定义效应形式,一步估计所有 \(\tau_t\);提供了完整的因果假设框架。

[0:16:52–0:21:46] 实证应用(超市价格干预)

  • 背景:2018.10.4 Florence 超市永久降低自有品牌(store brand)饼干价格;数据包含 11 个自有品牌及其直接竞品(均为饼干)。处理定义不同:自有品牌是降价,竞品是相对涨价(因竞品价格未变,但自有品牌降价使竞品变贵)。
  • 假设验证:所有产品均受处理(不同定义),故无跨单元干扰(A2)。协变量:周哑变量、日哑变量、价格。
  • 关键处理:自有品牌的价格协变量在反事实下应取无干预时的值(假设价格不变),因为价格本身是受干预的。讲者解释这是基于过去价格稳定模式的判断。
  • 结果
  • [0:20:10] 自有品牌:平均因果效应在多数产品上为正(降价增加销量)。
  • [0:20:45] 竞品品牌:未发现一致显著效应(原预期为负)。可能原因:品牌忠诚等不可观测因素。
  • 幻灯片图示:展示所选品牌的时间序列、预测与效应。
  • [0:21:46] 总结:可作 CausalImpact 的频率学派替代,提供多项改进。

[0:21:55–0:23:20] 局限与后续

  • 局限:无法充分捕捉跨产品交互(如替代效应)。
  • 后续工作:联合建模每一自有品牌-竞品对(“jointly model each store-competitive pair”);或若存在不受干预的产品类别,可采用合成控制或合成 DiD。
  • [0:23:20] 结束。

四、对应论文与开放问题

(a) 对应论文

标题:Estimating the causal effect of an intervention in a time series setting: the C-ARIMA approach
作者:Fiammetta Menchetti†, Fabrizio Cipollini, Fabrizia Mealli(隶属Dip. di Statistica, Università degli Studi di Firenze)。
日期:幻灯片标注 2021-07-14。讲者在 [0:17:05] 提到 “everything is in our paper that you can find on archive”。
可查入口:arXiv(具体编号未给出,可搜索作者+标题“C-ARIMA”或“C-ARIMA time series causal effect”查找)。需对照视复核确切链接。
其他相关论文(报告中提及的对比例子均已在第一节列出)。

(b) 开放问题(每条扎根于转写/幻灯片的哪个点)

  1. 跨产品交互的建模
    报告指出 C-ARIMA 在现用形式下“cannot fully account for possible interactions stemming from cross-products”([0:22:30]),后续尝试联合建模每一自有品牌-竞品对。
    开放问题:能否在 C-ARIMA 框架内显式引入多个相关时间序列的联合模型(如向量 ARIMA 或动态因子),并保持因果识别假设不变?这可能涉及多变量潜在结果与无干扰假设的拓展。

  2. 无干预单元的利用
    若能找到一个产品类别未受任何干预(即始终为控制组),则可采用合成控制(SC)或合成 DiD([0:22:52–0:23:08])。
    开放问题:C-ARIMA 与 SC/合成 DiD 的整合方式——使用 SC 构造反事实与使用 ARIMA 预测相比,哪个识别假设更弱?能否将 SC 权重作为先验信息融入 C-ARIMA 的预测步骤?

  3. 假设(A4)个体化处理的现实性
    A4 要求处理分配只依赖个体历史,不依赖未来。在观测研究中,若处理实施基于全局政策(如全国超市调价),此假设自然满足。但若处理时间选择内生(如根据过去销量决定何时调价),则违背非预期性。
    开放问题:当干预时间 \(t^*\) 本身是内生的(由历史结果决定),C-ARIMA 框架如何调整?是否需引入类似 instrument 或倾向得分的方法?

  4. 协变量-处理独立性(A3)的验证
    A3 要求协变量不受处理影响。在应用中(价格作为协变量),讲者假设无干预下价格不变([0:19:38])。若价格受到其他未观测冲击,则 A3 可能不成立。
    开放问题:如何用数据检验或放松 A3?能否构建敏感性分析(例如对协变量受处理影响的程度进行偏倚校正)?

  5. 定理的推广
    定理给出 \(H_0\) 下正态分布,但依赖于模型假设(ARIMA 阶数正确、参数已知/可用大样本近似)。若模型误设(如阶数错误、忽略非线性),推断是否稳健?
    开放问题:C-ARIMA 对模型误设的敏感性如何?是否存在半参数版本的 C-ARIMA(如使用 influence functions 或双稳健估计)以获得模型误设下的稳健推断?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论