跳转至

Policy Choice in Time-Series by Empirical Welfare Maximization

讲者: Toru Kitagawa
讨论人: Mikkel Plagborg-Moller
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-10-29
主题: 因果推断
视频: https://youtu.be/PTY8O-6lbY4 · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2205.03970 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

这条工作线是 「统计处理选择 / 政策学习」(Statistical Treatment Choice / Policy Learning),属于因果推断与统计决策理论的交叉领域。其基本问题:给定历史数据(实验性或观察性),如何学习一个从协变量到处理分配的规则(policy rule),使得该规则在未来实施时的福利(welfare)最大化。奠基工作是 Manski (2004, Econometrica),他提出了「条件经验成功规则」(CES rule,即当估计的条件平均处理效应为正时分配处理),并给出了遗憾(regret)的 O(1/√n) 上界。

主流路线分为两股:(1) 以 Kitagawa & Tetenov (2018, Econometrica) 为代表的 经验福利最大化(EWM),通过在受限策略类(如线性阈值规则)上直接最大化 IPW 经验福利来学习策略,遗憾率由策略类的 VC 维控制;(2) 统计学习/机器学习路线(如 Athey & Wager 2021, Econometrica 的有向/鲁棒方法),使用交叉拟合、增广 IPW(AIPW)或因果森林进行策略学习。所有这些工作都基于横截面 i.i.d. 数据大 N 面板数据

当前 frontier:将这一框架扩展到时间序列环境是一个自然但困难的方向,原因在于:(a) 动态因果效应——W_t 的影响可以跨期扩散,破坏了「单个体-单处理」的静态 SUTVA 假设;(b) 时间依赖性——数据不是 i.i.d. 的;(c) 非平稳性——因果效应可能随时间变化,给外部有效性带来挑战。

这场报告站在哪里:它试图将横截面 EWM 逻辑迁移到单变量时间序列(N=1,大 T)设定中,使用近年发展的潜在结果时间序列框架(Bojinov & Shephard, 2019 JASA; Rambachan & Shephard, 2021)来刻画动态因果关系,并提出 T-EWM(Time-series Empirical Welfare Maximization)。核心贡献:(1) 定义了在时间序列环境下的条件福利目标(基于 now-casting 而非历史平均);(2) 提出了假设——「福利排序不变性」(Invariance of Welfare Ordering)——来桥接历史平均福利与今日福利(解决了非平稳性下的外部有效性问题);(3) 在简化的一阶马尔可夫模型中,给出了福利遗憾的 O(1/√T) 上界。这场报告侧重概念框架和简化设定下的理论,实证部分(COVID-19 例子)作为演示。

讲者 Kitagawa 是这一方向的先驱之一(EWM 的提出者);合作者 Weining Wang (Groningen) 和 Mengshan Xu (Mannheim)。讨论者 Mikkel Plagborg-Moller (Princeton) 是时间序列计量经济学专家,提出了三个尖锐的开放问题(见第四节)。

二、最小内核 / 一个最简例子

符号与设定(基于讲者幻灯片 §15-16 的「一期马尔可夫模型」):

  • 时间索引:\( t = 0, 1, 2, \dots, T \)。Planner 在时期 \( T \) 的开始(今天)做出决策。
  • 观察到的二变量时间序列:\( X_t = (Y_t, W_t) \in \mathbb{R} \times \{0,1\} \),给定初始 \( X_0 \)
    • \( Y_t \):结果变量(如 GDP、失业率、死亡数)。
    • \( W_t \):处理/政策变量(二元,例如 "加息 vs. 不加息"、"封锁 vs. 放宽")。
  • 潜在结果(非预期性,Bojinov & Shephard 2019):对于每个 \( t \)\( Y_t(W_{0:t}) \) 只依赖于到 \( t \) 为止的处理路径(未来处理不影响),记为 \( Y_t(w_{0:t}) \)
  • 观测数据\( Y_t = Y_t(W_{0:t}) \)

假设(简化设定):一期马尔可夫模型 1. 马尔可夫排除\( Y_t(w_{0:t-2}, w_{t-1}, w_t) = Y_t(w'_{0:t-2}, w_{t-1}, w_t) \equiv Y_t(w_{t-1}, w_t) \)。即,今天的结果 \( Y_t \) 只依赖于昨天和今天的处理 \( (W_{t-1}, W_t) \),更久远的处理被排除。 2. 马尔可夫外生性(顺序可忽略性简化版):\( (Y_t(W_{t-1}, 1), Y_t(W_{t-1}, 0), W_t) \perp \text{past history} \mid W_{t-1} \)。即,给定昨天处理的条件下,今天的处理 \( W_t \) 与所有历史信息(包括今天的结果的未观测部分)独立。

Planner 的目标:选择一个今天的策略规则 \( g: (\text{past information}) \to \{0,1\} \),最大化条件福利(条件于到 T-1 为止的历史):

\[W_T(g \mid X_{0:T-1}) = \mathbb{E}\big[ Y_T(W_{0:T-1}, 1) \cdot g(X_{0:T-1}) + Y_T(W_{0:T-1}, 0) \cdot (1 - g(X_{0:T-1})) \mid X_{0:T-1} \big]\]

在马尔可夫假设下的简化:经过推导(见幻灯片 §16),可以证明: - 最优策略只需基于 \( W_{T-1} \)(而不是全部历史):\( g^* \in \{0,1\} \),即一个常数(条件于 \( W_{T-1} \) 的值)。 - 福利目标简化为:

\[W_T(g|W_{T-1}=w) = \mathbb{E}[Y_T(w, 1)|W_{T-1}=w] \cdot g + \mathbb{E}[Y_T(w, 0)|W_{T-1}=w] \cdot (1-g)\]
- 因此,最优策略是:如果 \( \mathbb{E}[Y_T(w,1)-Y_T(w,0)|W_{T-1}=w] > 0 \)\( g^*=1 \),否则 0。这是一个条件平均处理效应(CATE)规则

T-EWM 实现(最简形式:经验成功规则): 1. 数据:历史记录 \( \{ (Y_t, W_t) \}_{t=1}^{T-1} \)。 2. 分组:按 \( W_{t-1}=w \) 划分子集(给定 \( W_{T-1}=w \))。 3. 估计今日 CATE 的符号:用子集内的 IPW 估计量比较当前处理 \( W_t=1 \)\( W_t=0 \) 的历史平均结果:

\[\hat{\tau}(w) = \frac{1}{T(w)} \sum_{t:W_{t-1}=w} \left[ \frac{Y_t W_t}{e_t(W_{t-1})} - \frac{Y_t (1-W_t)}{1-e_t(W_{t-1})} \right]\]
其中 \( T(w) = |\{t:W_{t-1}=w\}| \)\( e_t(W_{t-1}) = \Pr(W_t=1 \mid W_{t-1}) \) 是倾向得分。 4. 策略决策:如果 \( \hat{\tau}(w) > 0 \),今天选择 \( W_T=1 \),否则 \( W_T=0 \)

理论结果(福利遗憾上界): 在福利排序不变性假设下,期望福利遗憾(与最优 \( g^* \) 相比)满足:

\[\mathbb{E}\left[ \max_{g\in\{0,1\}} W_T(g|W_{T-1}=w) - W_T(\hat{g}|W_{T-1}=w) \right] \leq \frac{C}{\sqrt{T(w)}}\]
其中 \( \hat{g} \) 由 T-EWM 得到。这与横截面 Manski CES 规则的 \( 1/\sqrt{n} \) 率相匹配。

三、报告主体:讲者讲了什么

[0:01:39] – 动机和一般设置 - 报告目标是连接因果推断与政策决策,特别是在宏观经济/金融领域(FOMC 利率决策、央行汇率干预、COVID 封锁政策)。 - 关键挑战:数据是单变量时间序列(大 T,N=1),有动态因果效应、非平稳性、统计依赖性。 - 提及 Lucas 批判(政策变化会改变经济主体行为,使历史数据失效),声明论文不解决这个问题,假设处理是未预期的冲击

[0:06:28] – 微观设定回顾(Manski 2004) - 一页幻灯片回顾:i.i.d. 个体,\( X_i, W_i, Y_i \),目标为最大化加性福利 \( W(g) = \mathbb{E}[Y(1)g(X) + Y(0)(1-g(X))] \)。 - Manski CES 规则:\( \hat{g}_{CES}(x) = 1\{\hat{\tau}(x) \ge 0\} \),其中 \( \hat{\tau}(x) \) 是样本均值的差。遗憾上界 \( C/\sqrt{n} \)

[0:08:23] – EWM(Kitagawa & Tetenov 2018) - 直接最大化经验福利 \( \hat{W}(g) = \frac{1}{n}\sum_i \left[ Y_iW_i/e(X_i) \cdot g(X_i) + Y_i(1-W_i)/(1-e(X_i)) \cdot (1-g(X_i)) \right] \) 在约束策略类 \( \mathcal{G} \)(VC 维 v)上。 - 遗憾上界 \( C\sqrt{\frac{v}{n}} \)。使用 Dudley 极大不等式。

[0:20:56] – 时间序列扩展:挑战和初步思路 - 列举 5 个挑战(见幻灯片 §9)。 - 提出潜在结果时间序列框架,引用 Angrist, Jordà, Kuersteiner (2018), Bojinov & Shephard (2019), Rambachan & Shephard (2021)。

[0:22:56] – 潜在结果时间序列定义 - 定义了非预期性(non-anticipating potential outcomes)和顺序可忽略性(sequential unconfoundedness),引用了相关论文。 - 与 SVAR/IRF 对比:PO 框架需要处理变量 \( W_t \) 可观测、允许多/潜在异质性、不强制线性 MA 表示。

[0:28:10] – 福利目标:条件福利 - 关键区别:时间序列中,福利是条件的(条件于 \( X_{0:T-1} \)),而不是横截面中的无条件概率。因为对未实现历史的平均没有意义。 - 表达式:\( W_T(g|X_{0:T-1}) = \mathbb{E}[Y_T(\text{history},1)g(X_{0:T-1}) + Y_T(\text{history},0)(1-g(X_{0:T-1}))|X_{0:T-1}] \)

[0:31:36] – 简化:一期马尔可夫模型(幻灯片 §15-16) - 假设 \( Y_t \) 只依赖 \( (W_{t-1}, W_t) \),且条件于 \( W_{t-1} \) 后无其他混淆。 - 结果:最优策略仅取决于 \( W_{T-1} \),且为一个常数(对每个 \( w \) 是常数)。 - 福利简化成 \( W_T(g|W_{T-1}=w) \)

[0:34:56] – T-EWM(时间序列经验成功规则)(幻灯片 §17) - 提出时间序列 CES 规则:按 \( W_{t-1}=w \) 分组,使用 IPW 平均估计历史福利,选取较大方法对应的 g。

[0:36:45] – 理论分析:鞅差序列(MDS)表示(幻灯片 §18-19) - 使用 Bojinov & Shephard 技巧:将 IPW 估计量分解为条件期望的样本平均\( \bar{W} \))+鞅差序列的平均\( \xi_{t,w}(g) \))。在马尔可夫外生性和顺序可忽略性下,\( \mathbb{E}[\xi_{t,w}(g)|\mathcal{F}_{t-1}] = 0 \),因此 \( \hat{W} - \bar{W} \) 是 MDS 的平均。这是核心的理论技巧:利用 MDS 的大偏差不等式来推导集中性。

[0:38:55] – 假设:福利排序不变性(幻灯片 §20) - 关键假设:存在常数 \( c>0 \) 使得对于所有 w 和 g:\( W_T(g^*|w) - W_T(g|w) \le c(\bar{W}(g^*|w) - \bar{W}(g|w)) \)。即,历史平均福利排序与今日福利排序一致。 - 比平稳性(welfare stationarity)更弱;对于一个线性 MA(2) 模型,它等价于当期和历史上的 CATE(即 \( \beta_t \))的符号一致。 - 核心作用:将今天的遗憾与历史福利差距(可被 MDS 中心化)关联起来。

[0:39:58] – 遗憾上界(幻灯片未完全展示) - 结合福利排序不变性和 MDS 集中结果,得到:

\[\mathbb{E}[\text{Regret}] \le \frac{C' \cdot (\text{bound on } Y_t)}{\sqrt{T(w)}}\]
其中 \( T(w) \)\( W_{t-1}=w \) 的样本数。率是 \( 1/\sqrt{T} \),与横截面相同。

[0:40:58] – 一般化(提纲,未详细展) - 增加条件集(纳入 Y_t, Z_t 等),增加自回归阶数。这将需要 EWM 在更高维策略类上的应用,而不仅仅是 CES 规则。使用无条件福利(对所有历史平均)进行 EWM,并在福利排序不变性假设的推广下推导遗憾。细节未展开,因时间有限。

[0:42:26] – 经验举例:COVID-19 封锁政策 - 数据:美国 COVID 时间序列(病例、死亡、政策严格指数、经济活动指数、疫苗接种率)。 - 处理 \( W_t \):政策严格指数变化方向(放宽=0,维持/收紧=1),通过二元化处理。 - 结果 \( Y_t \):负的两周后死亡人数(以福利负向指标)。 - 采用简单逻辑回归估计倾向得分 \( e_t \)。 - 结果:通过 T-EWM 得出一个关于“死亡变化(lagged)”和“前一周期政策严格指数(W_{t-1})”两个协变量的决策规则(决策区域示意图)。

[0:46:01] – 与现有文献对比 - 与回顾性因果推断(如 Bojinov & Shephard, Rambachan & Shephard)对比:该文是前瞻性(forward-looking)政策选择,而非事后分析。 - 与横截面 EWM 对比:该文处理的是单时间序列(N=1,大 T)。 - 与时间序列 ERM(预测)对比:该文是因果政策选择,而非预测。

[0:47:42] – 总结与未来工作 - 建立框架,证明了下界结果。CES 规则可以扩展;EWM 可以扩展(但未讨论细节)。 - 未来工作:将该框架与结构化宏观模型(如 DSGE)联系起来。

四、对应论文与开放问题

对应论文

  • 论文标题:Policy Choice in Time Series by Empirical Welfare Maximization
  • 作者:Toru Kitagawa, Weining Wang, Mengshan Xu
  • arXiv ID:2205.03970 (基于用户提供的元信息和幻灯片中的引用,可以确认)

开放问题(基于讨论者 Plagborg-Moller 和讲者的回应,扎根于转写)

  1. 如何结合参数化模型提高效率? [讨论者 Mikkel, 0:51:00-0:53:30]

    • 扎根:Mikkel 指出,在时间序列 N=1 大 T 环境下,严格非参数方法可能低效。他建议引入一个“合理的参数化结果模型 M”,通过 (a) 增广 IPW(AIPW)(类似 Athey & Wager 2021)来实现对倾向得分误设的鲁棒性和方差降低,或 (b) 将参数模型隐含的策略建议作为 EWM 算法中的协变量/先验。讲者回应([1:00:21])承认这是一个有趣的开放问题,并指出在参数化假设下的 AIPW 效率增益目前未知。
  2. 如何处理非平稳性?加权 vs. 均匀平均历史数据 [讨论者 Mikkel, 0:53:30-0:57:00]

    • 扎根:面对结构变化(如 Lucas 批判),Mikkel 质疑均匀加权所有历史观测的合理性。他建议使用指数平滑或更一般的加权方案,以在平稳性假设被违反时(通过显式参数化结构变化的程度)获得更好的最坏情况效率。讲者([1:01:12])立即承认这是一个很好的观点,但论文中未实现。
  3. 遗憾界如何依赖于时间序列依赖性和滞后阶数 Q? [讨论者 Mikkel, 0:57:00-0:59:40]

    • 扎根:Mikkel 指出,论文中马尔可夫排除假设的阶数 Q 在实际中很可能 >1(例如,货币政策有长且可变的滞后)。他敦促作者更明确地说明遗憾界如何依赖于 (a) Q 本身(是否只是增加了协变量维度?)以及 (b) 潜在的内在时间序列依赖性(如自相关)。讲者([1:01:40])表示正在研究中,但不确定是否会包含在本文或后续工作中。
  4. 如何应对 Lucas 批判? [讨论者 Mikkel, 0:53:30-0:55:00]

    • 扎根:讲者声明([0:20:05])框架假设处理是“未预期的冲击”,从而不处理 Lucas 批判。但讨论者正确地指出,如果今天采用 T-EWM 得出的新策略,经济主体将预期到未来类似策略,从而改变他们的行为,使历史数据更不可靠。这是一个本文尚未触及的核心概念问题。
  5. EWM 在更一般设定下的具体实现和理论保证 [讲者, 0:40:58]

    • 扎根:讲者提到,当滞后阶数增加且条件集更丰富时,简单 CES 规则不再可行,需要使用 EWM 在更高维策略类上求解。但时间不允许展开讲。这是一个直接的扩展问题:当策略类具有更高 VC 维时,遗憾界是什么?如何在计算上求解?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论