Policy Choice in Time-Series by Empirical Welfare Maximization¶

讲者: Toru Kitagawa
讨论人: Mikkel Plagborg-Moller
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-10-29
主题: 因果推断
视频: https://youtu.be/PTY8O-6lbY4 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2205.03970 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这条工作线是 「统计处理选择 / 政策学习」（Statistical Treatment Choice / Policy Learning），属于因果推断与统计决策理论的交叉领域。其基本问题：给定历史数据（实验性或观察性），如何学习一个从协变量到处理分配的规则（policy rule），使得该规则在未来实施时的福利（welfare）最大化。奠基工作是 Manski (2004, Econometrica)，他提出了「条件经验成功规则」（CES rule，即当估计的条件平均处理效应为正时分配处理），并给出了遗憾（regret）的 O(1/√n) 上界。

主流路线分为两股：(1) 以 Kitagawa & Tetenov (2018, Econometrica) 为代表的 经验福利最大化（EWM），通过在受限策略类（如线性阈值规则）上直接最大化 IPW 经验福利来学习策略，遗憾率由策略类的 VC 维控制；(2) 统计学习/机器学习路线（如 Athey & Wager 2021, Econometrica 的有向/鲁棒方法），使用交叉拟合、增广 IPW（AIPW）或因果森林进行策略学习。所有这些工作都基于横截面 i.i.d. 数据或大 N 面板数据。

当前 frontier：将这一框架扩展到时间序列环境是一个自然但困难的方向，原因在于：(a) 动态因果效应——W_t 的影响可以跨期扩散，破坏了「单个体-单处理」的静态 SUTVA 假设；(b) 时间依赖性——数据不是 i.i.d. 的；(c) 非平稳性——因果效应可能随时间变化，给外部有效性带来挑战。

这场报告站在哪里：它试图将横截面 EWM 逻辑迁移到单变量时间序列（N=1，大 T）设定中，使用近年发展的潜在结果时间序列框架（Bojinov & Shephard, 2019 JASA; Rambachan & Shephard, 2021）来刻画动态因果关系，并提出 T-EWM（Time-series Empirical Welfare Maximization）。核心贡献：(1) 定义了在时间序列环境下的条件福利目标（基于 now-casting 而非历史平均）；(2) 提出了假设——「福利排序不变性」（Invariance of Welfare Ordering）——来桥接历史平均福利与今日福利（解决了非平稳性下的外部有效性问题）；(3) 在简化的一阶马尔可夫模型中，给出了福利遗憾的 O(1/√T) 上界。这场报告侧重概念框架和简化设定下的理论，实证部分（COVID-19 例子）作为演示。

讲者 Kitagawa 是这一方向的先驱之一（EWM 的提出者）；合作者 Weining Wang (Groningen) 和 Mengshan Xu (Mannheim)。讨论者 Mikkel Plagborg-Moller (Princeton) 是时间序列计量经济学专家，提出了三个尖锐的开放问题（见第四节）。

二、最小内核 / 一个最简例子¶

符号与设定（基于讲者幻灯片 §15-16 的「一期马尔可夫模型」）：

时间索引：\( t = 0, 1, 2, \dots, T \)。Planner 在时期 \( T \) 的开始（今天）做出决策。
观察到的二变量时间序列：\( X_t = (Y_t, W_t) \in \mathbb{R} \times \{0,1\} \)，给定初始 \( X_0 \)。
- \( Y_t \)：结果变量（如 GDP、失业率、死亡数）。
- \( W_t \)：处理/政策变量（二元，例如 "加息 vs. 不加息"、"封锁 vs. 放宽"）。
潜在结果（非预期性，Bojinov & Shephard 2019）：对于每个 \( t \)，\( Y_t(W_{0:t}) \) 只依赖于到 \( t \) 为止的处理路径（未来处理不影响），记为 \( Y_t(w_{0:t}) \)。
观测数据：\( Y_t = Y_t(W_{0:t}) \)。

假设（简化设定）：一期马尔可夫模型 1. 马尔可夫排除：\( Y_t(w_{0:t-2}, w_{t-1}, w_t) = Y_t(w'_{0:t-2}, w_{t-1}, w_t) \equiv Y_t(w_{t-1}, w_t) \)。即，今天的结果 \( Y_t \) 只依赖于昨天和今天的处理 \( (W_{t-1}, W_t) \)，更久远的处理被排除。 2. 马尔可夫外生性（顺序可忽略性简化版）：\( (Y_t(W_{t-1}, 1), Y_t(W_{t-1}, 0), W_t) \perp \text{past history} \mid W_{t-1} \)。即，给定昨天处理的条件下，今天的处理 \( W_t \) 与所有历史信息（包括今天的结果的未观测部分）独立。

Planner 的目标：选择一个今天的策略规则 \( g: (\text{past information}) \to \{0,1\} \)，最大化条件福利（条件于到 T-1 为止的历史）：

\[W_T(g \mid X_{0:T-1}) = \mathbb{E}\big[ Y_T(W_{0:T-1}, 1) \cdot g(X_{0:T-1}) + Y_T(W_{0:T-1}, 0) \cdot (1 - g(X_{0:T-1})) \mid X_{0:T-1} \big]\]

在马尔可夫假设下的简化：经过推导（见幻灯片 §16），可以证明： - 最优策略只需基于 \( W_{T-1} \)（而不是全部历史）：\( g^* \in \{0,1\} \)，即一个常数（条件于 \( W_{T-1} \) 的值）。 - 福利目标简化为：

\[W_T(g|W_{T-1}=w) = \mathbb{E}[Y_T(w, 1)|W_{T-1}=w] \cdot g + \mathbb{E}[Y_T(w, 0)|W_{T-1}=w] \cdot (1-g)\]

- 因此，最优策略是：如果 \( \mathbb{E}[Y_T(w,1)-Y_T(w,0)|W_{T-1}=w] > 0 \) 则 \( g^*=1 \)，否则 0。这是一个条件平均处理效应（CATE）规则。

T-EWM 实现（最简形式：经验成功规则）： 1. 数据：历史记录 \( \{ (Y_t, W_t) \}_{t=1}^{T-1} \)。 2. 分组：按 \( W_{t-1}=w \) 划分子集（给定 \( W_{T-1}=w \)）。 3. 估计今日 CATE 的符号：用子集内的 IPW 估计量比较当前处理 \( W_t=1 \) 和 \( W_t=0 \) 的历史平均结果：

\[\hat{\tau}(w) = \frac{1}{T(w)} \sum_{t:W_{t-1}=w} \left[ \frac{Y_t W_t}{e_t(W_{t-1})} - \frac{Y_t (1-W_t)}{1-e_t(W_{t-1})} \right]\]

其中 \( T(w) = |\{t:W_{t-1}=w\}| \)，\( e_t(W_{t-1}) = \Pr(W_t=1 \mid W_{t-1}) \) 是倾向得分。 4. 策略决策：如果 \( \hat{\tau}(w) > 0 \)，今天选择 \( W_T=1 \)，否则 \( W_T=0 \)。

理论结果（福利遗憾上界）：在福利排序不变性假设下，期望福利遗憾（与最优 \( g^* \) 相比）满足：

\[\mathbb{E}\left[ \max_{g\in\{0,1\}} W_T(g|W_{T-1}=w) - W_T(\hat{g}|W_{T-1}=w) \right] \leq \frac{C}{\sqrt{T(w)}}\]

其中 \( \hat{g} \) 由 T-EWM 得到。这与横截面 Manski CES 规则的 \( 1/\sqrt{n} \) 率相匹配。

三、报告主体：讲者讲了什么¶

[0:01:39] – 动机和一般设置 - 报告目标是连接因果推断与政策决策，特别是在宏观经济/金融领域（FOMC 利率决策、央行汇率干预、COVID 封锁政策）。 - 关键挑战：数据是单变量时间序列（大 T，N=1），有动态因果效应、非平稳性、统计依赖性。 - 提及 Lucas 批判（政策变化会改变经济主体行为，使历史数据失效），声明论文不解决这个问题，假设处理是未预期的冲击。

[0:06:28] – 微观设定回顾（Manski 2004） - 一页幻灯片回顾：i.i.d. 个体，\( X_i, W_i, Y_i \)，目标为最大化加性福利 \( W(g) = \mathbb{E}[Y(1)g(X) + Y(0)(1-g(X))] \)。 - Manski CES 规则：\( \hat{g}_{CES}(x) = 1\{\hat{\tau}(x) \ge 0\} \)，其中 \( \hat{\tau}(x) \) 是样本均值的差。遗憾上界 \( C/\sqrt{n} \)。

[0:08:23] – EWM（Kitagawa & Tetenov 2018） - 直接最大化经验福利 \( \hat{W}(g) = \frac{1}{n}\sum_i \left[ Y_iW_i/e(X_i) \cdot g(X_i) + Y_i(1-W_i)/(1-e(X_i)) \cdot (1-g(X_i)) \right] \) 在约束策略类 \( \mathcal{G} \)（VC 维 v）上。 - 遗憾上界 \( C\sqrt{\frac{v}{n}} \)。使用 Dudley 极大不等式。

[0:20:56] – 时间序列扩展：挑战和初步思路 - 列举 5 个挑战（见幻灯片 §9）。 - 提出潜在结果时间序列框架，引用 Angrist, Jordà, Kuersteiner (2018), Bojinov & Shephard (2019), Rambachan & Shephard (2021)。

[0:22:56] – 潜在结果时间序列定义 - 定义了非预期性（non-anticipating potential outcomes）和顺序可忽略性（sequential unconfoundedness），引用了相关论文。 - 与 SVAR/IRF 对比：PO 框架需要处理变量 \( W_t \) 可观测、允许多/潜在异质性、不强制线性 MA 表示。

[0:28:10] – 福利目标：条件福利 - 关键区别：时间序列中，福利是条件的（条件于 \( X_{0:T-1} \)），而不是横截面中的无条件概率。因为对未实现历史的平均没有意义。 - 表达式：\( W_T(g|X_{0:T-1}) = \mathbb{E}[Y_T(\text{history},1)g(X_{0:T-1}) + Y_T(\text{history},0)(1-g(X_{0:T-1}))|X_{0:T-1}] \)。

[0:31:36] – 简化：一期马尔可夫模型（幻灯片 §15-16） - 假设 \( Y_t \) 只依赖 \( (W_{t-1}, W_t) \)，且条件于 \( W_{t-1} \) 后无其他混淆。 - 结果：最优策略仅取决于 \( W_{T-1} \)，且为一个常数（对每个 \( w \) 是常数）。 - 福利简化成 \( W_T(g|W_{T-1}=w) \)。

[0:34:56] – T-EWM（时间序列经验成功规则）（幻灯片 §17） - 提出时间序列 CES 规则：按 \( W_{t-1}=w \) 分组，使用 IPW 平均估计历史福利，选取较大方法对应的 g。

[0:36:45] – 理论分析：鞅差序列（MDS）表示（幻灯片 §18-19） - 使用 Bojinov & Shephard 技巧：将 IPW 估计量分解为条件期望的样本平均（\( \bar{W} \)）+鞅差序列的平均（\( \xi_{t,w}(g) \)）。在马尔可夫外生性和顺序可忽略性下，\( \mathbb{E}[\xi_{t,w}(g)|\mathcal{F}_{t-1}] = 0 \)，因此 \( \hat{W} - \bar{W} \) 是 MDS 的平均。这是核心的理论技巧：利用 MDS 的大偏差不等式来推导集中性。

[0:38:55] – 假设：福利排序不变性（幻灯片 §20） - 关键假设：存在常数 \( c>0 \) 使得对于所有 w 和 g：\( W_T(g^*|w) - W_T(g|w) \le c(\bar{W}(g^*|w) - \bar{W}(g|w)) \)。即，历史平均福利排序与今日福利排序一致。 - 比平稳性（welfare stationarity）更弱；对于一个线性 MA(2) 模型，它等价于当期和历史上的 CATE（即 \( \beta_t \)）的符号一致。 - 核心作用：将今天的遗憾与历史福利差距（可被 MDS 中心化）关联起来。

[0:39:58] – 遗憾上界（幻灯片未完全展示） - 结合福利排序不变性和 MDS 集中结果，得到：

\[\mathbb{E}[\text{Regret}] \le \frac{C' \cdot (\text{bound on } Y_t)}{\sqrt{T(w)}}\]

其中 \( T(w) \) 是 \( W_{t-1}=w \) 的样本数。率是 \( 1/\sqrt{T} \)，与横截面相同。

[0:40:58] – 一般化（提纲，未详细展） - 增加条件集（纳入 Y_t, Z_t 等），增加自回归阶数。这将需要 EWM 在更高维策略类上的应用，而不仅仅是 CES 规则。使用无条件福利（对所有历史平均）进行 EWM，并在福利排序不变性假设的推广下推导遗憾。细节未展开，因时间有限。

[0:42:26] – 经验举例：COVID-19 封锁政策 - 数据：美国 COVID 时间序列（病例、死亡、政策严格指数、经济活动指数、疫苗接种率）。 - 处理 \( W_t \)：政策严格指数变化方向（放宽=0，维持/收紧=1），通过二元化处理。 - 结果 \( Y_t \)：负的两周后死亡人数（以福利负向指标）。 - 采用简单逻辑回归估计倾向得分 \( e_t \)。 - 结果：通过 T-EWM 得出一个关于“死亡变化（lagged）”和“前一周期政策严格指数（W_{t-1}）”两个协变量的决策规则（决策区域示意图）。

[0:46:01] – 与现有文献对比 - 与回顾性因果推断（如 Bojinov & Shephard, Rambachan & Shephard）对比：该文是前瞻性（forward-looking）政策选择，而非事后分析。 - 与横截面 EWM 对比：该文处理的是单时间序列（N=1，大 T）。 - 与时间序列 ERM（预测）对比：该文是因果政策选择，而非预测。

[0:47:42] – 总结与未来工作 - 建立框架，证明了下界结果。CES 规则可以扩展；EWM 可以扩展（但未讨论细节）。 - 未来工作：将该框架与结构化宏观模型（如 DSGE）联系起来。

四、对应论文与开放问题¶

对应论文¶

论文标题：Policy Choice in Time Series by Empirical Welfare Maximization
作者：Toru Kitagawa, Weining Wang, Mengshan Xu
arXiv ID：2205.03970 （基于用户提供的元信息和幻灯片中的引用，可以确认）

开放问题（基于讨论者 Plagborg-Moller 和讲者的回应，扎根于转写）¶

如何结合参数化模型提高效率？ [讨论者 Mikkel, 0:51:00-0:53:30]
- 扎根：Mikkel 指出，在时间序列 N=1 大 T 环境下，严格非参数方法可能低效。他建议引入一个“合理的参数化结果模型 M”，通过 (a) 增广 IPW（AIPW）（类似 Athey & Wager 2021）来实现对倾向得分误设的鲁棒性和方差降低，或 (b) 将参数模型隐含的策略建议作为 EWM 算法中的协变量/先验。讲者回应（[1:00:21]）承认这是一个有趣的开放问题，并指出在参数化假设下的 AIPW 效率增益目前未知。
如何处理非平稳性？加权 vs. 均匀平均历史数据 [讨论者 Mikkel, 0:53:30-0:57:00]
- 扎根：面对结构变化（如 Lucas 批判），Mikkel 质疑均匀加权所有历史观测的合理性。他建议使用指数平滑或更一般的加权方案，以在平稳性假设被违反时（通过显式参数化结构变化的程度）获得更好的最坏情况效率。讲者（[1:01:12]）立即承认这是一个很好的观点，但论文中未实现。
遗憾界如何依赖于时间序列依赖性和滞后阶数 Q？ [讨论者 Mikkel, 0:57:00-0:59:40]
- 扎根：Mikkel 指出，论文中马尔可夫排除假设的阶数 Q 在实际中很可能 >1（例如，货币政策有长且可变的滞后）。他敦促作者更明确地说明遗憾界如何依赖于 (a) Q 本身（是否只是增加了协变量维度？）以及 (b) 潜在的内在时间序列依赖性（如自相关）。讲者（[1:01:40]）表示正在研究中，但不确定是否会包含在本文或后续工作中。
如何应对 Lucas 批判？ [讨论者 Mikkel, 0:53:30-0:55:00]
- 扎根：讲者声明（[0:20:05]）框架假设处理是“未预期的冲击”，从而不处理 Lucas 批判。但讨论者正确地指出，如果今天采用 T-EWM 得出的新策略，经济主体将预期到未来类似策略，从而改变他们的行为，使历史数据更不可靠。这是一个本文尚未触及的核心概念问题。
EWM 在更一般设定下的具体实现和理论保证 [讲者, 0:40:58]
- 扎根：讲者提到，当滞后阶数增加且条件集更丰富时，简单 CES 规则不再可行，需要使用 EWM 在更高维策略类上求解。但时间不允许展开讲。这是一个直接的扩展问题：当策略类具有更高 VC 维时，遗憾界是什么？如何在计算上求解？

Maintained by 陈星宇 · Homepage · Source on GitHub