Minimax designs for causal effects in temporal experiments with treatment habituation¶

作者: Guillaume W Basse, Yi Ding, Panos Toulis
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向研究的是带有时间维度的因果推断实验设计问题，核心在于：当干预（treatment）跨越多个时间点施加于同一批实验单元时，如何通过分配机制（设计）来最优地估计因果效应。当前该方向的成熟度处于"框架已建立、特定结构的非参数最优设计刚被证明"的阶段——时间序列的随机化框架在2010年代中期落地，但针对"习惯化"（habituation）等特定时间异质性结构的最优设计理论直到本文才给出 minimax 界。

发展脉络： - 奠基工作：Neyman (1923) 与 Rubin (1974) 建立了潜在结果框架，但主要针对单时间点截面实验。Bojinov & Shephard (2019)（前身为2017工作论文）将此框架正式扩展到时间序列交叉实验，定义了随时间变化的潜在结果 \(Y_{it}(w)\)，并给出了基于随机化机制的精确检验与保守置信区间。留下的口子：他们只解决了"给定设计下如何做推断"，没有回答"在所有可能设计中，哪个设计最优"。 - 主要进展（应用驱动）：在临床与公共卫生领域，Stepped wedge designs（阶梯楔形设计）被广泛用于必须分阶段滚出干预的场景（Brown & Lilford 2006; Prost et al. 2015; Hargreaves et al. 2015）。这些文献主要从伦理、物流与可行性角度论证楔形设计的合理性，留下的口子：缺乏从统计效率（均方误差）角度对设计最优性的严格理论刻画。在科技行业，Yan et al. (2019) 在 LinkedIn 上通过不同广告密度的随机化桶实验测量短期与长期效应，发现长期效应远小于短期，留下的口子：实验设计是经验性的，没有理论保证。 - 当前 frontier 与本文位置：本文 Basse, Ding & Toulis (202X) 直接填补了 Bojinov & Shephard 留下的设计最优性口子，且针对的是"习惯化衰减"这一具体时间结构——在随机化框架下，不施加参数模型假设，证明了一类设计在所有实际相关的设计类中 minimax 最优。

子线索聚类： 1. 随机化推断框架线（Neyman 1923 → Rubin 1974 → Bojinov & Shephard 2019）：定义时间序列潜在结果，基于设计本身的随机化做精确检验与渐近推断，不依赖参数模型。本文完全在此线上。 2. 阶梯楔形设计线（Brown & Lilford 2006 → Prost et al. 2015 → Hargreaves et al. 2015）：从伦理与物流角度推广分阶段滚出设计，关注 carry-over 效应的定性警告，但未给出定量的最优性界。 3. 科技平台长效实验线（Yan et al. 2019 等）：用随机化桶实验测量干预的长期衰减，经验性地发现习惯化现象，设计选择基于工程直觉而非统计理论。

这个方向在追问的核心问题： 1. 如何定义时间序列实验中的因果 estimand？ 当潜在结果随时间与整个分配路径变化时，哪个平均效应是科学上有意义的？（当前主流：定义在特定分配路径上的时间平均效应，或特定时间点的效应。） 2. 在给定 estimand 下，哪个随机化设计使估计的均方误差最小？ 即 minimax 设计是什么？（当前瓶颈：截面实验的 minimax 设计已知；时间序列实验因潜在结果的维度爆炸与时间异质性，最优设计长期未解。） 3. 如何处理习惯化 / carry-over？ 即干预的历史路径如何影响当前结果？（当前瓶颈：楔形设计文献定性承认 carry-over，但未将其结构化地嵌入设计优化；本文首次将"习惯化衰减"结构化并据此优化设计。）

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"现有时间序列实验设计（如楔形设计）缺乏统计最优性理论，且忽略了习惯化这一普遍现象"，从而让本文的"针对习惯化的 minimax 设计"成为"显然的下一步"。 - 被淡化或回避的竞争路线：基于参数模型（如混合效应模型）的设计优化路线在临床统计中很常见（如 Hussey & Hughes 2007 等），但 intro 中未引也未讨论——作者刻意强调"无参数假设"来凸显自己的非参数路线。 - 明显该被引却未出现的：Kallus (2018) "Optimal design of randomized experiments"——该文在截面实验下用 minimax 框架比较了完全随机化与配对设计的最优性，是本文 minimax 思路最直接的前身，intro 未引。Atkinson & Fedorov 等最优实验设计的经典序列文献也未出现。这两条是研究者值得去查的缺口。

张力：未见明显对立引用。各线索在不同设定下做不同事，结论不直接矛盾。但存在一个隐含张力：楔形设计文献声称"分阶段滚出在伦理与物流上最优"，而本文的 minimax 结果可能暗示在某些习惯化结构下，楔形设计在统计效率上并非最优——这需要研究者去核对本文定理对楔形设计的具体评判。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(\tau\)：本文要估的因果效应。定义为"在特定分配路径下，干预与对照的潜在结果之差的时间平均"（具体定义见第三节）。
随机变量 / 样本：
\(n\)：实验单元（units）数量，\(i=1,\dots,n\)。
\(T\)：时间点数量，\(t=1,\dots,T\)。
\(W_i\)：单元 \(i\) 的分配路径（treatment path），是一个 \(T\) 维向量 \((W_{i1}, \dots, W_{iT})\)，每个分量取值在 \(\{0,1\}\)（0=对照，1=干预）。
\(Y_{it}(w)\)：单元 \(i\) 在时间 \(t\)、分配路径为 \(w\) 时的潜在结果（potential outcome）。注意：\(w\) 是整个 \(T\) 维路径，不是单点干预值——这体现了 carry-over / 习惯化。
\(Y_{it}\)：单元 \(i\) 在时间 \(t\) 的观测结果，等于 \(Y_{it}(W_i)\)。
维数 / 样本量指标：
\(n\)（单元数），\(T\)（时间点数），\(2^T\)（可能的分配路径总数）。
潜在 / 不可观测量：
对每个单元 \(i\)，我们只观测到一条路径 \(W_i\) 下的潜在结果序列 \((Y_{i1}(W_i), \dots, Y_{iT}(W_i))\)。其余 \(2^T - 1\) 条路径下的潜在结果永远不可观测——这是因果推断的根本缺失数据问题。
模型：
数据生成机制：对每个单元 \(i\)，大自然给定一个函数 \(Y_i: \{0,1\}^T \to \mathbb{R}^T\)（将任意分配路径映射到结果序列）。这个函数完全任意（非参数），唯一结构是下面要讲的"习惯化假设"。研究者通过设计 \(\pi\) 随机分配 \(W_i \sim \pi\)，然后观测 \(Y_{it} = Y_{it}(W_i)\)。
可观测数据：
对每个单元 \(i\)，观测到 \((W_i, Y_{i1}, \dots, Y_{iT})\)。其中 \(W_i\) 由设计 \(\pi\) 生成（可观测且分布已知），\(Y_{it}\) 是对应路径的潜在结果（可观测）。不可观测的是其他路径下的潜在结果。

第二步：最小内核——最简特例 \(T=2\)，\(n\) 足够大

把一般 \(T\) 剥掉，取 \(T=2\)（只有两个时间点）。此时分配路径只有 4 种：\((0,0), (0,1), (1,0), (1,1)\)。潜在结果有 4 个：\(Y_{i1}(00), Y_{i1}(01), Y_{i1}(10), Y_{i1}(11), Y_{i2}(00), Y_{i2}(01), Y_{i2}(10), Y_{i2}(11)\)。

习惯化假设的最简形式：干预效应在首次暴露时最大，第二次暴露时衰减。具体： - 在 \(t=1\)，若受干预（\(W_{i1}=1\)），效应为 \(\delta_1\)（无论 \(t=2\) 是什么，因为 \(t=2\) 还没发生）。 - 在 \(t=2\)，若首次受干预（\(W_{i2}=1\) 且 \(W_{i1}=0\)，即路径 \((0,1)\)），效应为 \(\delta_2^{\text{fresh}}\)；若第二次受干预（\(W_{i2}=1\) 且 \(W_{i1}=1\)，即路径 \((1,1)\)），效应衰减为 \(\delta_2^{\text{habit}} < \delta_2^{\text{fresh}}\)。

要估的 estimand（最简）：定义 \(\tau\) 为"在所有时间点上，首次暴露于干预的平均效应"的时间平均。在 \(T=2\) 下，这涉及路径 \((0,1)\) 在 \(t=2\) 的效应与路径 \((1,0)\) 在 \(t=1\) 的效应的组合。

估计量：用样本均值差估 \(\tau\)。例如，用路径 \((0,1)\) 组在 \(t=2\) 的观测均值减路径 \((0,0)\) 组在 \(t=2\) 的观测均值，估"首次暴露在 \(t=2\) 的效应"；用路径 \((1,0)\) 组在 \(t=1\) 的观测均值减路径 \((0,0)\) 组在 \(t=1\) 的观测均值，估"首次暴露在 \(t=1\) 的效应"。

设计问题：在 4 种路径上分配多少单元？设 \(\pi_{00}, \pi_{01}, \pi_{10}, \pi_{11}\) 为各路径的分配比例。习惯化意味着路径 \((1,1)\) 对估 \(\tau\) 的信息量低（因为 \(t=2\) 的效应已衰减），但完全不给 \((1,1)\) 分配单元又可能损失 \(t=1\) 的信息。

Minimax 问题：在所有可能的 \(\pi\)（满足 \(\sum \pi_w = 1\)）中，找 \(\pi^*\) 使得估计量 \(\hat{\tau}\) 的最坏情形均方误差 \(\sup_{Y \in \mathcal{H}} \text{MSE}(\hat{\tau}, \tau; \pi)\) 最小，其中 \(\mathcal{H}\) 是满足习惯化结构的潜在结果函数类。

最小内核的直觉解：minimax 设计会把更多单元分配到"首次暴露"路径 \((0,1)\) 和 \((1,0)\)，减少"重复暴露"路径 \((1,1)\) 的分配——因为习惯化使 \((1,1)\) 在 \(t=2\) 的效应偏离我们要估的"首次效应"，引入偏差或增大方差。最优比例的具体值取决于习惯化衰减的速率与潜在结果的方差结构，但 minimax 框架下最坏情形的优化会给出一个与衰减参数无关的鲁棒比例。这就是本文在一般 \(T\) 下所做之事的 \(T=2\) 版本。

三、这篇论文做了什么¶

三句话： ①研究了在时间序列实验中，当干预效应因习惯化而随重复暴露衰减时，如何设计随机化分配以最优地估计平均因果效应。 ②核心工具是随机化因果推断框架 + minimax 设计理论，不依赖参数模型。 ③主要结论是提出了一类随机化设计，并在所有满足特定单调性约束的设计类中证明了其 minimax 最优性（最坏情形 MSE 最小）。

关键设定与假设：

在第二节最小记号基础上补全：

Estimand 的正式定义：\(\tau = \frac{1}{T} \sum_{t=1}^T \left( \mathbb{E}[Y_{it}(w_t^{\text{fresh}})] - \mathbb{E}[Y_{it}(w_t^{\text{control}})] \right)\)，其中 \(w_t^{\text{fresh}}\) 是"在时间 \(t\) 首次暴露于干预"的分配路径，\(w_t^{\text{control}}\) 是"始终对照"的路径 \((0,\dots,0)\)。具体地，\(w_t^{\text{fresh}}\) 的前 \(t-1\) 个时间点为 0，第 \(t\) 个为 1，之后任意（或为 0，取决于定义细节）。这个 estimand 度量的是"首次接触干预的瞬时效应"的时间平均。
设计类 \(\Pi\)：所有随机化分配机制 \(\pi: \{0,1\}^T \to [0,1]\)，满足 \(\sum_w \pi(w) = 1\)。本文进一步限制到满足实际约束的设计子类——例如，每个时间点的干预比例有上下界（对应平台不能在某时间点全量或零量推送干预）。
习惯化假设（Habituation assumption）：潜在结果函数 \(Y_i\) 满足：对任意时间 \(t\)，若单元在 \(t\) 之前已暴露于干预，则在 \(t\) 的干预效应小于或等于首次暴露时的效应。形式化：\(Y_{it}(w) - Y_{it}(w') \leq Y_{it}(w^{\text{fresh}}_t) - Y_{it}(0,\dots,0)\)，其中 \(w\) 在 \(t\) 及之前有干预、\(w'\) 在 \(t\) 无干预。这是一个单调性约束，不规定衰减的具体函数形式，只规定方向。
潜在结果的方差结构：假设各路径下潜在结果的方差有界，且不同单元间独立。不假设同方差——不同路径的方差可以不同。
与已有文献的对比：相比 Bojinov & Shephard (2019)，本文增加了习惯化假设与 minimax 目标；相比楔形设计文献，本文不假设参数混合效应模型，且以 MSE 最优而非伦理/物流为目标；相比 Kallus (2018)（未引），本文从截面扩展到时间序列且引入习惯化结构。

主要结果：

定理 1（Minimax 最优性）：在满足实际约束的设计类 \(\Pi\) 中，本文提出的设计 \(\pi^*\) 使得估计量 \(\hat{\tau}\) 的最坏情形均方误差 \(\sup_{Y \in \mathcal{H}} \text{MSE}(\hat{\tau}, \tau; \pi^*)\) 达到该类中的最小值。
直觉：\(\pi^*\) 在"首次暴露路径"与"对照路径"之间平衡分配，使得这两类路径的样本量足够大以控制方差，同时最小化"重复暴露路径"的分配以避免习惯化带来的偏差混杂。
必要条件：习惯化单调性假设 \(\mathcal{H}\)；设计类 \(\Pi\) 的约束（干预比例上下界）；潜在结果方差有界。
解决的技术难点：在 \(2^T\) 维潜在结果空间中，最坏情形 MSE 的优化通常是组合爆炸的。习惯化单调性将最坏情形缩减到边界情形（极端衰减），使优化可解。
定理 2（MSE 界的具体形式）：给出了 \(\pi^*\) 下最坏情形 MSE 的显式上界，以及任意 \(\pi \in \Pi\) 下最坏情形 MSE 的下界，两者匹配（至常数因子），确认 minimax rate。
直觉：MSE 的 rate 由"首次暴露路径"的样本量决定，约为 \(O(1/n_{\text{fresh}})\)，其中 \(n_{\text{fresh}}\) 是分配到首次暴露路径的单元数。\(\pi^*\) 在约束下最大化 \(n_{\text{fresh}}\)。
推论（与楔形设计的对比）：在特定约束下，楔形设计（所有单元最终都收到干预，只是时间不同）的最坏情形 MSE 可以比 \(\pi^*\) 大一个与 \(T\) 相关的因子——因为楔形设计在后期时间点强制分配干预，产生大量"重复暴露"单元，对估 \(\tau\) 无益甚至有害。

证明路线与技术技巧：

整体路线（5 步）：
定义 estimand 与估计量：在随机化框架下，\(\tau\) 是潜在结果均值之差；\(\hat{\tau}\) 是样本均值差（按路径分组）。
分解 MSE：\(\text{MSE} = \text{Bias}^2 + \text{Variance}\)。在随机化框架下，\(\hat{\tau}\) 对 \(\tau\) 是无偏的（若设计对所有相关路径都分配了正比例单元）；但若设计对某些路径分配比例为 0，则可能引入偏差。习惯化假设下，偏差的来源是"重复暴露路径的效应被误当作首次效应"。
求最坏情形 MSE：在 \(\mathcal{H}\)（习惯化单调性）下，最坏情形的潜在结果使偏差达到最大（衰减到极端），方差也达到最大（方差参数取上界）。单调性使最坏情形是边界点，无需搜索整个 \(2^T\) 维空间。
优化设计：在最坏情形 MSE 的显式表达式上，对 \(\pi\) 做优化。这是一个有限维凸优化问题（MSE 表达式对 \(\pi\) 是凸的或可凸化），在约束 \(\Pi\) 下可解。
证明最优性：构造下界（minimax lower bound），使用 Le Cam 或 Fano 方法（在两个极端潜在结果函数之间构造检验问题），证明任意设计的 MSE 不能低于某界；然后证明 \(\pi^*\) 的上界匹配此下界。
关键跳跃点：
从 \(2^T\) 维到有限维：习惯化单调性假设将最坏情形从"任意潜在结果函数"缩减为"极端衰减的边界函数"，这是证明可解的核心跳跃。没有这个假设，minimax 优化在 \(2^T\) 维空间中无法显式求解。
MSE 表达式的凸化：最坏情形 MSE 对 \(\pi\) 的表达式可能非凸，但通过单调性约束下的简化，退化为对 \(\pi\) 的线性或二次函数，使优化可解。
技术技巧点名：
随机化推断框架（Neyman 1923; Bojinov & Shephard 2019）：用于定义 estimand 与估计量，不依赖参数模型。用在第 1-2 步。
Minimax 理论 / Le Cam 方法：用于构造下界。用在第 5 步。
单调性约束下的最坏情形缩减：将潜在结果空间的最坏情形从内点推到边界。用在第 3 步。
凸优化 / 线性规划：在简化后的 MSE 表达式上对 \(\pi\) 做约束优化。用在第 4 步。

真实例子与应用：

本文无真实数据例子。论文为纯理论，所有论证基于数学定理与证明。无模拟实验、无真实数据应用。
动机场景：intro 提到在线市场（如 LinkedIn 广告实验 Yan et al. 2019）与促销邮件 campaigns，这些场景中习惯化现象已被经验观测到，但本文未在这些数据上验证设计。

🔎 结论是否比证明窄：

定理 1 的 minimax 最优性是在设计类 \(\Pi\)（满足特定实际约束）中证明的。若约束不同（例如干预比例的上下界不同），最优设计可能不同。作者在文中明确指出 \(\pi^*\) 的最优性依赖于 \(\Pi\) 的具体约束形式，但未对"所有可能约束类"做统一声明。
习惯化假设 \(\mathcal{H}\) 是单调性约束，不涵盖"效应先增后减"（学习效应后再习惯化）等更复杂结构。作者在 intro 中将习惯化 frame 为"衰减"，但定理只覆盖单调衰减，未覆盖非单调情形——这是一个结论比 claim 窄的地方。

四、开放问题（点到为止，扎根具体语句）¶

非单调习惯化结构下的 minimax 设计：本文定理依赖习惯化的单调性假设（\(\mathcal{H}\)：重复暴露的效应 \(\leq\) 首次暴露）。若效应先增后减（学习 + 习惯化），单调性不成立，minimax 优化是否仍可解？扎根点：intro 第 2 节对 habituation 的定义与定理 1 的假设条件。
有限 \(n\) 与 \(T\) 下的设计最优性：本文 minimax 界是渐近的（\(n \to \infty\)，\(T\) 固定）。有限 \(n\) 下，\(\pi^*\) 是否仍最优？扎根点：定理 2 的界形式与渐近设定。
与楔形设计的定量对比在更一般约束下的表现：推论给出楔形设计在特定约束下比 \(\pi^*\) 差一个 \(T\) 相关因子。若约束变化（例如必须最终全量干预），差距是否消失？扎根点：推论的约束条件与作者对楔形设计的讨论。
Kallus (2018) 式截面 minimax 框架向时间序列的扩展是否已被本文完全覆盖？：本文未引 Kallus (2018)，但两者共享 minimax 设计思路。Kallus 在截面下用协变量做配对设计；本文在时间序列下用习惯化做路径分配。两者的统一框架是否存在？扎根点：intro 缺失的引用与本文方法论的边界。

提醒：要确认第 1 条是不是真 gap，去读时间序列因果推断近期约 5 篇的 intro——若都只假设单调衰减 = 共识（真 gap 在非单调）；若有人处理非单调 = 机会在统一框架。

Maintained by 陈星宇 · Homepage · Source on GitHub

Minimax designs for causal effects in temporal experiments with treatment habituation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论