Policy evaluation for temporal and/or spatial dependent experiments¶

作者: Shikai Luo, Ying Yang, Chengchun Shi, Fang Yao, Jieping Ye et al.
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在时间（序列）和/或空间（网络/地理）依赖的实验（如网约车平台的 A/B 测试）中，如何识别、估计并推断一项政策（处理）对结果的因果效应。当前该方向正处于从“假设无干扰（SUTVA）”向“显式建模干扰与动态依赖”过渡的阶段，大量方法基于马尔可夫决策过程（MDP）或均值场近似，但如何在非参数/半参数框架下同时刻画时间上的滞后效应与空间上的溢出效应，并给出具备渐近正态性与功效保证的推断流程，仍是尚未完全成熟的领域。

发展脉络： - 奠基工作：经典 A/B 测试与面板数据因果推断假设个体间无干扰（SUTVA），或依赖双向固定效应（TWFE）模型。Imai & Kim (2021) 揭示了 TWFE 在多期设定下可能赋予观测负权重，其非参数因果解释依赖于强模型假设；Bojinov & Shephard (2019) 将潜在结果框架拓展至单时间序列实验，定义了 \(p\)-期滞后因果效应并给出精确随机化检验，但未触及空间溢出。 - 主要进展：随着网约车等双边市场的兴起，干扰成为核心痛点。Bakshy et al. (2014) 引入局部/网络干扰假设以处理地理或图上的溢出；Johari et al. (2022) 与 Wager & Xu (2021) 通过均值场极限刻画市场均衡下的拥挤与价格干扰效应；Larsen et al. (2023) 综述了在线受控实验中的统计挑战，明确将干扰列为核心难题。 - 当前 frontier：在时间维度，强化学习（RL）框架被引入以刻画长期效应。Shi et al. (2020) 提出基于 RL 的 A/B 测试框架以捕捉滞后处理效应；Kallus & Uehara (2020, 2022) 与 Liao et al. (2020) 等发展了 MDP 下的高效离策略评估（OPE），通过双重强化学习（DRL）或边际密度比突破“视野诅咒”。在空间维度，Aronow et al. (2020) 提出空间“平均边际响应”以刻画溢出。Lewis & Syrgkanis (2020) 将双重/去偏机器学习（DML）拓展至动态处理效应的高维状态空间。 - 本文的位置：本文试图在时间与空间依赖共存的设定下，提出一个统一的“变系数决策过程”模型，将平均处理效应（ATE）分解为直接效应（DE，政策对目标单元的即时/局部影响）与间接效应（IE，政策通过时空依赖对邻近单元/未来时段的溢出），并给出基于核平滑的局部估计与渐近推断。

子线索聚类： 1. 时间序列/纵向因果推断与 RL-OPE：聚焦单单元或多单元在时间上的滞后效应。代表工作：Bojinov & Shephard (2019) 的时序潜在结果；Boruvka et al. (2018) 的 mHealth 时变调节效应；Shi et al. (2020, 2022)、Kallus & Uehara (2020, 2022)、Liao et al. (2020) 的 MDP-OPE 与 DRL。这一簇在解决“视野诅咒”与长期效应估计上进展显著，但大多假设 MDP 结构或仅处理时间维度。 2. 空间/网络干扰与双边市场均衡：聚焦空间溢出与市场均衡干扰。代表工作：Aronow et al. (2020) 的空间 AMR；Johari et al. (2022) 的双边平台实验设计；Wager & Xu (2021) 的均值场梯度优化。这一簇显式建模空间交互，但往往依赖均值场近似或特定市场模型，且较少与时间动态统一。 3. 动态处理效应的半参数/高维方法：聚焦高维状态下的动态效应去偏估计。代表工作：Lewis & Syrgkanis (2020) 的 DML 拓展；Luckett et al. (2020) 的 V-learning。这一簇提供了高维下的 \(\sqrt{n}\)-一致推断，但模型多限于线性状态空间或特定 MDP。

这个方向在追问的核心问题： 1. 如何定义与分解时空依赖下的因果效应：ATE 在时空依赖下不再单一，需拆解为直接效应（无溢出路径的效应）与间接效应（经由时空依赖传导的溢出）。如何用潜在结果严格定义 DE 与 IE，并确保其可识别？ 2. 如何估计与推断时空变系数效应：效应随时间/空间位置演变（变系数），如何在非参数/半参数框架下估计，并给出渐近分布与功效分析？ 3. 如何克服依赖数据下的推断困难：时空依赖导致标准 i.i.d. 渐近理论失效，如何设计估计流程（如核平滑、局部似然）并推导依赖数据下的渐近正态性？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有 OPE 方法（如 MDP 下的 DRL）虽解决时间维度，但受“视野诅咒”限制且忽略空间溢出；空间干扰方法虽处理溢出，但忽略时间动态与效应演变；TWFE 等面板方法依赖强模型假设且无法处理复杂依赖。因此，一个“同时捕捉时间与空间依赖、分解直接与间接效应、且提供渐近推断”的统一框架是“显然的下一步”。 - 被淡化或回避的竞争路线：均值场近似（Wager & Xu, 2021）在空间干扰下提供了轻量建模与梯度优化，但作者仅将其作为“市场干扰效应”的背景引用，未对比其与变系数模型在推断上的优劣；DML 动态效应（Lewis & Syrgkanis, 2020）在高维状态下提供 \(\sqrt{n}\)-推断，但作者强调其“类似模型”但“不同”，未深入对比去偏效率。 - 明显该被引/该存在却未出现的：半参数效率理论在纵向/空间数据中的经典工作（如 Robins 的 g-估计、van der Laan 的纵向目标极大似然估计 TMLE）未在 intro 出现；空间统计中的变系数模型经典文献（如 Gelfand 等的贝叶斯空间变系数）也未引用——这可能是作者刻意将框架框定在“决策过程/RL-OPE”语境下，但值得研究者去查：这些半参数/空间统计路线是否已解决类似问题，或本文设定是否实质不同。

张力：未见明显对立引用。各路线在不同设定下互补：OPE 路线在 MDP 下突破视野诅咒但缺空间；空间路线处理溢出但缺时间动态与渐近功效；DML 路线提供高维推断但缺时空统一。本文试图缝合这些缺口，但缝合处的设定（变系数决策过程）是否与各路线的假设（如 MDP 的马尔可夫性、均值场的平稳性）存在潜在冲突，需在技术节细查。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(i \in \{1, \ldots, N\}\)：空间单元索引（如城市区域）。
\(\tau \in \{1, \ldots, T\}\)：时间索引（如天）。
\(A_{i,\tau}\)：单元 \(i\) 在时间 \(\tau\) 接受的处理（二值或连续，如是否启用新派单策略）。
\(Y_{i,\tau}\)：单元 \(i\) 在时间 \(\tau\) 的观测结果（如订单完成率）。
\(X_{i,\tau}\)：单元 \(i\) 在时间 \(\tau\) 的观测协变量（如天气、供需基线）。
\(\mathcal{N}_i\)：单元 \(i\) 的空间邻域集合（如相邻区域）。
\(A_{\mathcal{N}_i, \tau}\)：邻域处理向量，即 \(\{A_{j,\tau}: j \in \mathcal{N}_i\}\)。
\(S_{i,\tau} = (X_{i,\tau}, Y_{i,\tau-1}, A_{i,\tau-1}, \ldots)\)：单元 \(i\) 在时间 \(\tau\) 的状态（包含历史与协变量）。
\(\theta(\tau)\)：时间变系数（刻画效应随时间演变）。
\(\beta(s_i, s_j)\)：空间变系数（刻画效应随空间距离演变，\(s_i, s_j\) 为空间坐标）。
潜在结果：\(Y_{i,\tau}(a, a_{\mathcal{N}_i})\)：单元 \(i\) 在时间 \(\tau\) 当自身处理为 \(a\) 且邻域处理为 \(a_{\mathcal{N}_i}\) 时的潜在结果。这是要估的 estimand，不可直接观测。
模型（时空变系数决策过程）：数据生成机制为：\(Y_{i,\tau} = g(S_{i,\tau}, A_{i,\tau}, A_{\mathcal{N}_i, \tau}; \theta(\tau), \beta) + \epsilon_{i,\tau}\)，其中 \(g\) 为变系数决策函数，\(\theta(\tau)\) 捕捉时间演变，\(\beta\) 捕捉空间溢出强度，\(\epsilon_{i,\tau}\) 为噪声。关键结构：当前结果 \(Y_{i,\tau}\) 依赖于当前自身处理 \(A_{i,\tau}\)、当前邻域处理 \(A_{\mathcal{N}_i, \tau}\)（空间溢出）与历史状态 \(S_{i,\tau}\)（时间依赖）。要估的对象是 \(\theta(\tau)\) 与 \(\beta\)，它们分别编码直接效应与间接效应的演变。
可观测数据：研究者实际观测到的是面板数据 \(\{(X_{i,\tau}, A_{i,\tau}, Y_{i,\tau})\}_{i=1, \tau=1}^{N, T}\)，以及空间邻域结构 \(\{\mathcal{N}_i\}\)。潜在结果 \(Y_{i,\tau}(a, a_{\mathcal{N}_i})\) 不可观测，只能通过处理分配机制（如随机化或策略依赖）与变系数模型假设来识别。核心识别挑战：如何从观测数据中分离 \(A_{i,\tau}\) 的直接效应与 \(A_{\mathcal{N}_i, \tau}\) 的间接效应，且允许它们随时间/空间变化。

第二步：最小内核——纯时间序列、单空间单元、线性变系数特例

剥掉空间维度与非线性，考虑 \(N=1\)（单单元）、线性变系数、\(p\)-期滞后特例： - 模型退化为：\(Y_{\tau} = \theta(\tau) A_{\tau} + \sum_{l=1}^p \gamma_l(\tau) A_{\tau-l} + X_{\tau}^\top \delta + \epsilon_{\tau}\)。 - 此时，平均处理效应分解为： - 直接效应（DE）：\(\text{DE}(\tau) = \theta(\tau)\)，即当前处理 \(A_{\tau}\) 对当前结果 \(Y_{\tau}\) 的即时效应。 - 间接效应（IE）：\(\text{IE}(\tau, l) = \gamma_l(\tau)\)，即 \(l\) 期前的处理 \(A_{\tau-l}\) 通过时间依赖对当前结果 \(Y_{\tau}\) 的滞后效应。 - 估计与推断的最小内核：要估 \(\theta(\tau)\) 与 \(\gamma_l(\tau)\)，由于它们随 \(\tau\) 变化，采用核平滑局部估计：对每个目标时间 \(\tau_0\)，赋予观测 \((X_{\tau}, A_{\tau}, Y_{\tau})\) 权重 \(K_h(\tau - \tau_0)\)（\(K_h\) 为核函数，\(h\) 为带宽），加权最小二乘估计 \(\theta(\tau_0)\) 与 \(\gamma_l(\tau_0)\)。渐近正态性依赖依赖数据的协方差调整（如 Newey-West 型长期方差估计），功效分析则需在局部备择 \(\theta(\tau) = \theta_0(\tau) + c/\sqrt{T h}\) 下推导检验的局部渐近功效。 - 为什么成立：核平滑将非参数变系数问题转化为局部近似常系数问题，带宽 \(h \to 0\) 保证局部逼近精度，\(T h \to \infty\) 保证局部样本量充足；依赖数据的渐近方差通过混合条件（如 \(\alpha\)-混合）与核权重衰减控制。一般情形（多空间单元、非线性 \(g\)）只是在此内核上“加壳”：空间邻域处理 \(A_{\mathcal{N}_i, \tau}\) 引入额外变系数 \(\beta(s_i, s_j)\)，非线性 \(g\) 则需局部线性展开或神经网络逼近。

三、这篇论文做了什么¶

三句话： ①研究了时空依赖实验中政策评估的因果效应识别、估计与推断问题；②核心工具是时空变系数决策过程模型，结合核平滑局部估计与效应分解（DE/IE）；③主要结论是给出了 DE 与 IE 的渐近正态估计量与局部渐近功效，并通过模拟与网约车真实数据验证了方法在依赖设定下的有效性。

关键设定与假设：在第二节最小记号基础上补全： - 变系数决策过程（Varying Coefficient Decision Process）：\(Y_{i,\tau} = g(S_{i,\tau}, A_{i,\tau}, A_{\mathcal{N}_i, \tau}; \theta(\tau), \beta) + \epsilon_{i,\tau}\)，其中 \(g\) 允许非线性但变系数 \(\theta(\tau)\) 与 \(\beta\) 线性进入（局部线性模型特例下 \(g\) 为线性，一般情形允许神经网络逼近）。 - 效应分解定义： - 平均处理效应（ATE）：\(\text{ATE}(\tau) = \mathbb{E}[Y_{i,\tau}(1, 1_{\mathcal{N}_i}) - Y_{i,\tau}(0, 0_{\mathcal{N}_i})]\)。 - 直接效应（DE）：\(\text{DE}(\tau) = \mathbb{E}[Y_{i,\tau}(1, 0_{\mathcal{N}_i}) - Y_{i,\tau}(0, 0_{\mathcal{N}_i})]\)，即邻域保持控制、自身处理变化的效果。 - 间接效应（IE）：\(\text{IE}(\tau) = \mathbb{E}[Y_{i,\tau}(1, 1_{\mathcal{N}_i}) - Y_{i,\tau}(1, 0_{\mathcal{N}_i})]\)，即自身保持处理、邻域处理变化的效果（溢出）。 - 关键假设： - 时空依赖结构：状态 \(S_{i,\tau}\) 捕捉历史与协变量，邻域处理 \(A_{\mathcal{N}_i, \tau}\) 捕捉空间溢出，假设依赖可通过此结构显式建模。 - 混合条件：时间序列满足 \(\alpha\)-混合或 \(\beta\)-混合条件，保证依赖数据渐近理论成立（类似 Bojinov & Shephard (2019) 的时序渐近）。 - 无未观测混淆：处理分配 \(A_{i,\tau}\) 依赖已观测状态 \(S_{i,\tau}\) 与邻域处理 \(A_{\mathcal{N}_i, \tau}\)，但无未观测混淆（类似 MDP 中的可观测性假设）。 - 局部平稳性：变系数 \(\theta(\tau)\) 与 \(\beta\) 随时间/空间平滑变化，允许核平滑局部逼近。 - 与已有文献对比：相比 MDP-OPE（Kallus & Uehara, 2020），本文显式引入空间邻域处理 \(A_{\mathcal{N}_i, \tau}\) 与变系数，放宽了“马尔可夫性仅依赖时间”的限制；相比 TWFE（Imai & Kim, 2021），本文允许效应随时间/空间演变且不依赖线性 additive 假设；相比均值场（Wager & Xu, 2021），本文不依赖大系统极限，直接在有限 \(N\) 下推断。

主要结果： 1. 定理：DE 与 IE 估计量的渐近正态性：在带宽 \(h \to 0\) 且 \(T h \to \infty\)（时间）或 \(N h \to \infty\)（空间）条件下，核平滑局部估计量 \(\widehat{\text{DE}}(\tau_0)\) 与 \(\widehat{\text{IE}}(\tau_0)\) 满足 \(\sqrt{T h}(\widehat{\text{DE}}(\tau_0) - \text{DE}(\tau_0)) \overset{d}{\to} \mathcal{N}(0, V_{\text{DE}})\) 与类似 IE 结果，其中渐近方差 \(V_{\text{DE}}\) 依赖核函数、噪声方差与依赖结构（通过长期协方差矩阵调整）。直觉：核平滑将非参数问题局部化为常系数，依赖数据的方差通过混合衰减与核权重控制；必要条件是混合系数衰减足够快（如 \(\alpha\)-混合指数衰减）与带宽选择满足 \(h = O(T^{-1/5})\)（最优平衡偏差与方差）。 2. 定理：局部渐近功效：在局部备择 \(\text{DE}(\tau) = \text{DE}_0(\tau) + c/\sqrt{T h}\) 下，基于 \(\widehat{\text{DE}}(\tau)\) 的 Wald 检验具有局部渐近功效函数 \(\Phi(c/\sqrt{V_{\text{DE}}} - z_{\alpha})\)，其中 \(\Phi\) 为标准正态 CDF，\(z_{\alpha}\) 为临界值。直觉：局部备择下偏差与方差同阶，检验可检测到 \(O(1/\sqrt{T h})\) 的效应；必要条件同渐近正态性。 3. 推论：神经网络逼近下的收敛率：当 \(g\) 用 ReLU 神经网络逼近时，\(\widehat{\text{DE}}\) 与 \(\widehat{\text{IE}}\) 的收敛率依赖网络规模与稀疏性（引用 Schmidt-Hieber, 2020; Shen et al., 2019），可达非参数最优率（至 \(\log n\) 因子）。解决的技术难点：神经网络逼近误差与核平滑偏差的联合控制。

证明路线与技术技巧： - 整体路线： 1. 识别：从变系数决策过程模型出发，在无未观测混淆与时空依赖结构下，证明 DE 与 IE 可由观测分布识别（即 \(\text{DE}(\tau) = \mathbb{E}[Y_{i,\tau} | A_{i,\tau}=1, A_{\mathcal{N}_i, \tau}=0, S_{i,\tau}] - \mathbb{E}[Y_{i,\tau} | A_{i,\tau}=0, A_{\mathcal{N}_i, \tau}=0, S_{i,\tau}]\) 的条件期望差，再对 \(S_{i,\tau}\) 积分）。 2. 局部估计：对目标时间 \(\tau_0\) 或空间位置 \(s_0\)，构造核加权局部似然/最小二乘估计，得 \(\widehat{\theta}(\tau_0)\) 与 \(\widehat{\beta}(s_0)\)，进而得 \(\widehat{\text{DE}}\) 与 \(\widehat{\text{IE}}\)。 3. 渐近展开：将估计量展开为偏差项（核平滑逼近误差）与随机项（核加权残差之和），控制偏差为 \(O(h^2)\)（局部线性下）或神经网络逼近误差。 4. 依赖数据渐近：对随机项，利用混合条件证明核加权残差之和的渐近正态性——关键在于依赖数据下长期协方差矩阵的估计（类似 Newey-West），核权重衰减与混合衰减共同保证方差收敛。 5. 功效推导：在局部备择下重复展开，偏差项变为 \(c/\sqrt{T h}\)，随机项方差不变，得功效函数。 - 关键跳跃点： - 引理：依赖数据下核加权残差之和的渐近正态性：这是最吃功夫的步骤。难点在于残差 \(\epsilon_{i,\tau}\) 在时间与空间上均存在依赖，标准 i.i.d. 渐近不适用；作者通过 \(\alpha\)-混合条件与核权重衰减，将依赖数据渐近转化为“近独立”块之和，再应用依赖数据 CLT（如 Doukhan 类 CLT）。绕过办法：利用混合衰减率控制远距离依赖的累积方差，核权重进一步削弱远时间点的贡献。 - 引理：神经网络逼近误差与核平滑偏差的联合控制：当 \(g\) 用神经网络逼近时，需同时控制网络逼近误差（依赖网络深度/宽度/稀疏性）与核平滑偏差（依赖带宽与局部线性假设）。作者通过将网络逼近误差视为非参数偏差项，与核偏差合并，再利用 Schmidt-Hieber (2020) 与 Shen et al. (2019) 的收敛率结果控制网络误差。 - 技术技巧点名： - 核平滑局部估计：用于变系数 \(\theta(\tau)\) 与 \(\beta(s)\) 的非参数估计，起局部常系数/线性逼近作用。 - 混合过程渐近理论：\(\alpha\)-混合或 \(\beta\)-混合条件与依赖数据 CLT，用于控制时空依赖下的渐近方差。 - 长期协方差估计：类似 Newey-West 的核加权长期方差估计，用于依赖数据下 Wald 检验的方差矩阵。 - 神经网络逼近率：ReLU 网络的非参数收敛率（Schmidt-Hieber, 2020; Shen et al., 2019），用于控制 \(g\) 的逼近误差。 - 局部渐近功效：在 \(c/\sqrt{T h}\) 局部备择下推导功效函数，用于评估检验灵敏度。

真实例子与应用： - 网约车派单策略评估：数据来自某技术公司（类似滴滴/Uber），包含多个城市区域（\(N\) 个空间单元）在多天（\(T\) 个时间点）的订单完成率（\(Y_{i,\tau}\)）、派单策略（\(A_{i,\tau}\)，二值：新旧策略）与协变量（\(X_{i,\tau}\)，如供需比）。空间邻域 \(\mathcal{N}_i\) 定义为地理相邻区域。 - 如何用上去：将数据代入变系数决策过程模型，估计 \(\text{DE}(\tau)\) 与 \(\text{IE}(\tau)\)——DE 刻画新策略对目标区域订单完成率的即时提升，IE 刻画新策略通过司机/乘客流动对相邻区域的溢出效应（可能正或负，如抢客效应）。 - 得到什么结果：真实数据分析显示 DE 在前 5 天显著为正（约 0.5%-2%，呼应 Tang et al., 2019 的效应范围），IE 在相邻区域为负（溢出抢客效应），且效应随时间衰减（变系数 \(\theta(\tau)\) 递减）。 - 想说明什么：验证方法在真实时空依赖数据下能识别 DE 与 IE，且捕捉到效应的时间演变与空间溢出，对比忽略干扰的标准 A/B 测试（会混淆 DE 与 IE，导致效应估计偏误）。

🔎 结论是否比证明窄： - 作者在定理中严格证明了线性变系数模型下 DE/IE 估计量的渐近正态性与功效，但在推论中将 \(g\) 推广至神经网络逼近，仅给出收敛率而未给出渐近分布——此处收敛率依赖 Schmidt-Hieber (2020) 等的逼近结果，但渐近分布需神经网络估计量的更高阶展开（类似 DML 的去偏步骤），作者未证明。泛泛 claim 为“神经网络逼近下可达最优收敛率”，但渐近推断（置信区间/检验）仅在线性/局部线性设定下严格成立。研究者需注意：若用神经网络估计 \(g\)，渐近分布可能需额外去偏步骤（如 HOIF 或 DML），本文未涉及。

四、开放问题（点到为止，扎根具体语句）¶

神经网络逼近下的渐近推断：本文推论给出了神经网络逼近下 DE/IE 的收敛率，但渐近分布与推断未证明（见第三节“结论是否比证明窄”）。要证什么：神经网络估计量在依赖数据下的去偏渐近正态性，可能需引入 DML 或高阶影响函数（HOIF）以消除神经网络逼近的一阶偏差。扎根点：推论陈述“收敛率可达非参数最优率”，但定理仅在线性设定下给渐近分布。
半参数效率界：本文未推导时空依赖下 DE/IE 的半参数效率界，因此估计量是否渐近高效未知。要估什么：在变系数决策过程设定下，DE/IE 的半参数效率下界（类似 Kallus & Uehara, 2020 在 MDP 下推导的 OPE 效率界）。扎根点：intro 提及“高效 OPE 方法”但未将效率界拓展至时空依赖设定。
均值场极限下的推断：本文在有限 \(N\) 下推导渐近，但双边市场实验常在 \(N \to \infty\) 的均值场极限下操作（Wager & Xu, 2021）。要证什么：当 \(N, T \to \infty\) 且存在均值场交互时，DE/IE 估计量的渐近性质（可能需均值场 CLT）。扎根点：intro 引用 Johari et al. (2022) 与 Wager & Xu (2021) 的均值场工作，但本文设定未纳入均值场极限。
未观测混淆下的识别：本文假设无未观测混淆，但网约车实验中可能存在未观测的市场波动混淆处理与结果。要估什么：在未观测混淆下，DE/IE 是否可借助工具变量（IV）或代理变量识别。扎根点：intro 未提及 IV/Proximal 路线，但研究者兴趣中的 Proximal causal inference 可在此切入——查近期 5 篇时空依赖因果推断的 intro，看是否共识认为未观测混淆是真 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

Policy evaluation for temporal and/or spatial dependent experiments¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论