Sequential kernel embedding for mediated and time-varying dose response curves¶

作者: Rahul Singh, Liyuan Xu, Arthur Gretton
来源: Bernoulli
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在纵向/时间序列数据中，当处理是连续的（或处于一般度量空间）、中介与混杂随时间演化，且存在非线性处理-混杂反馈时，如何非参数地识别与估计因果效应（如随时间变化的剂量反应曲线、中介效应、反事实分布）。当前该方向的成熟度处于"非参数识别理论已完备（g-formula/mediation formula），但高维/连续设定下的非参数估计与推断（收敛率、效率界、弱收敛）仍受限于参数化或强结构假设"的阶段。

发展脉络： - 奠基工作：Robins (1986) 提出纵向因果推断的 g-formula，解决了时间varying混杂下的识别；Pearl (2001) 提出中介分析的 mediation formula，定义了跨世界反事实的直接/间接效应。这两者奠定了本文识别理论的基石，但均未给出非参数估计的有限样本理论。 - 主要进展（识别与半参数推断）：VanderWeele & Tchetgen Tchetgen (2016) 将中介与纵向结合，提出 mediational g-formula，处理了时间varying混杂受前序处理影响的情形；Tchetgen Tchetgen & Shpitser (2012) 为中介分析建立了半参数效率界与多重稳健性理论；Vansteelandt & Joffe (2014) 综述了结构嵌套模型与 G-estimation，指出其虽理论完备但应用受限。 - 当前 frontier（连续处理与机器学习推断）：Colangelo & Lee (2020) 与 Kennedy et al. (2015) 针对连续处理提出了双重稳健/核方法估计量；Lewis & Syrgkanis (2021) 将 DML 推向纵向动态处理效应；Singh et al. (2019) 提出核工具变量回归（KIV），将非参数 IV 嵌入 RKHS；Singh, Xu & Gretton (2024) 的前序工作将 RKHS 嵌入用于时间固定的 ATE/CATE 估计。 - 本文的位置：本文将前序工作从"时间固定、二值/连续处理"推进到"纵向、连续处理、连续中介、一般度量空间混杂"的统一 RKHS 框架，通过 sequential kernel embedding 技术实现 g-formula/mediation formula 的非参数估计，并给出 nonasymptotic uniform rate 与 semiparametric efficiency。

子线索聚类： 1. 纵向因果识别与 g-formula 线索：Robins (1986) → VanderWeele & Tchetgen Tchetgen (2016, mediational g-formula) → Petersen et al. (2014, TMLE for longitudinal MSM) → Lewis & Syrgkanis (2021, DML for dynamic effects)。这一簇在解决"时间varying混杂下的识别与参数/半参数估计"。 2. 中介分析识别与推断线索：Pearl (2001, mediation formula) → Imai et al. (2010, sequential ignorability & sensitivity) → Tchetgen Tchetgen & Shpitser (2012, semiparametric efficiency for mediation) → Robins et al. (2020, interventionist approach to mediation)。这一簇在解决"跨世界反框架的识别、半参数效率与稳健估计"。 3. 连续处理与核嵌入线索：Kennedy et al. (2015, kernel smoothing for continuous treatment) → Colangelo & Lee (2020, DML for continuous treatment) → Singh et al. (2019, KIV) → Singh, Xu & Gretton (2024, RKHS for ATE/CATE) → Li et al. (2022, optimal rates for CME)。这一簇在解决"连续处理下非参数估计的收敛率与最优性"。 4. RKHS 学习率与最优性理论线索：Caponnetto & De Vito (2007) → Fischer & Steinwart (2020, Sobolev norm learning rates) → Li et al. (2022, optimal rates for CME) → Tolstikhin et al. (2016, minimax for KME)。这一簇在解决"核岭回归与条件均值嵌入的有限样本学习率与 minimax 最优性"。

这个方向在追问的核心问题： 1. 识别与估计的分离：g-formula/mediation formula 给出了非参数识别，但如何在保持识别通用性的同时，构造不依赖参数化/Markov假设的非参数估计量？ 2. 非线性反馈下的估计：当存在 treatment-confounder feedback（前序处理影响后续混杂）时，经典 IPW/g-estimation 需要估计高维条件密度，如何避免维数灾难？ 3. 收敛率与推断：非参数估计量在一般度量空间设定下的 nonasymptotic uniform convergence rate 是什么？是否达到 minimax 最优？是否 semiparametric efficient？能否构造反事实分布的弱收敛（用于推断）？

⚠️ 作者的 framing： - 作者把缺口 frame 成：经典识别公式虽通用，但实际估计量"restrict attention to a binary treatment, parametric models, Markov simpliﬁcations, or constrained effect modiﬁcation for tractability, and may even redeﬁne the estimand"（引用 Vansteelandt & Joffe, 2014）。本文的 sequential kernel embedding 被呈现为"显然的下一步"：保留识别通用性，同时通过 RKHS 嵌入避免高维条件密度估计，获得 uniform rate 与 efficiency。 - 淡化的竞争路线：DML/TMLE 线索（Lewis & Syrgkanis 2021, Colangelo & Lee 2020, Petersen et al. 2014）在引言中被提及，但被归类为"时间固定或参数化/半参数"的局限，而本文强调"一般度量空间+非参数+纵向"的统一。然而，DML 线索在纵向设定下也有 \(\sqrt{n}\)-consistent 与 asymptotic normal 的结果，本文的 uniform rate 在何种意义上优于 DML 的 pointwise rate，未被直接对比。 - 缺失的引用：引言未涉及高维纵向因果推断的 minimax 理论（如 Belloni et al. 2017 on dynamic treatment effects with high-dimensional confounders），也未涉及纵向设定下的 debiased/orthogonal learning 近期进展（如 Chernozhukov et al. 2021 on longitudinal DML）。这些工作在半参数效率与 \(\sqrt{n}\)-推断上与本文直接竞争，研究者应去查证本文的 RKHS 路线与这些 DML 路线在效率界与适用设定上的实质差异。

张力： - 未见明显对立引用。但存在隐含张力：Pearl (2001) 与 Robins et al. (2020) 对"跨世界反事实"的正当性有哲学分歧（Pearl 接受 cross-world，Robins et al. 主张 interventionist 分解），本文的 Definition 4.1 直接采用 cross-world 定义，回避了这一张力。研究者可追问：sequential kernel embedding 是否能适配 interventionist 定义？

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(t \in \{1, \dots, T\}\)：时间点。
\(D_t\)：时间 \(t\) 的处理（连续，处于一般度量空间 \(\mathcal{D}_t\)）。
\(M_t\)：时间 \(t\) 的中介（连续，处于 \(\mathcal{M}_t\)）。
\(X_t\)：时间 \(t\) 的混杂/协变量（连续，处于 \(\mathcal{X}_t\)）。
\(Y\)：最终结局（连续，处于 \(\mathcal{Y}\)）。
\(H_t = (X_1, D_1, M_1, \dots, X_t)\)：时间 \(t\) 之前的历史（混杂与处理与中介的序列）。
\(d = (d_1, \dots, d_T)\)：处理序列的某个固定值。
\(\theta(d)\)：目标 estimand——随时间变化的剂量反应曲线（或中介效应），定义为反事实期望 \(E[Y(d)]\) 或其变体。
\(\mathcal{H}\)：RKHS（ reproducing kernel Hilbert space），由核 \(k\) 诱导。
\(\mu[P](\cdot) = E[k(\cdot, W)]\)：分布 \(P\) 在 \(\mathcal{H}\) 中的核均值嵌入。
\(\gamma_{t,d}\)：时间 \(t\) 的条件均值嵌入算子，将 \(E[\cdot | H_t = h_t]\) 映射到 \(\mathcal{H}\) 中。
模型（数据生成机制）：
纵向因果模型：\(X_1 \rightarrow D_1 \rightarrow M_1 \rightarrow X_2 \rightarrow D_2 \rightarrow M_2 \rightarrow \dots \rightarrow Y\)。
允许非线性反馈：\(D_t\) 影响 \(X_{t+1}\)（treatment-confounder feedback）。
识别假设：Sequential selection on observables（即每个时间点的处理与中介，给定历史后，与未来结局独立）+ Distribution shift condition（用于跨世界反事实识别）。
可观测数据：
\(n\) 个独立同分布样本 \(W_i = (X_{1i}, D_{1i}, M_{1i}, \dots, X_{Ti}, D_{Ti}, M_{Ti}, Y_i)\)，\(i=1,\dots,n\)。
想要但观测不到的：反事实 \(Y(d)\) 或 \(Y(d, m)\)（跨世界量），只能靠识别假设与 g-formula/mediation formula 从可观测分布中还原。

第二步：最小内核

剥掉所有一般性设定（多时间点、中介、一般度量空间），考虑最简特例：\(T=1\)（单时间点），无中介，连续处理 \(D\)，混杂 \(X\)，结局 \(Y\)。此时目标退化为连续处理的剂量反应曲线 \(\theta(d) = E[Y(d)] = E[E[Y | D=d, X]]\)（后门调整/单时间点 g-formula）。

经典困难：直接非参数估计 \(E[Y | D=d, X]\) 需估计高维条件期望，维数灾难。
本文最小内核：将 \(\theta(d)\) 嵌入 RKHS。定义结局的核均值嵌入 \(\mu[Y] = E[k_Y(\cdot, Y)]\)，条件均值嵌入算子 \(\gamma_{d,X}\) 将 \(E[k_Y(\cdot, Y) | D=d, X]\) 映射到 \(\mathcal{H}_Y\) 中。则 \(\theta(d)\) 可表示为：
\[\theta(d) = E[\gamma_{d,X} \cdot k_X(\cdot, X)]\]
其中 \(\gamma_{d,X}\) 是从 \(\mathcal{H}_X\) 到 \(\mathcal{H}_Y\) 的算子，\(k_X\) 是 \(X\) 的核。进一步，\(\gamma_{d,X}\) 可通过核岭回归从数据中估计（将 \(k_Y(\cdot, Y_i)\) 作为响应，\(k_X(\cdot, X_i)\) 作为特征，在给定 \(D=d\) 的子集上回归）。
为什么成立：RKHS 的再生性质允许将条件期望表示为算子作用，从而将高维条件期望分解为"算子估计 + 均值嵌入估计"。算子估计通过核岭回归有最优学习率（Fischer & Steinwart 2020），均值嵌入估计有 minimax 最优率（Tolstikhin et al. 2016），两者组合给出 \(\theta(d)\) 的 uniform rate。
纵向推广（\(T>1\)）的核心跳跃：当 \(T>1\) 且有反馈时，g-formula 变为嵌套的条件期望序列：
\[\theta(d) = E[E[\dots E[Y | D_T=d_T, H_T] \dots | D_1=d_1, X_1]]\]
本文的 sequential kernel embedding 将每一步条件期望替换为条件均值嵌入算子的作用，形成算子的嵌套序列：
\[\theta(d) = \mu[X_1] \cdot \gamma_{1,d_1} \cdot \gamma_{2,d_2} \dots \gamma_{T,d_T} \cdot \mu[Y | H_T, D_T=d_T]\]
每个算子 \(\gamma_{t,d_t}\) 通过核岭回归估计，最终估计量为算子链的乘积。这就是本文的"最小内核"——用 RKHS 算子链替代 g-formula 的条件期望链。

三、这篇论文做了什么¶

三句话： ①研究了纵向、连续处理、中介与混杂反馈设定下的剂量反应曲线与中介效应的非参数估计问题； ②核心工具是 sequential kernel embedding，将 g-formula/mediation formula 嵌入 RKHS，通过核岭回归构造估计量； ③主要结论是估计量具有 nonasymptotic uniform convergence rate（由核岭回归与均值嵌入的最优率组合），且验证了 semiparametric efficiency 与反事实分布的弱收敛。

关键设定与假设： - 设定：\(T\) 个时间点，处理 \(D_t \in \mathcal{D}_t\)，中介 \(M_t \in \mathcal{M}_t\)，混杂 \(X_t \in \mathcal{X}_t\)，结局 \(Y \in \mathcal{Y}\)，所有空间为一般度量空间，核 \(k\) 为连续、有界、特征核。 - 识别假设： 1. Sequential selection on observables：\(\{D_t, M_t\} \perp Y(d) | H_t\) 对所有 \(t\) 与 \(d\) 成立。 2. Distribution shift condition：跨世界反框架的分布可分解为可观测分布的乘积（用于 mediation formula 的识别）。 - 统计含义：假设 1 是纵向无混杂假设（强于时间固定的无混杂，需每个时间点给定历史后无未测混杂）；假设 2 允许跨世界量的识别（是 Pearl mediation formula 的标准假设，但 Robins et al. 2020 对此有异议）。 - 与已有文献对比：相比 VanderWeele & Tchetgen Tchetgen (2016) 的 mediational g-formula（参数化实现），本文是非参数的；相比 Lewis & Syrgkanis (2021) 的 DML（需参数化/半参数工作模型），本文是纯非参数 RKHS；相比 Singh, Xu & Gretton (2024) 的 RKHS(ATE/CATE)（时间固定），本文推广到纵向与中介。

主要结果： 1. Theorem 4.1（Nonasymptotic uniform convergence rate）： - 陈述：估计量 \(\hat{\theta}(d)\) 在处理路径 \(d\) 上以 uniform rate 收敛于真实 \(\theta(d)\)，率为 \(O_P(n^{-\frac{b}{bc+1}})\)，其中 \((b, c)\) 是核岭回归的容量参数（源条件指数 \(b\)，有效维数指数 \(c\)）。 - 直觉：率由核岭回归的学习率（Fischer & Steinwart 2020）与均值嵌入的率（Li et al. 2022）组合而来，是 minimax 最优的（在 RKHS 范数下）。 - 必要条件：核为特征核、源条件满足、有效维数有限、样本量足够大。 - 解决的技术难点：纵向设定下算子链的误差传播——每个时间点的算子估计误差如何累积？本文通过 sequential embedding 的结构，证明误差以乘积方式累积，但核岭回归的收缩性使得累积可控。

Theorem 4.2（Semiparametric efficiency）：
陈述：在半参数模型（所有条件分布非参数但识别假设成立）下，估计量达到 semiparametric efficiency bound（即渐近方差达到 Cramer-Rao 下界）。
直觉：RKHS 嵌入估计量等价于非参数极大似然估计的极限（在核空间中），因此自然达到效率界。
必要条件：核为特征核、模型正确识别、样本量足够大。
解决的技术难点：纵向设定下效率界的计算——需计算 influence function，本文通过 g-formula 的嵌套结构推导 influence function，并验证估计量的一阶线性化与之匹配。
Theorem 4.3（Weak convergence of counterfactual distributions）：
陈述：反事实分布的核均值嵌入估计量 \(\hat{\mu}[Y(d)]\) 在 \(\mathcal{H}_Y\) 中弱收敛于真实嵌入 \(\mu[Y(d)]\)，且渐近分布为高斯过程。
直觉：均值嵌入的弱收敛等价于分布的弱收敛（当核为特征核时），因此可构造反事实分布的置信带。
解决的技术难点：算子链估计量的渐近分布推导——需将每个算子的渐近线性化串联，得到整体估计量的 influence function，再验证其协方差结构。

证明路线与技术技巧： - 整体路线： 1. 识别：将 \(\theta(d)\) 与 \(\mu[Y(d)]\) 通过 g-formula/mediation formula 表示为嵌套条件期望的序列。 2. 嵌入：将每步条件期望替换为条件均值嵌入算子 \(\gamma_{t,d_t}\) 的作用，得到算子链表示。 3. 估计：每个算子 \(\gamma_{t,d_t}\) 通过核岭回归估计（样本分裂：每个时间点用独立子样本估计算子，避免过拟合）。 4. 误差分析：将算子链的估计误差分解为每个算子的岭回归误差 + 均值嵌入误差，通过核岭回归的收缩性与样本分裂，控制误差累积，得到 uniform rate。 5. 效率与弱收敛：计算 influence function，验证估计量的一阶线性化与 influence function 匹配，推导渐近分布。

关键跳跃点：
Lemma 4.1（算子链的误差传播控制）：这是最吃功夫的引理。难点在于：纵向设定下，前序算子的误差会通过算子乘积传播到后续步骤，如何避免误差指数增长？本文利用核岭回归的收缩性（估计算子的范数不超过真实算子的范数 + 岭参数的收缩），证明误差以加法方式累积而非乘法，从而得到 uniform rate。
Influence function 的推导：在纵向中介设定下，influence function 涉及多步条件期望的嵌套，计算繁琐。本文通过 g-formula 的递归结构，将 influence function 表示为嵌套的残差序列，并验证 RKHS 估计量的一阶线性化与之匹配。
技术技巧点名：
Kernel ridge regression（核岭回归）：用于估计条件均值嵌入算子 \(\gamma_{t,d_t}\)，提供最优学习率（Fischer & Steinwart 2020）。
Sample splitting（样本分裂）：每个时间点用独立子样本估计算子，避免前序估计误差影响后续步骤的样本，用于误差分析。
Shrinkage property of KRR（核岭回归的收缩性）：估计算子的范数受岭参数控制，用于防止误差传播的指数增长。
Integral operator techniques（积分算子技巧）：用于分析核岭回归的有限样本误差（源条件、有效维数），来自 Fischer & Steinwart 2020 与 Li et al. 2022。
Efficient influence function（效率影响函数）：用于验证 semiparametric efficiency，来自 Tchetgen Tchetgen & Shpitser 2012 与 van der Laan 系列工作。
Bochner integral representation（Bochner 积分表示）：用于将条件期望表示为 RKHS 算子作用，来自 Muandet et al. 2016 的核均值嵌入理论。

真实例子与应用： - US Job Corps 数据： - 场景：评估职业培训项目（Job Corps）的纵向效应——培训时长（连续处理 \(D_1, D_2\)）对收入（结局 \(Y\)）的影响，中介为就业状态（\(M_1, M_2\)），混杂为基线与时间varying特征（\(X_1, X_2\)）。 - 如何用上去：将培训时长、就业状态、收入嵌入 RKHS（用 Gaussian 核），估计随时间变化的剂量反应曲线 \(\theta(d_1, d_2)\) 与中介效应（培训时长通过就业状态对收入的间接效应）。 - 得到什么结果：估计量展示了培训时长对收入的非线性效应（短培训与长培训的收益差异），中介效应显示就业状态的部分传导作用；与参数化 baseline（线性结构方程模型）对比，RKHS 估计量捕捉了非线性模式。 - 想说明什么：验证 RKHS 估计量在真实高维数据上的可行性，展示相对于参数化 baseline 的优势（捕捉非线性），并提供 cleaned benchmark 数据集供后续研究使用。 - 模拟实验： - 场景：非线性高维纵向数据（\(T=2\)，\(X_1\) 为 100 维，非线性反馈 \(D_1 \rightarrow X_2\)）。 - 如何用上去：对比 RKHS 估计量与 DML baseline（Lewis & Syrgkanis 2021 的 SNMM）、参数化 g-formula。 - 得到什么结果：RKHS 估计量在非线性设定下 MSE 显著低于参数化 baseline，与 SNMM 相当但在高维下更稳健；uniform rate 与理论预测一致。 - 想说明什么：验证 nonasymptotic uniform rate 在非线性高维下的实现，展示 RKHS 对 DML 的竞争力。

🔎 结论是否比证明窄： - Theorem 4.1 的 uniform rate 在条件 \((b, c)\) 与特征核下严格证明，但泛泛 claim 了"preserves the generality of classic identification"——这仅在识别假设成立时成立，而识别假设（特别是 distribution shift condition）的合理性未被证明覆盖，需研究者自行判断。 - Theorem 4.2 的 semiparametric efficiency 在半参数模型下严格证明，但泛泛 claim 了"verifies semiparametric efficiency"——这仅在核为特征核且模型正确识别时成立，若核选择不当（非特征核），效率可能不达。 - Theorem 4.3 的弱收敛在 \(\mathcal{H}_Y\) 中严格证明，但泛泛 claim 了"extends to counterfactual distributions"——弱收敛在 RKHS 中不等价于分布的弱收敛（需核为特征核且空间可分），条件在证明中隐含但未在 claim 中显式强调。

四、开放问题（点到为止，扎根具体语句）¶

Minimax optimality of the uniform rate in longitudinal settings：Theorem 4.1 给出率 \(O_P(n^{-\frac{b}{bc+1}})\)，但未证明这是纵向剂量反应曲线估计的 minimax 下界。纵向设定下的 minimax 率是否与时间固定设定相同（即核岭回归的率），还是因反馈与算子链而更慢？扎根在 Theorem 4.1 的陈述与 Fischer & Steinwart (2020) 的 minimax 率对比——本文未给纵向 minimax 下界。
Robustness to violation of distribution shift condition：Definition 4.1 的跨世界反事实依赖 distribution shift condition（Pearl 2001 的标准假设），但 Robins et al. (2020) 指出这不可检验。Sequential kernel embedding 能否适配 interventionist 定义（避免跨世界），或能否构造对 distribution shift 违反的 sensitivity analysis？扎根在 Remark 4.3（mediational g-formula）与 Robins et al. (2020) 的张力。
Computational cost of sequential kernel embedding for large \(T\)：算子链估计需在每个时间点做核岭回归，计算成本随 \(T\) 线性增长，且核矩阵的存储随 \(n\) 二次增长。对于大 \(T\) 或大 \(n\)，是否有低秩/随机化近似保持 uniform rate？扎根在 Section 5 的估计量构造——本文未讨论计算可行性。
Comparison with DML/orthogonal learning in longitudinal settings：引言淡化 DML 线索（Lewis & Syrgkanis 2021），但 DML 在纵向下有 \(\sqrt{n}\)-consistent 与 asymptotic normal 结果。RKHS 估计量的 uniform rate 在何种意义上优于 DML 的 pointwise rate？是否可结合 orthogonal moment 与 RKHS 嵌入（如 debiased kernel embedding）？扎根在引言对 DML 的定位与 Section 7 的效率验证——本文未直接对比 DML 的推断性质。

Maintained by 陈星宇 · Homepage · Source on GitHub

Sequential kernel embedding for mediated and time-varying dose response curves¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论