Causal Inference for Functional Treatments with Stochastic Policies¶

作者: Martha Barnard, Jared D. Huling, Julian Wolfson
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.27518

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的根本问题是：如何定义和估计一个函数型处理（functional treatment，例如一条连续的24小时身体活动轨迹）的因果效应，特别是当处理是无限维、且研究者关心的不是“把所有人的处理都设定为同一个固定函数”的效果，而是“改变整个群体处理分布”的效果。这个子方向当前处于从“固定函数型处理效应”向“随机策略型函数型处理效应”过渡的早期阶段，核心挑战在于：1）无限维处理缺乏概率密度，导致传统的倾向性得分加权和positivity假设难以满足；2）连续时间上的时变混杂（treatment-confounder feedback）在理论上可以无限多，如何调整是一个开放问题。

发展脉络（history）¶

作者在引言中梳理的线索如下：

奠基工作：固定函数型处理效应（ADRF）。Zhang et al. (2021)、Tan et al. (2025)、Wang et al. (2026) 提出了估计平均剂量反应函数（ADRF）的方法，即“如果所有人都被分配了某个固定的函数型处理，期望结果是什么”。作者指出，这些方法“确实解决了无限维处理带来的技术挑战”，但存在两个根本局限：positivity 经常被违反（例如老年人不可能达到年轻人的活动水平），且缺乏有意义的科学解释（因为固定函数不现实）。
主要进展：确定性修改策略（MFTP）。Jiang et al. (2026) 提出了修改函数型处理策略（MFTP），将 estimand 定义为“根据一个确定的规则修改自然处理值后的期望反事实结果”。这比 ADRF 更现实，但作者指出，先验地指定一个既科学相关、又对所有协变量组合满足 positivity 的确定性修改规则是困难的。
当前 frontier：随机策略（stochastic policies）。对于标量/离散处理，Kennedy (2019)、Díaz and Hejazi (2020)、Díaz et al. (2023)、Schindl et al. (2026) 提出了随机策略，即修改处理的分布而非处理本身。这些策略不要求 positivity 假设，且能隐式地随协变量变化。作者的核心贡献是将这一框架首次扩展到函数型处理。
本文的位置：作者在引言中明确将本文定位为“解决上述挑战”的方法：通过提出一种新的基函数构造方法，使得随机策略可以定义在单个基函数上，从而将无限维问题降为单变量问题；同时，通过将时间域划分为三段，利用离散时间纵向因果推断技术来调整时变混杂。

子线索聚类¶

这些被引文献大致落在三条子线索上：

线索一：固定函数型处理效应（ADRF）。代表：Zhang et al. (2021), Tan et al. (2025), Wang et al. (2026)。核心是估计 E[Y(a(·))] 对 a(·) 的依赖关系。瓶颈：positivity 和可解释性。
线索二：确定性修改策略（MFTP）。代表：Jiang et al. (2026)。核心是 E[Y(d(X, A(·)))]，其中 d 是确定性规则。瓶颈：先验指定 d 的困难。
线索三：随机策略（stochastic policies）。代表：Kennedy (2019), Díaz and Hejazi (2020), Díaz et al. (2023), Schindl et al. (2026)。核心是修改处理分布。瓶颈：此前仅适用于标量/离散处理，未扩展到函数型。

这个方向在追问的核心问题¶

如何定义有意义的函数型处理 estimand？ 需要同时满足：科学可解释、个体可行（positivity）、且能反映真实政策（修改分布而非固定值）。
如何调整连续时间上的时变混杂？ 函数型处理在连续时间上存在潜在的无限次 treatment-confounder feedback，如何用可操作的假设将其简化？
如何估计这些 estimand 并建立渐近理论？ 由于函数型处理缺乏密度，传统的 IPW 和 AIPW 无法直接应用，需要新的识别和估计策略。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成：“现有方法要么不满足 positivity（ADRF），要么难以先验指定确定性规则（MFTP），要么无法处理时变混杂（所有方法）。我们的方法通过随机策略+单基函数修改+三段式时间划分，同时解决了这三个问题。”

被淡化/回避的竞争路线：作者淡化了 Jiang et al. (2026) 的 MFTP 方法，仅指出其“先验指定规则困难”，但未深入讨论 MFTP 是否可以通过数据自适应规则来缓解。作者也回避了 Ying (2024a, 2024b) 的连续时间动态治疗机制识别工作，仅说“他们提出了识别但没有提出估计量”，从而为自己的估计方法留出空间。
什么明显该被引/该存在、却没出现在 intro 里？ 作者没有引用任何关于高维/函数型数据下的双稳健估计或半参数效率界的文献（例如关于函数型处理的高阶影响函数的工作）。这可能是因为该领域确实很新，但也可能是一个值得研究者去查的 gap。

张力¶

未见明显对立引用。所有被引工作基本是互补的，共同指向“从固定到随机、从标量到函数”的演进方向。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(X_i\)：\(p\) 维预处理协变量向量（可观测）。
- \(A_i(t)\)：函数型处理，一个定义在 \(t \in [0, T]\) 上的随机过程（可观测，但为无限维）。
- \(Y_i\)：标量结果（可观测）。
- \(Y(a(\cdot))\)：反事实结果，即如果处理被设定为函数 \(a(\cdot)\) 时的结果（不可观测）。
- \(T_1 = [0, t_1), T_2 = [t_1, t_2], T_3 = (t_2, T]\)：将时间域划分为三段。\(T_2\) 是政策实施区间。
- \(A^{(k)}(t)\)：处理在区间 \(T_k\) 上的部分。
- \(\gamma_1(\cdot)\)：政策基函数，由分析者选择，定义在 \([0, T]\) 上，满足 \(\|\gamma_1\|_2 = 1\) 且在 \(t_1, t_2\) 处为 0。
- \(B_1^{(2)} = \int_T A(t) \gamma_1^{(2)}(t) dt\)：对应于政策基函数的标量基系数。这是整个方法的核心——随机策略将只修改这一个标量。
- \(A^-(\cdot) = A(\cdot) - B_1^{(2)} \gamma_1^{(2)}(\cdot)\)：处理中不被修改的部分（即从 \(A\) 中减去 \(B_1^{(2)}\) 贡献后的残差函数）。
- \(\tilde{q}\)：随机策略分布，即修改后的 \(B_1^{(2)}\) 的条件分布。\(\tilde{Q}_1^{(2)} \sim \tilde{q}(\cdot | X, A^{-\tilde{Q}}(\cdot))\)。
- \(\delta\)：指数倾斜参数，控制策略的强度。\(\tilde{q}_\delta\) 是 \(f\) 的指数倾斜。
- \(f\)：观测到的 \(B_1^{(2)}\) 的条件密度。
- \(m(X, A(\cdot)) = E[Y | X, A(\cdot)]\)：结果回归函数。
- \(\mu^{\tilde{Q}} = E[Y(A^{\tilde{Q}}(\cdot))]\)：目标 estimand，即随机策略下的期望反事实结果。
- \(\tau^{\tilde{Q}} = \mu^{\tilde{Q}} - \mu\)：随机策略的因果效应，其中 \(\mu = E[Y]\)。
模型：数据生成机制是标准的观测性研究设定。处理 \(A(t)\) 是一个随机过程，协变量 \(X\) 和结果 \(Y\) 是标量。核心统计模型是半参数模型：对 \(m\) 和 \(f\) 不做参数形式假设，但假设它们可以被灵活地估计（如随机森林、LinCDE）。因果识别依赖于无混杂性假设（A3/A3）和一致性假设*（A1）。
可观测数据：研究者实际能观测到的是 \(\{X_i, Y_i, A_i(t)\}_{i=1}^n\)，其中 \(A_i(t)\) 是在 \(n\) 个时间点上采样的离散观测（例如每分钟一个数据点）。想要但观测不到的是：1）反事实结果 \(Y(a(\cdot))\)；2）处理 \(A(t)\) 的连续时间真实函数（只能通过离散观测近似）；3）条件密度 \(f\) 和结果回归 \(m\)（需要估计）。

第二步：讲最小内核¶

本文的最小内核是：将无限维的函数型处理问题，通过一个精心构造的基函数，降维成一个单变量随机策略问题。

最简特例：假设我们只关心一个非常短的时间区间 \([t_1, t_2]\)（例如 3 小时），并且我们选择了一个非常简单的政策基函数 \(\gamma_1^{(2)}(t)\)，它在 \([t_1, t_2]\) 上是一个常数（例如 \(\gamma_1^{(2)}(t) = 1/\sqrt{t_2-t_1}\)），在区间外为 0。那么，\(B_1^{(2)}\) 就简单地是 \(A(t)\) 在 \([t_1, t_2]\) 上的平均值（乘以一个常数）。此时，整个问题退化为：

处理：一个标量 \(B_1^{(2)}\)（区间平均活动量）。
协变量：\(X\) 和 \(A^-(\cdot)\)（即区间外的活动轨迹，以及区间内与平均活动正交的成分）。
随机策略：我们想估计“如果我们将每个人在 \([t_1, t_2]\) 上的平均活动量分布，通过指数倾斜 \(\delta\) 进行修改（例如，让高活动量更可能出现），对结果 \(Y\) 的因果效应是什么？”

在这个特例下，本文的核心方法就变成了 Schindl et al. (2026) 的标量连续处理随机策略方法的直接应用。本文的一般性贡献在于：1）提供了一个通用的基函数构造方法（Gram-Schmidt），使得任何分析者选择的函数 \(\gamma_1\) 都能被纳入一个正交基，从而将“修改一个函数”转化为“修改一个标量系数”；2）通过将时间域划分为三段，并允许 \(A^-(\cdot)\) 包含未来信息（\(A^{(3)}\)），来处理时变混杂。

核心数学困难：即使在这个特例下，困难仍然在于：1）\(B_1^{(2)}\) 的条件密度 \(f\) 和结果回归 \(m\) 都是高维的（因为 \(A^-(\cdot)\) 是函数），需要非参数估计；2）需要证明当基函数截断阶数 \(J\) 随样本量 \(n\) 增长时，近似误差可以忽略，且估计量仍能达到 \(\sqrt{n/\delta}\) 的收敛率。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在函数型处理（如身体活动轨迹）的因果推断中，如何定义和估计随机策略下的因果效应，同时调整连续时间上的时变混杂。
核心工具/方法：提出一种新的基函数构造方法（Gram-Schmidt 正交化），将分析者选择的单个函数 \(\gamma_1\) 纳入正交基，从而将随机策略定义在单个标量基系数 \(B_1^{(2)}\) 上；然后利用双机器学习（DML）框架，结合指数倾斜的随机策略，构造一个率双稳健（rate double robust）的估计量。
主要结论：该估计量是渐近正态的，收敛率为 \(\sqrt{n/\delta}\)（其中 \(\delta\) 是策略强度参数），且渐近方差与 Schindl et al. (2026) 推导的非参数效率界一致。模拟和 NHANES 数据应用验证了方法的有限样本性能。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

核心记号：如上所述。
关键假设：
- A1 (一致性)：如果 \(A(\cdot) = a(\cdot)\)，则 \(Y = Y(a(\cdot))\)。标准假设。
- A2 (Positivity)：\(\tilde{Q}_1^{(2)}\) 和 \(B_1^{(2)}\) 在给定 \(X, A^{-\tilde{Q}}(\cdot)\) 下有相同的支撑。作者强调，通过选择指数倾斜的随机策略，这个假设自动满足（因为 \(\tilde{q}_\delta\) 和 \(f\) 有相同的零测集）。
- A3 (无混杂性，用于 q)：\(Y(a(\cdot)) \perp\!\!\!\perp B_1^{(2)} \mid X, A^-(\cdot)\)。即给定 \(X\) 和整个不被修改的函数 \(A^-(\cdot)\)，\(B_1^{(2)}\) 与反事实结果独立。这是一个很强的假设，因为它要求 \(A^-(\cdot)\) 包含了所有混杂信息。
- A3* (无混杂性，用于 q*)：\((Y(a(\cdot)), A^{(3)}(\cdot)) \perp\!\!\!\perp B_1^{(2)} \mid X, A^{-[0,t_2]}(\cdot)\)。这是一个更强的假设，因为它只条件在 \(X\) 和过去的函数 \(A^{-[0,t_2]}(\cdot)\) 上，并且还要求 \(B_1^{(2)}\) 与未来的处理 \(A^{(3)}(\cdot)\) 独立。
- C1-C2：函数型处理的谱分解条件（特征值收敛）和结果回归的 Lipschitz 条件，用于保证基于截断基的近似是良定义的。
- A4-A6, C5-C8：用于渐近理论的技术条件，包括弱 positivity、模型一致性、收敛率、有界性等。其中 A6 (率双稳健性) 是关键：\(\|\epsilon^f_J\| \times \|\epsilon^m_J\| + \|\epsilon^f_J\|^2 = o_p((n/\delta)^{-1/2})\)。这意味着只要倾向得分（密度）和结果回归之一以 \(o_p(n^{-1/4})\) 或更快的速度收敛，估计量就能达到 \(\sqrt{n/\delta}\) 的收敛率。
- A7 (残差方差率)：\(\Delta_{J(n)} = o(\delta/n)\)。这是本文特有的假设，要求基函数截断的残差方差随样本量增长而足够快地消失。

主要结果¶

定理 1：对于任何选择的 \(\gamma_1(\cdot)\)，基于新基 \(\{ \gamma_j \}_{j=1}^J\) 的 \(J\) 项近似所解释的方差，不小于基于前 \(J-1\) 个 FPCA 特征函数的近似所解释的方差。这保证了新基在解释方差方面不比 FPCA 差。
定理 2 (增强识别)：在给定假设下，目标 estimand \(\mu^{\tilde{Q}}\) 可以表示为：
\[\mu^{\tilde{Q}} = \lim_{J\to\infty} E\left[ \frac{\tilde{q}(B_1^{(2)}|X, A_J^{-\tilde{Q}}(\cdot))}{f(B_1^{(2)}|X, A_J^{-\tilde{Q}}(\cdot))} \left\{ Y - E^{\tilde{Q}}[m(X, A_J(\cdot)) | X, A_J^-(\cdot)] \right\} + E^{\tilde{Q}}[m(X, A_J(\cdot)) | X, A_J^-(\cdot)] \right]\]
这是 AIPW 形式的推广，其中 \(E^{\tilde{Q}}[m(\cdot)]\) 是对 \(m\) 在随机策略 \(\tilde{q}\) 下取期望。
定理 3 (渐近正态性)：在给定条件下，\(\sqrt{n} (\hat{\mu}^{\tilde{Q}(\delta)}_{J(n)} - \mu^{\tilde{Q}(\delta)}) \xrightarrow{d} N(0, \sigma^2)\)。收敛率是 \(\sqrt{n/\delta}\)，渐近方差与 Schindl et al. (2026) 的效率界一致。
定理 4 (效应估计)：\(\sqrt{n} (\hat{\tau}^{\tilde{Q}(\delta)}_{J(n)} - \tau^{\tilde{Q}(\delta)}) \xrightarrow{d} N(0, \sigma_\tau^2)\)。由于 \(\hat{\mu} = \frac{1}{n}\sum Y_i\) 是 \(\sqrt{n}\) 一致的，效应估计量的收敛率是 \(\sqrt{\min(n, n/\delta)}\)。

证明路线与技术技巧¶

整体路线：
1. 识别：首先证明在无限维下，目标 estimand 可以通过有限维基近似来良定义（引理 S2, 推论 S3）。然后，通过无混杂性假设，将反事实期望转化为观测数据的条件期望，得到结果回归识别（定理 S4）和加权识别（定理 S5）。最后，将两者结合，得到增强识别（定理 2）。
2. 估计：构造一个基于交叉拟合的 DML 估计量 \(\hat{\mu}^{\tilde{Q}(\delta)}_{J(n)}\)。
3. 渐近分析：将估计误差分解为三部分：1）采样误差（\(\frac{1}{n}\sum \mu_{J(n),i} - E[\mu_{J(n),i}]\)）；2）近似误差（\(E[\mu_{J(n),i}] - \mu^{\tilde{Q}(\delta)}\)）；3）估计误差（\(\hat{\mu}_{J(n)} - \mu_{J(n)}\)）。证明采样误差通过 Lindeberg-Feller CLT 收敛到正态；近似误差通过假设 A7（残差方差率）被控制为 \(o(\sqrt{\delta/n})\)；估计误差通过率双稳健性假设 A6 和 Schindl et al. (2026) 的引理被控制为 \(o_p(\sqrt{\delta/n})\)。
关键跳跃点：
- 从无限维到有限维的良定义性：证明 \(\lim_{J\to\infty} \mu_J\) 存在且等于 \(E[Y]\)（引理 S2）。这是整个识别的基础，依赖于 Lipschitz 条件和特征值收敛。
- 新基的方差解释性质：定理 1 的证明巧妙地利用了 Gram-Schmidt 过程和 Bessel 不等式，将新基的近似表示为 FPCA 近似加上一个正交项，从而证明新基不损失解释方差。
- 处理近似误差：假设 A7 要求截断残差方差 \(\Delta_{J(n)}\) 以 \(o(\delta/n)\) 的速度消失。这比通常的 \(o(1)\) 要求强得多，但作者指出，对于某些函数类（如 Sobolev 类），这是可以满足的（引用 Jiang et al. 2026）。
技术技巧点名：
- Gram-Schmidt 正交化：用于构造包含分析者指定函数 \(\gamma_1\) 的正交基。
- 指数倾斜：用于定义随机策略分布 \(\tilde{q}_\delta\)，保证 positivity。
- 双机器学习 (DML) / 交叉拟合：用于估计 \(\hat{f}\) 和 \(\hat{m}\)，避免过拟合导致的偏差。
- Lindeberg-Feller 中心极限定理：用于证明采样误差的渐近正态性。
- 率双稳健性 (Rate Double Robustness)：核心假设 A6，允许使用灵活的机器学习模型。
- 混合 \(L^2\)-sup 范数：用于刻画密度估计误差（\(\|\cdot\|_{L^\infty_{b_1^{(2)}}, L^2}\)）。

真实例子与应用¶

数据：NHANES 2011-2014 数据，包含 7,504 名个体的 24 小时分钟级加速度计数据（MIMS 单位）和 5 年全因死亡率。
方法应用：将时间域划分为三段，政策区间 \([t_1, t_2]\) 分别设为 7AM-10AM、1PM-4PM、5PM-8PM。选择不同的政策基函数 \(\gamma_1\)（如 \(\gamma_{1,3}\) 等）。估计不同 \(\delta\) 值下的随机策略效应 \(\hat{\tau}^{\tilde{Q}(\delta)}\)，并将 MIMS 单位转化为步数以便解释。
结果：发现增加 7AM-10AM 和 5PM-8PM 的身体活动与死亡率降低显著相关，而 1PM-4PM 的效果不显著。例如，对于 5PM-8PM，最大的显著效应是死亡率降低 0.90%（对应中位步数增加 234 步）。
例子想说明什么：1）方法可以应用于真实数据，并产生有意义的、可解释的结果；2）结果与关联性分析（SoFR）不同，展示了因果推断的价值；3）随机策略隐式地随协变量（如年龄、行动能力）变化，比确定性策略更现实。

🔎 结论是否比证明窄¶

窄结论：定理 3 和 4 的渐近正态性是在假设 A7（\(\Delta_{J(n)} = o(\delta/n)\)）下证明的。这个假设很强，要求基函数截断的残差方差随样本量增长而非常快地消失。作者在文中提到“See Jiang et al. (2026) for details on which \(J(n)\) satisfy this assumption for a variety of function classes”，但没有给出具体的例子或条件。这意味着，对于某些函数类（例如特征值衰减较慢的），这个假设可能不成立，从而渐近正态性可能不成立。
泛化 claim：作者在讨论中声称“we can propose estimators and derive asymptotic results that require no assumptions on the basis approximation used”（关于 \(\hat{\mu}^{\tilde{Q}(\delta)}\) 的推论 S6）。但推论 S6 的证明依赖于“假设 A4-A6 和条件 C5-C6 在 \(J\to\infty\) 的极限下成立”，这实际上是一个更强的假设，因为它要求非参数估计在无限维空间上一致收敛。因此，这个“无假设”的 claim 可能比实际证明的要宽。

四、开放问题¶

放松假设 A7：定理 3 的证明依赖于 \(\Delta_{J(n)} = o(\delta/n)\)。对于特征值衰减较慢的函数类（如 Hölder 类），这个条件可能无法满足。能否在更弱的条件下（如 \(\Delta_{J(n)} = o(1)\)）建立渐近正态性？（扎根于假设 A7 和定理 3 的证明）。
放松无混杂性假设：假设 A3 和 A3* 很强。能否发展出对未观测混杂的敏感性分析方法？ 或者，能否利用工具变量或近端因果推断（proximal causal inference）来放松这个假设？（扎根于假设 A3/A3* 和作者在讨论中提到的“additional work is needed”）。
处理自适应时间区间：作者指出，政策区间 \([t_1, t_2]\) 必须事先指定且对所有个体相同。能否发展出允许政策区间随个体协变量自适应选择的方法？ 例如，对于不同年龄的人，政策区间可能不同。（扎根于讨论部分“Future work includes developing causal effect estimation methods for stochastic policies applied to different time periods across individuals”）。
避免条件密度估计：作者指出，条件密度估计 \(f\) 在有限样本下具有挑战性。能否构造一个不需要估计 \(f\) 的估计量？ 例如，通过使用倾向性得分（propensity score）的某种泛化，或者使用基于矩条件的方法？（扎根于讨论部分“Future work may focus on developing estimators for stochastic policies that do not require conditional density estimation”）。

Maintained by 陈星宇 · Homepage · Source on GitHub