Causal Inference for Functional Treatments with Stochastic Policies¶
作者: Martha Barnard, Jared D. Huling, Julian Wolfson
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.27518
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的根本问题是:如何定义和估计一个函数型处理(functional treatment,例如一条连续的24小时身体活动轨迹)的因果效应,特别是当处理是无限维、且研究者关心的不是“把所有人的处理都设定为同一个固定函数”的效果,而是“改变整个群体处理分布”的效果。这个子方向当前处于从“固定函数型处理效应”向“随机策略型函数型处理效应”过渡的早期阶段,核心挑战在于:1)无限维处理缺乏概率密度,导致传统的倾向性得分加权和positivity假设难以满足;2)连续时间上的时变混杂(treatment-confounder feedback)在理论上可以无限多,如何调整是一个开放问题。
发展脉络(history)¶
作者在引言中梳理的线索如下:
-
奠基工作:固定函数型处理效应(ADRF)。Zhang et al. (2021)、Tan et al. (2025)、Wang et al. (2026) 提出了估计平均剂量反应函数(ADRF)的方法,即“如果所有人都被分配了某个固定的函数型处理,期望结果是什么”。作者指出,这些方法“确实解决了无限维处理带来的技术挑战”,但存在两个根本局限:positivity 经常被违反(例如老年人不可能达到年轻人的活动水平),且缺乏有意义的科学解释(因为固定函数不现实)。
-
主要进展:确定性修改策略(MFTP)。Jiang et al. (2026) 提出了修改函数型处理策略(MFTP),将 estimand 定义为“根据一个确定的规则修改自然处理值后的期望反事实结果”。这比 ADRF 更现实,但作者指出,先验地指定一个既科学相关、又对所有协变量组合满足 positivity 的确定性修改规则是困难的。
-
当前 frontier:随机策略(stochastic policies)。对于标量/离散处理,Kennedy (2019)、Díaz and Hejazi (2020)、Díaz et al. (2023)、Schindl et al. (2026) 提出了随机策略,即修改处理的分布而非处理本身。这些策略不要求 positivity 假设,且能隐式地随协变量变化。作者的核心贡献是将这一框架首次扩展到函数型处理。
-
本文的位置:作者在引言中明确将本文定位为“解决上述挑战”的方法:通过提出一种新的基函数构造方法,使得随机策略可以定义在单个基函数上,从而将无限维问题降为单变量问题;同时,通过将时间域划分为三段,利用离散时间纵向因果推断技术来调整时变混杂。
子线索聚类¶
这些被引文献大致落在三条子线索上:
- 线索一:固定函数型处理效应(ADRF)。代表:Zhang et al. (2021), Tan et al. (2025), Wang et al. (2026)。核心是估计 E[Y(a(·))] 对 a(·) 的依赖关系。瓶颈:positivity 和可解释性。
- 线索二:确定性修改策略(MFTP)。代表:Jiang et al. (2026)。核心是 E[Y(d(X, A(·)))],其中 d 是确定性规则。瓶颈:先验指定 d 的困难。
- 线索三:随机策略(stochastic policies)。代表:Kennedy (2019), Díaz and Hejazi (2020), Díaz et al. (2023), Schindl et al. (2026)。核心是修改处理分布。瓶颈:此前仅适用于标量/离散处理,未扩展到函数型。
这个方向在追问的核心问题¶
- 如何定义有意义的函数型处理 estimand? 需要同时满足:科学可解释、个体可行(positivity)、且能反映真实政策(修改分布而非固定值)。
- 如何调整连续时间上的时变混杂? 函数型处理在连续时间上存在潜在的无限次 treatment-confounder feedback,如何用可操作的假设将其简化?
- 如何估计这些 estimand 并建立渐近理论? 由于函数型处理缺乏密度,传统的 IPW 和 AIPW 无法直接应用,需要新的识别和估计策略。
⚠️ 作者的 framing(必须明确标注成“这是作者的说法”)¶
作者把缺口 frame 成:“现有方法要么不满足 positivity(ADRF),要么难以先验指定确定性规则(MFTP),要么无法处理时变混杂(所有方法)。我们的方法通过随机策略+单基函数修改+三段式时间划分,同时解决了这三个问题。”
- 被淡化/回避的竞争路线:作者淡化了 Jiang et al. (2026) 的 MFTP 方法,仅指出其“先验指定规则困难”,但未深入讨论 MFTP 是否可以通过数据自适应规则来缓解。作者也回避了 Ying (2024a, 2024b) 的连续时间动态治疗机制识别工作,仅说“他们提出了识别但没有提出估计量”,从而为自己的估计方法留出空间。
- 什么明显该被引/该存在、却没出现在 intro 里? 作者没有引用任何关于高维/函数型数据下的双稳健估计或半参数效率界的文献(例如关于函数型处理的高阶影响函数的工作)。这可能是因为该领域确实很新,但也可能是一个值得研究者去查的 gap。
张力¶
未见明显对立引用。所有被引工作基本是互补的,共同指向“从固定到随机、从标量到函数”的演进方向。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
- \(X_i\):\(p\) 维预处理协变量向量(可观测)。
- \(A_i(t)\):函数型处理,一个定义在 \(t \in [0, T]\) 上的随机过程(可观测,但为无限维)。
- \(Y_i\):标量结果(可观测)。
- \(Y(a(\cdot))\):反事实结果,即如果处理被设定为函数 \(a(\cdot)\) 时的结果(不可观测)。
- \(T_1 = [0, t_1), T_2 = [t_1, t_2], T_3 = (t_2, T]\):将时间域划分为三段。\(T_2\) 是政策实施区间。
- \(A^{(k)}(t)\):处理在区间 \(T_k\) 上的部分。
- \(\gamma_1(\cdot)\):政策基函数,由分析者选择,定义在 \([0, T]\) 上,满足 \(\|\gamma_1\|_2 = 1\) 且在 \(t_1, t_2\) 处为 0。
- \(B_1^{(2)} = \int_T A(t) \gamma_1^{(2)}(t) dt\):对应于政策基函数的标量基系数。这是整个方法的核心——随机策略将只修改这一个标量。
- \(A^-(\cdot) = A(\cdot) - B_1^{(2)} \gamma_1^{(2)}(\cdot)\):处理中不被修改的部分(即从 \(A\) 中减去 \(B_1^{(2)}\) 贡献后的残差函数)。
- \(\tilde{q}\):随机策略分布,即修改后的 \(B_1^{(2)}\) 的条件分布。\(\tilde{Q}_1^{(2)} \sim \tilde{q}(\cdot | X, A^{-\tilde{Q}}(\cdot))\)。
- \(\delta\):指数倾斜参数,控制策略的强度。\(\tilde{q}_\delta\) 是 \(f\) 的指数倾斜。
- \(f\):观测到的 \(B_1^{(2)}\) 的条件密度。
- \(m(X, A(\cdot)) = E[Y | X, A(\cdot)]\):结果回归函数。
- \(\mu^{\tilde{Q}} = E[Y(A^{\tilde{Q}}(\cdot))]\):目标 estimand,即随机策略下的期望反事实结果。
- \(\tau^{\tilde{Q}} = \mu^{\tilde{Q}} - \mu\):随机策略的因果效应,其中 \(\mu = E[Y]\)。
-
模型:数据生成机制是标准的观测性研究设定。处理 \(A(t)\) 是一个随机过程,协变量 \(X\) 和结果 \(Y\) 是标量。核心统计模型是半参数模型:对 \(m\) 和 \(f\) 不做参数形式假设,但假设它们可以被灵活地估计(如随机森林、LinCDE)。因果识别依赖于无混杂性假设(A3/A3)和一致性假设*(A1)。
-
可观测数据:研究者实际能观测到的是 \(\{X_i, Y_i, A_i(t)\}_{i=1}^n\),其中 \(A_i(t)\) 是在 \(n\) 个时间点上采样的离散观测(例如每分钟一个数据点)。想要但观测不到的是:1)反事实结果 \(Y(a(\cdot))\);2)处理 \(A(t)\) 的连续时间真实函数(只能通过离散观测近似);3)条件密度 \(f\) 和结果回归 \(m\)(需要估计)。
第二步:讲最小内核¶
本文的最小内核是:将无限维的函数型处理问题,通过一个精心构造的基函数,降维成一个单变量随机策略问题。
最简特例:假设我们只关心一个非常短的时间区间 \([t_1, t_2]\)(例如 3 小时),并且我们选择了一个非常简单的政策基函数 \(\gamma_1^{(2)}(t)\),它在 \([t_1, t_2]\) 上是一个常数(例如 \(\gamma_1^{(2)}(t) = 1/\sqrt{t_2-t_1}\)),在区间外为 0。那么,\(B_1^{(2)}\) 就简单地是 \(A(t)\) 在 \([t_1, t_2]\) 上的平均值(乘以一个常数)。此时,整个问题退化为:
- 处理:一个标量 \(B_1^{(2)}\)(区间平均活动量)。
- 协变量:\(X\) 和 \(A^-(\cdot)\)(即区间外的活动轨迹,以及区间内与平均活动正交的成分)。
- 随机策略:我们想估计“如果我们将每个人在 \([t_1, t_2]\) 上的平均活动量分布,通过指数倾斜 \(\delta\) 进行修改(例如,让高活动量更可能出现),对结果 \(Y\) 的因果效应是什么?”
在这个特例下,本文的核心方法就变成了 Schindl et al. (2026) 的标量连续处理随机策略方法的直接应用。本文的一般性贡献在于:1)提供了一个通用的基函数构造方法(Gram-Schmidt),使得任何分析者选择的函数 \(\gamma_1\) 都能被纳入一个正交基,从而将“修改一个函数”转化为“修改一个标量系数”;2)通过将时间域划分为三段,并允许 \(A^-(\cdot)\) 包含未来信息(\(A^{(3)}\)),来处理时变混杂。
核心数学困难:即使在这个特例下,困难仍然在于:1)\(B_1^{(2)}\) 的条件密度 \(f\) 和结果回归 \(m\) 都是高维的(因为 \(A^-(\cdot)\) 是函数),需要非参数估计;2)需要证明当基函数截断阶数 \(J\) 随样本量 \(n\) 增长时,近似误差可以忽略,且估计量仍能达到 \(\sqrt{n/\delta}\) 的收敛率。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在函数型处理(如身体活动轨迹)的因果推断中,如何定义和估计随机策略下的因果效应,同时调整连续时间上的时变混杂。
- 核心工具/方法:提出一种新的基函数构造方法(Gram-Schmidt 正交化),将分析者选择的单个函数 \(\gamma_1\) 纳入正交基,从而将随机策略定义在单个标量基系数 \(B_1^{(2)}\) 上;然后利用双机器学习(DML)框架,结合指数倾斜的随机策略,构造一个率双稳健(rate double robust)的估计量。
- 主要结论:该估计量是渐近正态的,收敛率为 \(\sqrt{n/\delta}\)(其中 \(\delta\) 是策略强度参数),且渐近方差与 Schindl et al. (2026) 推导的非参数效率界一致。模拟和 NHANES 数据应用验证了方法的有限样本性能。
关键设定与假设¶
在第二节最小记号的基础上,补全完整设定:
- 核心记号:如上所述。
- 关键假设:
- A1 (一致性):如果 \(A(\cdot) = a(\cdot)\),则 \(Y = Y(a(\cdot))\)。标准假设。
- A2 (Positivity):\(\tilde{Q}_1^{(2)}\) 和 \(B_1^{(2)}\) 在给定 \(X, A^{-\tilde{Q}}(\cdot)\) 下有相同的支撑。作者强调,通过选择指数倾斜的随机策略,这个假设自动满足(因为 \(\tilde{q}_\delta\) 和 \(f\) 有相同的零测集)。
- A3 (无混杂性,用于 q):\(Y(a(\cdot)) \perp\!\!\!\perp B_1^{(2)} \mid X, A^-(\cdot)\)。即给定 \(X\) 和整个不被修改的函数 \(A^-(\cdot)\),\(B_1^{(2)}\) 与反事实结果独立。这是一个很强的假设,因为它要求 \(A^-(\cdot)\) 包含了所有混杂信息。
- A3* (无混杂性,用于 q*):\((Y(a(\cdot)), A^{(3)}(\cdot)) \perp\!\!\!\perp B_1^{(2)} \mid X, A^{-[0,t_2]}(\cdot)\)。这是一个更强的假设,因为它只条件在 \(X\) 和过去的函数 \(A^{-[0,t_2]}(\cdot)\) 上,并且还要求 \(B_1^{(2)}\) 与未来的处理 \(A^{(3)}(\cdot)\) 独立。
- C1-C2:函数型处理的谱分解条件(特征值收敛)和结果回归的 Lipschitz 条件,用于保证基于截断基的近似是良定义的。
- A4-A6, C5-C8:用于渐近理论的技术条件,包括弱 positivity、模型一致性、收敛率、有界性等。其中 A6 (率双稳健性) 是关键:\(\|\epsilon^f_J\| \times \|\epsilon^m_J\| + \|\epsilon^f_J\|^2 = o_p((n/\delta)^{-1/2})\)。这意味着只要倾向得分(密度)和结果回归之一以 \(o_p(n^{-1/4})\) 或更快的速度收敛,估计量就能达到 \(\sqrt{n/\delta}\) 的收敛率。
- A7 (残差方差率):\(\Delta_{J(n)} = o(\delta/n)\)。这是本文特有的假设,要求基函数截断的残差方差随样本量增长而足够快地消失。
主要结果¶
- 定理 1:对于任何选择的 \(\gamma_1(\cdot)\),基于新基 \(\{ \gamma_j \}_{j=1}^J\) 的 \(J\) 项近似所解释的方差,不小于基于前 \(J-1\) 个 FPCA 特征函数的近似所解释的方差。这保证了新基在解释方差方面不比 FPCA 差。
- 定理 2 (增强识别):在给定假设下,目标 estimand \(\mu^{\tilde{Q}}\) 可以表示为:
\[\mu^{\tilde{Q}} = \lim_{J\to\infty} E\left[ \frac{\tilde{q}(B_1^{(2)}|X, A_J^{-\tilde{Q}}(\cdot))}{f(B_1^{(2)}|X, A_J^{-\tilde{Q}}(\cdot))} \left\{ Y - E^{\tilde{Q}}[m(X, A_J(\cdot)) | X, A_J^-(\cdot)] \right\} + E^{\tilde{Q}}[m(X, A_J(\cdot)) | X, A_J^-(\cdot)] \right]\]这是 AIPW 形式的推广,其中 \(E^{\tilde{Q}}[m(\cdot)]\) 是对 \(m\) 在随机策略 \(\tilde{q}\) 下取期望。
- 定理 3 (渐近正态性):在给定条件下,\(\sqrt{n} (\hat{\mu}^{\tilde{Q}(\delta)}_{J(n)} - \mu^{\tilde{Q}(\delta)}) \xrightarrow{d} N(0, \sigma^2)\)。收敛率是 \(\sqrt{n/\delta}\),渐近方差与 Schindl et al. (2026) 的效率界一致。
- 定理 4 (效应估计):\(\sqrt{n} (\hat{\tau}^{\tilde{Q}(\delta)}_{J(n)} - \tau^{\tilde{Q}(\delta)}) \xrightarrow{d} N(0, \sigma_\tau^2)\)。由于 \(\hat{\mu} = \frac{1}{n}\sum Y_i\) 是 \(\sqrt{n}\) 一致的,效应估计量的收敛率是 \(\sqrt{\min(n, n/\delta)}\)。
证明路线与技术技巧¶
-
整体路线:
- 识别:首先证明在无限维下,目标 estimand 可以通过有限维基近似来良定义(引理 S2, 推论 S3)。然后,通过无混杂性假设,将反事实期望转化为观测数据的条件期望,得到结果回归识别(定理 S4)和加权识别(定理 S5)。最后,将两者结合,得到增强识别(定理 2)。
- 估计:构造一个基于交叉拟合的 DML 估计量 \(\hat{\mu}^{\tilde{Q}(\delta)}_{J(n)}\)。
- 渐近分析:将估计误差分解为三部分:1)采样误差(\(\frac{1}{n}\sum \mu_{J(n),i} - E[\mu_{J(n),i}]\));2)近似误差(\(E[\mu_{J(n),i}] - \mu^{\tilde{Q}(\delta)}\));3)估计误差(\(\hat{\mu}_{J(n)} - \mu_{J(n)}\))。证明采样误差通过 Lindeberg-Feller CLT 收敛到正态;近似误差通过假设 A7(残差方差率)被控制为 \(o(\sqrt{\delta/n})\);估计误差通过率双稳健性假设 A6 和 Schindl et al. (2026) 的引理被控制为 \(o_p(\sqrt{\delta/n})\)。
-
关键跳跃点:
- 从无限维到有限维的良定义性:证明 \(\lim_{J\to\infty} \mu_J\) 存在且等于 \(E[Y]\)(引理 S2)。这是整个识别的基础,依赖于 Lipschitz 条件和特征值收敛。
- 新基的方差解释性质:定理 1 的证明巧妙地利用了 Gram-Schmidt 过程和 Bessel 不等式,将新基的近似表示为 FPCA 近似加上一个正交项,从而证明新基不损失解释方差。
- 处理近似误差:假设 A7 要求截断残差方差 \(\Delta_{J(n)}\) 以 \(o(\delta/n)\) 的速度消失。这比通常的 \(o(1)\) 要求强得多,但作者指出,对于某些函数类(如 Sobolev 类),这是可以满足的(引用 Jiang et al. 2026)。
-
技术技巧点名:
- Gram-Schmidt 正交化:用于构造包含分析者指定函数 \(\gamma_1\) 的正交基。
- 指数倾斜:用于定义随机策略分布 \(\tilde{q}_\delta\),保证 positivity。
- 双机器学习 (DML) / 交叉拟合:用于估计 \(\hat{f}\) 和 \(\hat{m}\),避免过拟合导致的偏差。
- Lindeberg-Feller 中心极限定理:用于证明采样误差的渐近正态性。
- 率双稳健性 (Rate Double Robustness):核心假设 A6,允许使用灵活的机器学习模型。
- 混合 \(L^2\)-sup 范数:用于刻画密度估计误差(\(\|\cdot\|_{L^\infty_{b_1^{(2)}}, L^2}\))。
真实例子与应用¶
- 数据:NHANES 2011-2014 数据,包含 7,504 名个体的 24 小时分钟级加速度计数据(MIMS 单位)和 5 年全因死亡率。
- 方法应用:将时间域划分为三段,政策区间 \([t_1, t_2]\) 分别设为 7AM-10AM、1PM-4PM、5PM-8PM。选择不同的政策基函数 \(\gamma_1\)(如 \(\gamma_{1,3}\) 等)。估计不同 \(\delta\) 值下的随机策略效应 \(\hat{\tau}^{\tilde{Q}(\delta)}\),并将 MIMS 单位转化为步数以便解释。
- 结果:发现增加 7AM-10AM 和 5PM-8PM 的身体活动与死亡率降低显著相关,而 1PM-4PM 的效果不显著。例如,对于 5PM-8PM,最大的显著效应是死亡率降低 0.90%(对应中位步数增加 234 步)。
- 例子想说明什么:1)方法可以应用于真实数据,并产生有意义的、可解释的结果;2)结果与关联性分析(SoFR)不同,展示了因果推断的价值;3)随机策略隐式地随协变量(如年龄、行动能力)变化,比确定性策略更现实。
🔎 结论是否比证明窄¶
- 窄结论:定理 3 和 4 的渐近正态性是在假设 A7(\(\Delta_{J(n)} = o(\delta/n)\))下证明的。这个假设很强,要求基函数截断的残差方差随样本量增长而非常快地消失。作者在文中提到“See Jiang et al. (2026) for details on which \(J(n)\) satisfy this assumption for a variety of function classes”,但没有给出具体的例子或条件。这意味着,对于某些函数类(例如特征值衰减较慢的),这个假设可能不成立,从而渐近正态性可能不成立。
- 泛化 claim:作者在讨论中声称“we can propose estimators and derive asymptotic results that require no assumptions on the basis approximation used”(关于 \(\hat{\mu}^{\tilde{Q}(\delta)}\) 的推论 S6)。但推论 S6 的证明依赖于“假设 A4-A6 和条件 C5-C6 在 \(J\to\infty\) 的极限下成立”,这实际上是一个更强的假设,因为它要求非参数估计在无限维空间上一致收敛。因此,这个“无假设”的 claim 可能比实际证明的要宽。
四、开放问题¶
- 放松假设 A7:定理 3 的证明依赖于 \(\Delta_{J(n)} = o(\delta/n)\)。对于特征值衰减较慢的函数类(如 Hölder 类),这个条件可能无法满足。能否在更弱的条件下(如 \(\Delta_{J(n)} = o(1)\))建立渐近正态性?(扎根于假设 A7 和定理 3 的证明)。
- 放松无混杂性假设:假设 A3 和 A3* 很强。能否发展出对未观测混杂的敏感性分析方法? 或者,能否利用工具变量或近端因果推断(proximal causal inference)来放松这个假设?(扎根于假设 A3/A3* 和作者在讨论中提到的“additional work is needed”)。
- 处理自适应时间区间:作者指出,政策区间 \([t_1, t_2]\) 必须事先指定且对所有个体相同。能否发展出允许政策区间随个体协变量自适应选择的方法? 例如,对于不同年龄的人,政策区间可能不同。(扎根于讨论部分“Future work includes developing causal effect estimation methods for stochastic policies applied to different time periods across individuals”)。
- 避免条件密度估计:作者指出,条件密度估计 \(f\) 在有限样本下具有挑战性。能否构造一个不需要估计 \(f\) 的估计量? 例如,通过使用倾向性得分(propensity score)的某种泛化,或者使用基于矩条件的方法?(扎根于讨论部分“Future work may focus on developing estimators for stochastic policies that do not require conditional density estimation”)。
Maintained by 陈星宇 · Homepage · Source on GitHub