Semi- and non-parametric approaches to individualized treatment regimes in the presence of causal mediation¶

作者: Misha Dolmatov, Erica E. M. Moodie, David A. Stephens, Dipankar Bandyopadhyay
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.21708

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是在存在因果中介变量时，如何估计个体化治疗规则（ITR）。核心问题：传统最优ITR最大化总效应（即沿着所有因果路径到结局的效应），但研究者可能希望分离直接与间接效应，针对特定中介路径进行优化（例如避免通过某种副作用的路径）。这需要先估计条件直接/间接效应（即给定协变量时的中介效应），再用它们构造ITR。该子方向处于早期发展状态——现有中介效应方法多关注边际效应，条件效应用于ITR的文献稀疏，且处理多中介/连续中介的工具不成熟。

发展脉络（从奠基到当前frontier）¶

ITR的奠基工作：Q-learning（Murphy 2005）、G-estimation（Robins 2004）、dWOLS（Wallace & Moodie 2015）被广泛用于估计最大化总效应的最优ITR。这些方法不显式分解因果路径，默认“总效应最大化就是好的”。
因果中介效应的识别突破：Robins & Greenland (1992) 提出自然直接/间接效应，但需要强假设（交叉世界独立）。Avin et al. (2005) 指出自然效应在有治疗后混杂时不可识别。VanderWeele et al. (2014) 提出干预中介效应（interventional effects），规避了交叉世界假设，只需标准可忽略性假设，且可映射到靶向试验。Chen et al. (2025) 将干预效应与靶向试验框架结合，用于高维中介分析。
多中介分解：Xia & Chan (2022) 引入exit effects，提供了一种顺序无关的方式来分解多个中介的个体贡献。这对多中介且顺序未知的场景至关重要。
ITR与中介的结合：Nabi et al. (2018) 首次提出路径特定ITR（path-specific ITR），将M1固定在参考水平以避免某些路径。但他们的方法依赖参数模型。
条件中介效应的估计：当前frontier与空白：大部分现有方法估计边际中介效应。条件中介效应的估计“仍然相对稀少”（作者原文：“methodology for estimating conditional mediation effects is relatively sparse in comparison”）。直接相关的工作包括：
Benkeser & Ran (2021)：多个中介的干预效应非参数推断，但要求中介离散，连续时需离散化。
Rubinstein et al. (2023)：“heterogeneous interventional effects with multiple mediators”，半参数和非参数方法，但同样仅考虑离散中介，连续中介需要离散化处理。
本文的位置：作者开发贝叶斯半参数和非参数估计量，分别针对连续/混合中介，能估计条件直接、间接及个体中介效应，并用于构造最优ITR。半参数侧：基于部分线性模型的双重稳健G估计，允许部分模型误设；非参数侧：利用最优向量量化（optimal vector quantization）连续逼近中介分布，避免了离散化失真。同时引入贝叶斯bootstrap提供有限样本不确定性量化。

子线索聚类¶

线索1：ITR的经典方法（总效应视角）
Murphy (2005), Robins (2004), Wallace & Moodie (2015)。这些奠定了Q-learning、G-estimation、dWOLS。它们不分解路径，是本文的对比基线。
线索2：中介效应的识别理论（自然 vs 干预效应）
Robins & Greenland (1992), Avin et al. (2005), VanderWeele et al. (2014), Xia & Chan (2022), Chen et al. (2025)。主要解决识别困境，引入干预效应和exit effects。本文依赖这些识别结果。
线索3：条件中介效应的估计方法（半参数/非参数）
Benkeser & Ran (2021), Rubinstein et al. (2023), Hines et al. (2021), Cai et al. (2022), Yang et al. (2025)。这些是本文的直接竞争/前驱。其中Hines、Cai、Yang均使用部分线性模型但各有局限性（单稳健、无交互、参数中介）。本文通过双重稳健G估计和向量量化克服了这些局限。
线索4：贝叶斯非参数与向量量化
Rubin (1981–贝叶斯bootstrap), Graf & Luschgy (2000), Pagès (2015), Loubes & Pelletier (2017–条件量化算法)。为本文提供了非参数估计和不确定性量化的计算工具。

方向在追问的核心问题¶

如何准确估计条件直接/间接效应（而非边际），特别是当协变量维数高、中介连续且多时？
如何保证估计量在部分模型误设下仍可靠（双重稳健）？
如何为估计的ITR提供可靠的不确定性量化（尤其当ITR涉及arg max的非光滑操作）？
当有后治疗混杂时，如何选择适当的中介效应类型（自然 vs 干预）以保证识别？

当前主流方法瓶颈：条件中介效应估计在连续中介面前缺乏流畅的离散化工具；部分线性模型往往牺牲灵活性或依赖参数中介分布；非参数方法受维数诅咒；现有不确定性量化大多依赖bootstrap或子抽样，缺乏半参数理论支撑。

⚠️ 作者的framing¶

作者将缺口frame为：“条件中介效应估计仍然稀疏，现有的（如Benkeser & Ran 2021, Rubinstein et al. 2023）仅处理离散中介，连续中介用简单离散化；本文用向量量化提供更原则的连续逼近，并结合贝叶斯bootstrap提供不确定性量化。” 他们淡化了非贝叶斯半参数工具（如influence function-based debiased ML）的可能性——事实上，对于条件中介效应，Kennedy (2024)已指出不能直接用影响函数构造非参数高效率估计量（因为不是路径可微），但作者选择用部分线性子模型+贝叶斯bootstrap，而非发展新的半参数效率界。他们还回避了高维blip下的变量选择问题，只在讨论中提到惩罚版未来工作。

明显该被引/存在但未出现的工作：例如，Kennedy等人关于CATE minimax率的近期结果（Kennedy et al. 2024）被提及在讨论中作为未来方向，但并非用于当前方法；另外，关于高效率半参数估计（如Tchetgen & Shpitser 2012, 2014）在附录中被简要提及用于二元A，但正文中未突出效率追求。此外，关于双重/三重稳健的近期发展（如Benkeser et al. 2017）未被引用。

张力¶

未见明显对立引用。各引文之间逻辑连贯：从识别到边际估计到条件估计，逐步推进。稍有的张力在于：干预效应与自然效应的支持者之间（VanderWeele vs Avin/不可识别），但作者明确选择干预效应，并给出理由（后治疗混杂、交叉世界假设）。没有在同一场景下得出相反结论的引用。

二、最核心、最简单的例子¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(A \in \{0,1\}\)（为简便，取二元处理；论文允许连续）。
\(X \in \mathcal{X}\)：预处理协变量向量（用于个体化）。
\(M\)：中介变量向量，可以是连续的（本文重点）。本文用\(M = (M_1,\ldots,M_\kappa)\)。
\(Y \in \mathbb{R}\)：结局（越大越好）。
\(L\)：后治疗混杂（存在，但在干预分布下其影响被消除）。
潜在结果：\(Y(a, M(a'))\)：处理取\(a\)、中介取自处理\(a'\)时的潜在结局。
\(d(X): \mathcal{X} \to \{0,1\}\)：ITR，将协变量映射到处理。
\(\tau_E(a,X)\)：干预分布的条件总效应（处理从参考\(a_0\)变到\(a\)）。
\(\zeta_E(a,X)\)：条件直接效应；\(\delta_E(a,X)\)：条件间接效应。
\(\delta_k^E(a,X)\)：第k个中介的个体间接效应。
可观测数据：\(\{(X_i, A_i, M_i, Y_i)\}_{i=1}^n\)。注意\(L\)也被观测，但不进入最终估计（它在干预分布中被边缘化）。
参考处理\(a_0=0\)（不失一般性）。
模型：
作者工作于干预分布\(f_E\)（式1）：不同于观测分布，它将中介的生成机制改为从\(f_{M|X,A}\)采样，移除对\(L\)的依赖。因此，识别仅需序贯可忽略性(A1)，不需要交叉世界假设。
部分线性模型（式2）：
\[\mathbb{E}[Y|X,A,M] = \mu_0(X) + \Gamma(X,A,M),\]
其中\(\Gamma\)为blip函数，描述处理与中介对结局的联合效应。本文假设blip是线性的（在参数意义上）：
\[\Gamma = A X_\gamma^\top \psi_\gamma + \sum_{k=1}^\kappa M_k X_{\eta,k}^\top \psi_{\eta,k} + A \sum_{k=1}^\kappa M_k X_{\xi,k}^\top \psi_{\xi,k}.\]
这里\(X_\gamma, X_{\eta,k}, X_{\xi,k}\)是协变量的某些子集乘以设计系数（即允许不同变量对直接/间接/交互效应有不同调节作用）。
其余部分（\(\mu_0\)、处理模型\(\mathbb{E}[A|X]\)、中介模型\(\mathbb{E}[M_k|X,A]\)）作为未知无穷维参数\(\alpha\)，由数据灵活估计。
可观测数据：实际观察到\((X,A,M,Y)\)。潜在量\(Y(a, M(a'))\)不可观测，需靠识别假设。\(L\)也观测到，但在干预分布下它的角色被“设计”移除——实际估计中，不直接模型化\(L\)，而是通过使用干预分布公式将\(L\)边缘化。

第二步：最小内核（特例：单一连续中介、二元处理、无后治疗混杂的简单情形）¶

退化到最简单情形：\(\kappa=1\)，一个连续中介\(M\)，无\(L\)（或假设\(L\)不存在），处理\(A \in \{0,1\}\)，协变量\(X\)一维（为简化），结局连续。观测数据iid。

部分线性模型变为：

\[\mathbb{E}[Y|X,A,M] = \mu_0(X) + A X_\gamma \psi_\gamma + M X_\eta \psi_\eta + A M X_\xi \psi_\xi.\]

这里假设\(X_\gamma = X_\eta = X_\xi = X\)（同一协变量调节所有项），但系数不同。

条件总效应：

\[\tau_E(a,X) = \mathbb{E}_E[Y(a,M(a))|X] - \mathbb{E}_E[Y(0,M(0))|X].\]

分解为直接效应\(\zeta_E = \mathbb{E}_E[Y(a,M(a))|X] - \mathbb{E}_E[Y(0,M(a))|X]\)和间接效应\(\delta_E = \mathbb{E}_E[Y(0,M(a))|X] - \mathbb{E}_E[Y(0,M(0))|X]\)。

在部分线性模型下，可直接写出（附录A推导，本文Section 4.1）：

\[\zeta_E(a;x) = a \big( x\psi_\gamma + \mathbb{E}[M|X=x,A=a] x \psi_\xi \big),\]

\[\delta_E(a;x) = \big( \mathbb{E}[M|X=x,A=a] - \mathbb{E}[M|X=x,A=0] \big) x \psi_\eta.\]

可见，只要估计出blip参数\(\psi = (\psi_\gamma,\psi_\eta,\psi_\xi)\)以及条件中介均值\(\mathbb{E}[M|X,A]\)，就可计算效应。

核心思路：如何估计\(\psi\)而不依赖\(\mu_0\)的正确指定？

定义伪结局\(\tilde Y = Y - \Gamma(X,A,M)\)，即从观测结局中移除处理-中介的联合效应。则

\[\tilde Y = \mu_0(X) + \text{噪声}.\]

\(\psi\)通过解以下估计方程得到：

\[U_1(\psi) = X (A - \mathbb{E}[A|X]) (\tilde Y - \mu_0(X)),\]

\[U_2(\psi) = X (M - \mathbb{E}[M|X,A]) (\tilde Y - \mu_0(X)),\]

\[U_3(\psi) = X (A - \mathbb{E}[A|X]) (M - \mathbb{E}[M|X,A]) (\tilde Y - \mu_0(X)).\]

关键：这些方程在以下两种情况下无偏（Theorem 1）： 1. \(\mu_0(X)\)正确指定；或 2. \(\mathbb{E}[A|X]\)和\(\mathbb{E}[M|X,A]\)正确指定。这就是双重稳健：只需处理/中介模型或治疗自由组分之一正确。

而且，如果\(\mu_0\)、\(\mathbb{E}[A|X]\)、\(\mathbb{E}[M|X,A]\)都收敛足够快（Theorem 2），\(\hat\psi\)以\(\sqrt{n}\)速率收敛，且渐近正态。但中介效应估计量（如\(\hat\delta_E\)）的收敛速率受限于中介均值模型\(\mathbb{E}[M|X,A]\)的收敛速率（Theorem 3）。

最小内核的数学本质：在部分线性假设下，条件中介效应是blip参数与条件中介均值的线性组合。双重稳健G估计将blip参数估计转化为一个（近似）无偏估计方程问题，摆脱了对\(\mu_0\)正确指定的依赖。这是本文半参数贡献的核心；非参数量化方法是对部分线性假设的放松——当无法假设blip线性时，直接用非参数条件分布逼近。

三、这篇论文做了什么¶

三句话¶

① 研究了在存在多个（连续/混合）中介时，如何通过估计条件直接、间接及个体中介效应来构造最优个体化治疗规则（ITR），并允许引入成本函数；② 核心工具为贝叶斯部分线性G估计（半参数，双重稳健）与基于最优向量量化的非参数估计；③ 主要结论：提出两种估计量的收敛速率定理，证明半参数估计量的双重稳健性与“速率乘稳健性”，非参数估计量受维数诅咒但可通过倾向评分降维缓解，并通过模拟和OPTN肾脏分配数据证实实用性。

关键设定与假设¶

在“最小内核”基础上补全完整设定：

干预分布\(f_E\)（式1）：作者放弃自然效应，采用干预效应，以规避交叉世界假设和后治疗混杂问题。观测数据中包含\(L\)，但干预分布将其边缘化。这类似于“随机化中介值”。
假设：
(A1) 序贯可忽略性：\(\{Y(a',m), M(a)\} \perp A | X\)，且\(Y(a',m) \perp M(a) | A=a,X\)。（对所有\(a,a',m\)）这足够识别直接和间接效应。
(A2) 个体中介效应的同质性（式略）：对\(k=1..\kappa\)，假设间接效应通过\(M_k\)的条件期望不依赖于其余中介的参考处理水平。这用于识别个体中介效应\(\delta_k^E\)。作者通过线性中介模型例子说明该假设等价于M_k(a) - M_k(0)关于其余中介条件独立（即加性误差假设）。
(A3) 路径特定效应同质性：对\(M_1\)固定时，总效应（排除\(M_1\)路径）条件期望不依赖于\(M_1(0)\)。这比(A2)更强，实际相当于要求\(M_1\)与\(M_{-1}\)条件均值独立。用于路径特定ITR。
正则条件：支持紧、Lipschitz等（理论4与附录）。
相比已有文献的放宽/强化：相比Hines et al. (2021)（不允许交互项），本文允许处理-中介交互及中介-中介交互（附录A）。相比Cai et al. (2022)和Yang et al. (2025)（参数中介模型），本文非参数部分用向量量化，无需参数假设；半参数部分对中介模型和处理模型仍然可以是灵活的估计量（如随机森林、神经网络），只要满足收敛速率。

主要结果¶

定理1（双重稳健性）：部分线性模型下的G估计量\(\hat\psi_n\)一致，若（i）治疗自由成分\(\mu_0\)正确，或（ii）处理模型与中介模型正确。

定理2（渐近正态性）：若所有nuisance模型以足够快速率收敛（乘积\(L_q\)范数\(o_p(n^{-1/2})\)），则\(\sqrt{n}(\hat\psi_n - \psi_0)\)渐近正态，方差可通过估计方程的一阶影响函数估计。

定理3（中介效应收敛速率）：直接/间接效应估计量收敛速率为\(O_p(\max(n^{-1/2}, r_n))\)，其中\(r_n\)是中介均值模型的条件收敛速率。这表明即使blip参数以\(\sqrt{n}\)贝叶斯估计，中介效应估计量仍可能慢于\(\sqrt{n}\)（若中介模型收敛慢）。

定理4（非参数量化估计的收敛速率）：对条件直接/间接效应估计，速率\(a_n = \max(b_n, c_n)\)，其中\(b_n = \max((\sqrt{\log n}/n)^{1/(d_X+3)}, N^{-1/\kappa})\)，\(c_n\)是blip估计的\(L_1\)误差率。该速率受维数诅咒：\(d_X\)（协变量维数）和\(\kappa\)（中介维数）均影响。但可通过倾向评分降维（若效果仅依赖于\(V\subset X\)，则速率中的\(d_X\)降为\(\dim(V)+1\)）。

证明路线与技术技巧¶

半参数G估计（定理1&2）证明主线： 1. 无偏性证明：利用条件期望和塔式性质，证明在部分线性模型正确前提下，每个估计方程在（i）或（ii）下期望为零。关键：\(\mathbb{E}[\tilde Y - \mu_0|X,A,M] = \mu_0 - \mu_0(\cdot;\alpha)\)。然后利用广义Holder不等式导出需条件（Theorem 2的速率条件）。 2. 渐近正态：验证在Donsker类和收敛速率条件下，漂移项\(o_p(n^{-1/2})\)，从而应用标准M-估计或估计方程理论（van der Vaart 1998, Theorem 5.31）。技术难点：需处理nuisance估计\(\hat\alpha_n\)对影响的贡献，但通过乘积速率条件保证其可忽略。 3. 工具：Donsker类、广义Holder不等式、经验过程理论。

非参数量化估计（定理4）证明主线： 1. 将误差分解为两项：\(I_{21}\)（分布逼近误差）和\(I_{22}\)（blip估计误差）。 2. 对\(I_{21}\)：利用Kantorovich-Rubinstein对偶，将Wasserstein距离与量化失真联系。再用条件量化的收敛速率结果（Loubes & Pelletier 2017）和最优量化的失真界（Pagès 2015）。 3. 对\(I_{22}\)：直接控制blip残差的\(L_1\)积分。 4. 工具：Wasserstein距离、最优向量量化速率、Lipschitz假设、条件量化算法收敛性。

关键跳跃点：将非参数的中介分布逼近问题转化为Wasserstein距离+\kappa-medoids加权聚类（算法1）。量化网格的收敛速率依赖于局部密度和最近邻权重，这是一个技术上复杂但已被前人（Loubes & Pelletier）处理过的环节。

真实例子与应用¶

OPTN肾脏分配数据（论文Section 7）： - 数据：2001-2022年311,474名肾移植候选者，暴露为供体HCV状态（阳性vs阴性），中介为移植物衰竭（二元），结局为经对数变换的生存时间（加速失效时间模型）。协变量包括供/受体年龄、种族、糖尿病、免疫组等。 - 方法：采用半参数部分线性模型，blip参数包含DonHCV × (RecHCV, DonType, DonAge)以及移植物衰竭的主效应和交互项。使用B=500贝叶斯bootstrap。训练集和测试集各半。 - 结果： - 移植物衰竭的间接效应极小，主要效应为直接效应。 - 31%的患者总效应95%可信区间包含0，即这些患者用HCV阳性供肾与HCV阴性无显著生存差异。 - 估计ITR推荐约更大比例使用HCV阳性供肾以释放阴性肾源给更需要的患者。 - 测试集上的AMSE和0-1风险表现合理（直接效应AMSE 0.07，风险0.13）。 - 例子想说明：方法能在真实大样本中应用，产生临床合理且有政策暗示的ITR，且贝叶斯bootstrap能提供不确定性量化（包含0的情况）。

🔎 结论是否比证明窄¶

定理1&2的证明隐含假设blip模型（部分线性）完全正确。但作者在讨论中提到，正确指定blip可能是困难的，并留下惩罚版作为未来工作。因此，本文的核心理论结论实际上只在部分线性假设下严格成立，而真实应用（OPTN）中使用的是一个特定的线性blip规范，没有检验敏感性。论文没有提供对blip模型误设的正式理论（比如：若blip线性近似但不精确，估计量行为如何）。
定理4对量化非参数估计的速率依赖于blip估计的\(L_1\)误差\(c_n\)和对丁真密度Lipschitz条件的假设。它们在证明中是可处理的，但实际应用中选择网格大小\(N\)和近邻数\(s\)需启发式（论文建议通过交叉验证或轮廓系数），没有给出自适应的数据驱动选取定理。
论文声称“Bayesian bootstrap yields valid finite-sample inference”，但这严格仅在估计量为“期望的arg max”时成立（Rubin 1981）。本文中介效应估计量是通过若干步骤（先估计\(\psi\)和条件均值，再形成线性组合）构成，并非直接正则的估计方程解，因此贝叶斯bootstrap的正则性（posterior consistency和覆盖）并未被证明，只是算法上可行。论文未给出贝叶斯bootstrap下的覆盖概率理论保证（如Bernstein-von Mises定理），只依赖其有限样本有效性在模拟中的表现。

四、开放问题¶

高维blip模型的变量选择与惩罚估计：论文指出标准无惩罚G估计在高维blip项下失效（Section 8 Discussion）。具体要解决的问题是：当候选tailoring变量很多时，如何设计惩罚版的估计方程（如scad或lasso）并保持双重稳健性？需要给出惩罚正则化后的收敛速率及变量选择一致性。扎根点：Section 8第一段“penalized version of the doubly robust G-estimator”。
非参数量化估计的更尖锐收敛速率：当前速率\((\sqrt{\log n}/n)^{1/(d_X+3)}\)很慢。是否可以通过对条件密度或目标效应施加Holder光滑性（如Kennedy et al. 2024对CATE的做法）获得更快（甚至接近参数）的速率？具体需定义合适的函数空间并建立minimax下界。扎根点：Section 8第二段“sharper rates … by considering additional smoothness assumptions… minimax rates for CATE”。
贝叶斯bootstrap理论保证：对于通过多步估计（先估计blip及中介均值）构造的中介效应，其后验是否满足Bernstein-von Mises定理？覆盖概率是否渐近正确？这是开放的高维非参数贝叶斯问题。论文仅演示了算法，未提供理论。扎根点：Section 5.3仅描述算法，未提供后验一致性定理。
路径特定效应中假设(A3)的验证途径：论文承认(A3)很强，通常等价于均值条件独立性。在实际数据中如何检验或近似放松？使用敏感性分析？或发展部分识别方法？扎根点：Section 3.3 “this simplification only arises because we are fixing \(M_1\) … For a generic path-specific ITR, different assumptions may be required.”

提醒：要确认以上第1、2条是否是真实gap，可去读ITR-mediation子领域近期约5篇论文的intro——若都指向高维blip或非参快速率，则为共识；若互相打架（比如有人认为部分线性已足够）则是机会。第3条是统计推断的硬骨头，但作者研究者的工具包（nonparametric statistics、higher-order U-statistics）较弱于该方向；第4条更适合识别方向的敏感度分析。

Maintained by 陈星宇 · Homepage · Source on GitHub