Joint Estimation of Marginal and Heterogeneous Treatment Effects¶

作者: Leticia Wuethrich, Torsten Hothorn
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.23691

一、核心问题与贡献（3句话）¶

在非线性模型（logistic、Cox等）中，协变量调整会因非 collapsibility 将边际处理效应变为条件效应，改变 estimand；本文同时解决“保持边际可解释性”与“量化预后/预测异质性”两个目标。
核心工具是扩展 nonparanormal（高斯 copula）框架，将边际处理效应 τ 直接嵌入结局与基线协变量的联合模型，通过逆 Cholesky 分解参数化预后（λ）和预测（γ）成分，使条件模型在积分后仍恢复边际模型（collapsible）。
主要贡献：（a）对连续结局（Cohen’s d）证明了调整后渐近方差绝不劣于未调整，且效率增益主要由预后效应驱动；（b）方法统一适用于连续、二值、有序、生存结局，并提供可比较的预后/预测强度排名；（c）模拟和针灸数据实证表明无偏估计、效率提升（功率从 60% 升至 83%+）和原结论复现。

二、基础设定¶

核心概念与符号¶

边际处理效应 τ：在无协变量调整下定义的群体平均效应；通过变换模型 \(F_w(y)=G(h(y)-\tau w)\) 表达，G 为固定 CDF（如 Φ、logistic、Gumbel），h 为单调变换函数。
非 collapsibility：在非线性模型中，条件模型积分后 ≠ 边际模型；例如 Cohen’s d 在 probit 尺度上不可折叠。
预后 (prognostic) 效应：协变量与结局的关联（独立于处理）；由基线 Cholesky 参数 λ 捕捉。
预测 (predictive) 效应：协变量与处理效应的交互；由处理相关的 Cholesky 参数 γ 捕捉。
非参数正态 (nonparanormal) 模型：假设经单调变换后的潜变量服从多元正态（高斯 copula），边际分布可任意（非参数）。
协方差矩阵 Σ(w)：处理特定的相关系数矩阵，满足 diag(Σ(w))=1；通过逆 Cholesky 因子 Ω(w) 参数化，进一步分解为 Λ(λ) + w Γ(γ)。

关键假设¶

随机化：\(W \perp\!\!\!\perp X\)，无需调整即可识別边际效应，但调整可提高精度。
单位方差约束：\(\text{diag}(\Sigma(w)) \equiv 1\)，确保潜变量边际方差归一，这是边际模型可恢复的关键条件。
高斯 copula（非参数正态性）：变换后的潜变量 \(Z(w)=h(X,Y|W=w)\) 联合分布为多元正态。该假设比完全参数化灵活，比非参数 copula 可估计；与 Liu et al. (2009) 一致。
协变量独立于处理（来自随机化）：协方差矩阵中协变量块（1:J-1 × 1:J-1）不随 w 变化。
单调变换函数存在性：对于任意边际分布存在单调 h，将数据映射到标准正态或所需尺度。
与已有文献比较：相比 Dandl & Hothorn (2026) 的 NAMI（仅预后），本文额外允许 Σ(w) 随 w 变化（即预测效应），但保持 collapsibility；相比 G-computation / TMLE（先拟合条件模型再积分），本文直接嵌入边际估计量，无需事后平均步骤。

问题背景¶

已有方法的不足：非线性模型中，协变量调整（如 ANCOVA、logistic 回归）因非 collapsibility 将边际效应变成条件效应；而专注于协变量排序的方法（因果森林、Virtual Twins）常混淆预后与预测，且不提供边际估计。
与最相关参考文献的区别：
Dandl & Hothorn (2026)：仅调整预后效应，未处理预测异质性。
Tsiatis et al. (2008) 的 semiparametric augmentation：通过增项提高效率，但未显式参数化预后/预测，也不提供协变量排序。
Athey & Wager (2019) 的因果森林：估计 CATE，无法直接得到边际效应，且当预后效应强时难以区分预测。

三、主要定理 / 核心结果（应用型）¶

核心发现的量化描述¶

连续结局（Cohen’s d）：估计 \(\hat{\tau}\) 以真实值为中心（无偏），NAMI-HTE 的标准误差（SE）在所有设置下小于 MI。例如，当 τ=0.5、γ=0 时，MI 的 SE 约 0.22，NAMI-HTE 降至约 0.17（对应功率从 62.0% 升至 83.4%）。当 γ 增至 0.5，SE 仅微降至约 0.16，功率升至 86.6%（表 2）。
二值结局（log-odds ratio）：功率变化幅度类似（60.7% → 78.3%~80.5%），标准误差同样减小（图 10 略）。
生存结局（log-hazard ratio, 70% 删失）：功率从 60.0% 升至 79.2%~82.0%。
预测效应检测功率：当 γ1=0.5 时，检验 H0: γ=0 的功率不超过 40%（表 3），表明需更大样本或更强信号才能可靠检测预测效应。

与 baseline 的对比¶

MI（unadjusted marginal inference）：在所有模拟中作为基准，功率均约 60%（由设计确保），SE 随 τ 增大略有增大。
NAMI-HTE vs MI：调整后 SE 降低 20%~30%，功率提升 20+ 百分点。效率增益主要由预后驱动（γ=0 时已有大幅提升），增加预测效应带来的额外增益很小（表 2 中 γ 从 0 到 0.5 仅增加 3.2 个百分点）。

结论的稳健性¶

检验水平：当 τ=0 时，MI 的名义水平为 0.05；NAMI-HTE 在二进制结局中维持，连续和生存中小样本（N=41/131）略有膨胀（图 15 显示尾部偏离），样本量增至 N=500 时恢复正常。
多重性调整：对预测效应的检验使用联合 Wald 检验，过度保守但控制了族系错误率。
针灸数据应用：模型 m2（仅预后）复现了原 ANCOVA 的 τ 估计（Cohen’s d ≈ 0.30），标准误差从 0.14 降至 0.11；模型 m3（含预测）进一步略降至 0.10，并识别出基线头痛分数为强预后变量，某些协变量（如慢性头痛类型）有弱预测信号。

四、证明框架 / 方法设计¶

识别策略与估计量设计¶

核心策略：不先拟合条件模型再积分（G-computation 路径），而是直接构建保证 collapsibility 的联合模型。通过将边际效应 τ 嵌入潜变量线性预测项，并约束条件分布对协变量积分后恰好等于边际变换模型，实现边际可解释性。
估计量：极大似然估计（MLE），优化精确的联合似然函数（附录 A 给出了正态-正态的显式形式）。似然基于高斯 copula 和变换模型的组合，使用 R 包 tram 和 cotram 实现。
分离预后/预测：参数化中，预后对应 Λ(λ) 的最后一行（与 w 无关），预测对应 Γ(γ) 的最后一行（仅当 w=1 时加入）。即 \(\lambda^{(w)}_{Jj} = \lambda_{Jj} + w\gamma_j\)。预后强度由 \(|\omega^{(0)}_{Jj}|\) 度量，预测强度由 \(|\omega^{(1)}_{Jj} - \omega^{(0)}_{Jj}|\) 度量。

核心假设的可信度分析¶

随机化：在针灸数据中，通过最小化设计已平衡关键变量，可认为满足。
高斯 copula 假设：无法直接验证，但可以通过变换后的边际分布诊断（如 QQ 图）；本文模拟中即使协变量非正态（χ²、t分布）依然表现良好，说明对潜变量正态性的要求有一定稳健性。
缺失数据：模型 m4 利用所有随机化患者（包含缺失随访结局者），通过 joint modeling 处理，避免了 complete-case 偏倚。

稳健性检验策略¶

本文在模拟中评估了偏倚、SE、功率、水平，覆盖不同 outcome 类型、样本量、信号强度。
在针灸应用中，比较了假设正态（m2）vs 非参数边缘（m5）vs 序数（m6）的 τ 估计一致性，结果相近，说明对分布假定不敏感。

计算/实现细节¶

使用 R 包 tram（变换模型）和 cotram（copula 变换模型）；MLE 通过 optim 实现，参数初始化基于独立边际模型。
算法复杂度：参数数量为 \(O(J^2)\)（其中 J = 协变量数+1），每轮迭代需计算多元正态累积分布（对于高维 J 可能计算较慢），但论文仅演示 J ≤ 5，计算尚可。
标准误差通过 Fisher 信息量数值估计。

五、与研究者兴趣的关联¶

因果推断（边际 estimand 与 noncollapsibility）：本文直接回应了非线性模型中“调整后效应不再是边际效应”这一基本问题。研究者若关注 marginal/conditional estimand 的区别（如在 mediation 或 sensitivity analysis 中），可借鉴本文的 joint modeling 框架（在协变量分布下积分后恢复 marginal），类似地可应用于其他非可折叠度量（如 risk ratio）。
效率理论（渐近方差比较）：引理 1-4 给出了 Cohen’s d 在预后/预测效应下的显式标准误差公式，展示了“预后效应主导效率增益”这一反直觉结论。这可在 DML 或 G-estimation 的方差分析中作为对比基准。
潜在技术迁移：本文对 copula 的逆 Cholesky 参数化（分离预后/预测）是一种将异质性分解为可解释成分的思路，可迁移到其他双边调整问题（如 IV 中的 treatment effect heterogeneity 分解）。
值得精读的关键参考文献：
Dandl & Hothorn (2026) “Nonparanormal adjusted marginal inference”：本文的前身，理解非参数正态调整的基本框架。
Daniel et al. (2021) “Non-collapsibility: A reprise”：系统讨论 noncollapsibility 的根源及其对因果推断的影响。
Hothorn et al. (2018) “Transformation models”：理解变换模型如何统一定义不同尺度的处理效应。

六、延伸思考与练习¶

假设扰动¶

若放宽“协变量独立性（随机化）”：当存在未测量混淆时，边际效应 τ 无法辨识。本文的方法可被视为随机化下的稳健工具，但若试图放宽至观察性研究，需引入倾向性得分或工具变量——此时 copula 联合模型可能需调整处理分配机制。
若放弃高斯 copula 假设：例如使用 t-copula 或非参数 copula，则对协变量积分后边际模型可能不再简单恢复；需引入额外的计算积分步骤，失去闭合形式 collapsibility。

开放问题¶

预测效应低功率的根本原因：模拟中 γ=0.5 时功率才 22~37%，是样本量不足还是参数化对预测信号的线性限制？可否通过提升信号（如加入交互项的非线性）或改良检验（如得分检验）提高检测力？
高维协变量下的扩展：当前方法参数数量随协变量数平方增长，当 J > 10~20 时可能不稳定；是否可通过稀疏正则化（如 lasso 在 Cholesky 因子上）实现预后/预测的变量选择？

理解检测题¶

题目：在连续结局下，假设只有一个协变量 X，其预后强度 λ=0.5，预测强度 γ=0.3，边际处理效应 τ=0.8，样本量 N=100 每臂。根据引理 4，计算调整后的标准误差，并回答：调整后相对未调整的效率增益（以 SE 比或方差比表示）是多少？若仅包含预后（γ=0），效率增益会更大还是更小？为什么？（提示：先由 λ,γ 计算 Ω 元素，再代入公式。）

Maintained by 陈星宇 · Homepage · Source on GitHub