Propensity weighting plus adjustment in proportional hazards model is not doubly robust¶

作者: Erin E Gabriel, Michael C Sachs, Ingeborg Waernbaum, Els Goetghebeur, Paul F Blanche et al.
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本方向要解决的根本（统计 / 科学）问题是：在观察性生存分析中，如何稳健地估计暴露对生存时间的因果效应（如风险比、生存差异）？具体来说，研究者希望构造一个估计量，它在倾向得分模型和生存结果模型两者之一正确指定时就能保持一致性，即“双重稳健性”（double robustness，DR）。当前该方向在均值、风险差、优势比等 collapsible 目标量上已有成熟的双重稳健方法，但在非 collapsible 目标量（如风险比 hazard ratio）以及比例风险（PH）模型的语境下，双重稳健性的成立条件尚不明确。本文直接挑战了“将倾向得分加权与 Cox 回归调整相结合就能得到双重稳健估计”这一在应用文献中日益流行的隐含假设。
发展脉络（history）：
1. 奠基工作：双重稳健的起源可追溯到 Robins et al. (1994) 和 Scharfstein et al. (1999) 在缺失数据语境下的工作，如 Seaman & Vansteelandt (2018) 所述，提出了一种估计量，在缺失模型或插补模型之一正确时一致。这一思想随后被引入因果推断，用于估计平均因果效应（ATE）。
2. 主要进展：双重稳健方法被推广到不同结局类型。在生存分析中：Bai et al. (2013) 利用半参数理论导出了处理特异性生存分布的双重稳健估计量；Dukes et al. (2018) 为条件风险差开发了双重稳健估计量；Tchetgen Tchetgen & Robins (2012) 则提出了因果边际风险比的双重稳健估计量。这些工作共同确立了生存分析中构造 DR 估计量的可行性。
3. 当前前沿与争议：近期应用文献中，一种看似简单的组合方法——先对 Cox 模型进行倾向得分加权（IPTW）拟合，然后再通过回归标准化（regression standardization）得到边际效应——被普遍用来估计暴露效应风险比，且常被隐含地认为具有双重稳健性。Gabriel et al. (2023) 之前已在广义线性模型背景下明确指出，仅仅组合倾向得分加权和调整后的结局模型 并不总能 产生双重稳健估计量，特别是对于非典则链接的 GLM（如逻辑链接或不恒等链接）。本文是作者这一系列思考在生存分析 PH 模型中的直接延续。
4. 本文的位置：本文给出一个明确的负结果——证明了对于比例风险模型下非零的因果效应，上述 IPTW+回归标准化的组合不具有双重稳健性。同时，它又给出一个边界上的正结果：在因果效应的零假设（即暴露对结局无影响）下，且删失机制可被正确建模时，该组合确是双重稳健的。本文并非提出一个全新的普遍适用的双重稳健估计量，而是 划定了现有简单组合方法的有效适用范围，并在此基础上提供了两个在固定时点上针对生存差的双重稳健估计量，以及一个针对完整生存曲线的方法。
子线索聚类：
- 主线索 A：生存分析中的双重稳健估计（目标量：风险比或生存分布）。
  - 代表工作：Bai et al. (2013)（生存分布，双重稳健 + 分层抽样）、Dukes et al. (2018)（条件风险差，双重稳健）、Tchetgen Tchetgen & Robins (2012)（边际风险比，双重稳健）。
  - 这一簇在做什么：运用半参数效率理论，推导特定因果目标量（如风险差、生存差异）的 efficient influence function（EIF），并据此构造 DR 估计量。这类方法通常复杂，但理论保证强。
- 主线索 B：经验性简单组合方法（目标量：风险比）。
  - 代表工作：Ionescu et al. (2021), Estruch et al. (2018), Simon et al. (2020), Vaughan et al. (2015) 等应用论文（使用 IPTW + Cox 调整，但未提供方法选择理由）。
  - 这一簇在做什么：在应用层面，将 IPTW 与 Cox 回归（及其他结局模型）作为“工具箱”中的两个标准组件进行组合，期望通过这种“双重控制”来减少偏倚，但常常忽视其背后的理论基础和 DR 属性成立的条件。
- 补充线索 C：风险比的可压缩性与解释困难。
  - 代表工作：Hernán (2010)（风险比因果解释的困难）、Daniel et al. (2020)（非可压缩性与边缘风险比）、Sjölander et al. (2016)（风险比的非可压缩性）。
  - 这一簇在做什么：从统计和因果推断角度，反复强调风险比不是 collapsible 的——即，即使无混杂，条件的风险比也与边缘的风险比不同。这直接导致针对条件风险比设计的 IPTW+回归标准化方法难以获得一个与目标量（边缘风险比）一致的 DR 估计。
这个方向在追问的核心问题：
1. 对于非 collapsible 的目标量（如风险比），如何正确地识别和估计其边际因果效应？
2. 在一个双重稳健的框架内，针对比例风险模型所估计的条件效应（如特定协变量向量的 hazard ratio）是否有意义？或者，是否必须将其标准化为边际效应？
3. 当无法同时正确指定倾向得分和结局模型时，是否存在在“接近但并非完全正确”的模型下依然稳健的方法（如近双重稳健性）？
4. 对于更灵活的半参数模型，能否构造出针对特定目标量（如生存曲线差异）的高效、双重稳健估计量？
5. 已知瓶颈：风险比的非 collapsibility 是核心瓶颈，这使得从基于条件模型（如 Cox 回归）的推断直接推广到边际因果推断变得复杂。此外，对于删失时间 C 的存在，也要求其模型被正确指定以维持双重稳健性。
⚠️ 作者的 framing：
- 作者把缺口 frame 成什么：作者声称（基于 Gabriel et al. 2023 和理论分析），许多应用研究者存在一个普遍但错误的信念，即“任何倾向得分加权 + 结局模型调整的组合都是双重稳健的”。本文的核心故事是“揭穿这个神话在 PH 模型下的具体版本”。作者将自己定位为提供这个关键的“反例”和理论界限（零假设下的双重稳健性），并给出退而求其次的可行替代方案（生存差 S(t) 的 DR 估计）。作者淡化了或回避了 Tchetgen Tchetgen & Robins (2012) 和 Dukes et al. (2018) 已经提出的针对 HR 或风险差的双重稳健估计量，聚焦于批判应用中最常见的“简陋”做法（IPTW + Cox），而非比较或评价更复杂的 DR 估计量。
- 什么明显该被引 / 该存在却没出现在 intro 里：Intro 非常聚焦于生存结局和可压缩性，但 缺少对因果推断中 DR 核心理论（半参数效率理论）的系统性回顾。具体来说，作者没有深入讨论 Robins 等人关于 G-computation 和 IPTW 的经典工作（如 Musicality of Causal Inference），也未系统引用更广泛的用于生存结局的 Ertefaie (2016) 或 Schnitzer et al. (2016) 等关于双重稳健估计的工作。这可能是因为本文的目标不是推导半参数最优 DR 估计量，而是服务于“指出一个具体误解”。（这条是“值得研究者去查的问题”——观察到一个重要的文献缺位）。
张力：未见明显对立引用。所有被引用的工作似乎都在不同程度上承认 DR 估计需要基于正确推导的 EIF 或使用特定模型，而非简单的模型组合。本文的结论与其说是与其他工作对立，不如说是与当前应用文献中一种未被明确声明但从做法上看似乎被认同的错误信念相冲突。

二、最核心、最简单的例子 / 数学问题（符号、模型、可观测数据 + 最小内核）¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- T_i：第 i 个体的真实潜在事件时间。
- C_i：第 i 个体的真实删失时间。
- U_i = min(T_i, C_i)：第 i 个体的观测到的、被删失的事件时间。
- Δ_i = 1_{T_i ≤ C_i}：第 i 个体的事件指示符（1 表示观测到事件发生）。
- A_i：第 i 个体的二值处理变量（1 = 暴露，0 = 非暴露）。
- X_i：第 i 个体的协变量向量（混杂因素）。
- g(X_i) = P(A_i=1 | X_i)：倾向得分函数，通常通过逻辑回归或其它分类模型估计。
- h(t | A_i, X_i; β, h0(t))：假设的 Cox 比例风险模型。其中 h(t | A, X) = h0(t) exp(β*A + γ'X)。h0(t) 是未指定的基线风险函数，β 是感兴趣的暴露效应 log-hazard ratio。
- 目标量（estimand）：边际风险比（Marginal Hazard Ratio, MHR）或更具体地说，感兴趣的 exp(β)。在一些设定下是条件风险比 exp(β)。
- S(t | A, X) = exp(-∫_0^t h(u|A,X) du)：给定 (A,X)，在时间 t 的条件生存概率。
- E[S(t | A=1, X)] vs E[S(t | A=0, X)]：回归标准化（G-formula）后的生存期望。这是计算边际生存差异的基础。
- 潜在结果 (counterfactual / potential)：T_i(1) 和 T_i(0) 分别表示个体 i 在接受处理或对照时的潜在事件时间。它们是不可观测的。
模型：作者考虑的比例风险模型是标准形式。删失是随机删失（independent censoring given A, X），即 C ⟂ T | A, X。核心模型假设是无未测量的混杂（A ⟂ T(a) | X, for a=0,1），即所有混杂因素 X 都被正确观测并建模。
可观测数据：每个个体 i 可观测到三元组 (X_i, A_i, U_i, Δ_i)。即协变量、处理分配、以及删失后的事件时间及其状态。特别关键的可观测与不可观测区分：研究者观测到的是 (U_i, Δ_i)，而非 T_i 本身。对于幸存并删失的个体（Δ_i=0），他们真实的 T_i 是未知且潜在的。模型试图基于 (X_i, A_i) 来解释 {U_i, Δ_i}，并从中识别出主动态 (A→T) 的因果效应，其识别依赖于 U 的分布以及在给定 (A,X) 下对删失机制的正确建模。

第二步：讲最小内核——核心反例¶

本文的内核是一个最简反例：在存在一个真实的、非零的因果效应时，即使回归标准化也无法让“IPTW + Cox 调整”的组合获得双重稳健性。让我们在尽可能简单的设定下理解它：

最简特例：无删失（C = ∞，所以 U_i = T_i，所有个体都观测到事件时间）。二值处理 A，一个二值协变量 X ∈ {0,1}。真实数据生成机制：X 影响 A（存在混杂），且 X 也影响 T（影响生存）。真实的 hazard ratio（条件于 X）是 exp(β)，且 β ≠ 0（= 存在因果效应）。研究者希望通过 IPTW + Cox 模型的回归标准化来估计这个边际风险比 MHR。
操作方法：
1. 估计倾向得分：对数据拟合逻辑回归 P(A=1|X) = 1/(1+exp(-αX))，得到预测值 ĝ(X)。如果这是正确的倾向得分模型（即 g(X) = P(A=1|X) 是 X 的逻辑斯蒂函数），那么 ĝ(X) 是真实值的相合估计。
2. IPTW 加权 Cox 模型拟合：对 Cox 比例风险模型 h(t|A,X) = h0(t) exp(β_A A + β_X X) 做 IPW（或每个观测赋予权重 [A/ĝ(X) + (1-A)/(1-ĝ(X))]，但简单起见，常用稳定权重）。但 Cox 模型本身是条件模型，拟合出的是条件和 X 下的 β。
3. 回归标准化：为了得到 边际风险比（不固定的 X 下，暴露 vs. 非暴露的平均效应），我们采用 G-formula。即，计算：
  - S_1(t) = E_{X}[S(t|A=1, X)] （用样本、把每个人的 X 代入，预测若 A 为 1 时的生存概率，再取平均）。
  - S_0(t) = E_{X}[S(t|A=0, X)] （同理）。
  - 边际 hazard ratio = (-d/dt log S_1(t)) / (-d/dt log S_0(t))，或在 Cox 模型假定下可简化为某一常数。
核心非DR性：作者证明了这一步的“组合”即使在 X 被正确包含在 Cox 模型里，即使倾向得分模型也正确，所得到的边际风险比的估计量 也不是双重稳健的。也就是说，如果只有生存模型（Cox 部分）正确，但倾向得分模型错误（例如漏掉了某个对处理有极强影响但仍是用作混杂的变量Z），或者只有倾向得分模型正确而 Cox 模型的协变量效应错误（如假设了错误的函数形式或丢失了交互项），那么估计量都不是相合一致的。
为什么不成？直觉：核心原因在于回归标准化 O_under_the_hood：它是通过将 A 硬性设为特定值（1或0），然后对 X 的分布（通常取经验分布）取期望来得到边际效应的。当在 IPW 加权框架下拟合条件 Cox 模型时，回归标准化的积分/平均步骤与权重是不可交换的；而且，即使协变量和处理的平衡通过 IPW 达成，标准化步骤引入的生存状态的条件期望 E[S(t|A, X)] 在整个 X 分布上的积分，仍然对于模型误设很敏感。对于 collapsible 的目标（如风险差、平均响应），某些特定的模型（如带 link 链接函数的 GLM）可以奇迹般地让这两个误差（倾向得分误设和条件结局模型误设）相互抵消，但对非 collapsible 的 hazard ratio 来说，这种抵消并不存在。本文 Gabriel 等人 (2023) 之前已在 GLM 语境证明了类似结论，此文是将其搬到了 PH 模型下的非比例 hazard/非 collapsible outcome 上。
最小内核总结：即使去掉了删失这个实际复杂性，在 PH 模型下，简单地将 IPTW 与 Cox 回归及回归标准化结合，也不能自动获得双重稳健性。Treatment effect ≠ 0 时，DR 破裂了。这就是整篇论文的数学核心。作者花了主要篇幅在模拟上验证这个反例。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话：
1. 研究了什么问题：在比例风险（PH）模型（包括半参数 Cox、参数 Weibull 和灵活参数模型）下，用倾向得分加权（IPTW）和回归标准化组合来估计暴露效应的边际风险比（Hazard Ratio，HR）的方法，是否具有双重稳健性（DR）？
2. 核心工具/方法：理论证明（使用反例和限制似然下的分数方程）、蒙特卡洛模拟、以及提出替代的双重稳健估计量（基于生存差在固定时点 S(t) 的估计）。
3. 主要结论：当因果效应不为零（HR ≠ 1）时，上述组合不是双重稳健的；当因果效应为零（HR = 1）且删失模型正确时，它是双重稳健的。作者随后提供了针对固定时间点的生存差和完整生存曲线的两种替代性双重稳健估计办法。
关键设定与假设（在第二节基础上补全）：
- 设定：观察性研究，有右删失的生存结局。目标是估计暴露 A（二值）对生存时间 T 的因果效应。假设无未观测混杂（A ⟂ T(a) | X），也假设随机删失（C ⟂ T | A, X）。
- 假设 1—倾向得分模型正确：P(A=1 | X) 被正确指定，其参数 α 通过最大似然（如 logistic 回归）一致估计。
- 假设 2—结局模型正确：一个 PH 模型（半参数 Cox、Weibull 或灵活参数）被选定。这个模型对给定 (A, X) 的风险函数形式进行建模，必须正确指定，包括 X 在 h 上的影响是线性的且比例风险（h(t|A,X) = h0(t)exp(βA + γ'X)）正确。对于参数模型（Weibull, 灵活参数），还需假设参数生存函数形式正确。
- 假设 3—删失模型正确：删失机制 G(t | A, X) = P(C ≥ t | A, X) 被成功建模。
- 成立条件 vs 已有文献：本文的假设 3（删失模型正确）是其替代估计量（生存差）维持双重稳健性的额外要求。相比于 ATE（二元/连续结局）的经典双稳健估计量，本文的结果强调了删失行为的建模同样是一个需要正确指定的模型。
主要结果（理论与模拟）：
1. 定理 1（非双重稳健性，核心定理）：在存在非零因果效应（β ≠ 0）时，即使通过回归标准化，IPTW 加 PH 模型不是双重稳健的。证明思路：构造一个反例，其中倾向得分模型或结局模型被错误指定，然后证明所生成的估计量不能收敛到真值。
2. 命题 1（零假设下的双重稳健性）：当因果效应为零（β = 0）且删失机制被正确建模时，IPTW 加 PH 模型（通过部分分（Cox）或全似然拟合）是双重稳健的：不论倾向得分模型还是结局模型有一个正确指定，估计量都是一致的。
3. 数值模拟：作者使用半参数 Cox、Weibull 和灵活参数（罗吉特线性）三种 PH 模型，并在多种设定下进行了模拟：
  - 场景 A（只有 PH 正确，PS 错误）：估计量有偏。
  - 场景 B（只有 PS 正确，PH 错误）：估计量有偏。
  - 场景 C（两者都正确）：估计量一致，但这是标准的双稳健场景，却是本文证明了它都不成立的地方。
  - 模拟覆盖率：作者报告了所有场景下的经验均值、标准误、90% 和 95% 置信区间覆盖率。当只有一方正确时，覆盖率极其差（多低于 20%），非双重稳健性得到直观验证。
4. 经验例子（真实的例子）：使用了 Rotterdam 乳腺癌数据集（survival R包内）。方法暴露（处理变量）为“暴露组”（> 40 岁？），结局是总生存时间。作者将 IPTW + Cox 回归的结果与仅 Cox, 仅 IPW 的结果对比，并用该例子（估计不为零）明确显示了这种“组合”方法的不可靠性——不同 PS 模型（Only x vs 正确 x+z）产生巨大不同的效应估计，不是 DR 的性质。
5. 提出的替代估计量：认识到非零效应下的非 DR 性，作者提出两个针对“固定时间点 t0 的生存差 (S(1,t0) - S(0,t0)) ”的双重稳健估计量（方法 A & B），并给出一个针对完整生存曲线的方法 C。
6. 公式：D(t0) = 1/n Σ_i w_i(ĝ, Ĉ) ...？具体方法需要读正文。但本质上是通过同时敲定删失模型 C 和生存模型 T 的“双模型”框架，从而在某些程度上找回双重稳健性。这些方法已经在 R 中实现。
证明路线与技术技巧（理论型）：
- 整体路线：作者的分析围绕 分数方程 (score equations) 进行。
  1. 写出对 Cox 模型的（加权）部分似然 score L_n(β; ĝ, T̂, Δ) = 0，其中权重由估计的倾向得分 ĝ(X) 决定（IPTW）。
  2. 证明，当 β=0（无因果效应）时，无论 ĝ(X) 是否正确，如果结局模型（Cox 的参数路径 γ）正确或 ĝ(X) 正确，score 方程解的期望为零 → 一致性。
  3. 核心证明（非 DR 性）：当 β≠0 且只有一方（PS 或 PH）模型正确时，写出加权的 score function 的期望 不等于零 → 解 β̂ 不一致。这是由于 IPTW 权重改变了协变量 X 在风险集里的分布，但协变量 X 对事件时间的影响在 log-hazard 上是 γ'X，这不能通过简单的标准化来抵消误设的模型 ĝ。
- 关键跳跃点：最难的一步是在存在真实效应时，证明标准化步骤如何“不救人”而非“救人”。直觉和证明的关键在于 Cox 的部分似然的 score 方程：即使通过回归标准化（将边际效应表达为平均条件效应），拟合的过程 (β̂, γ̂) 本身是从加权 score 方程中得到的。当只有 PS 正确时，该得分方程对 γ 的解是错误的，这个错误无法通过标准化后的平均来抵消，因为 β（要做测试的估计）已经从被误设的 γ 中受到污染。
- 技术技巧点名：
  - Score 方程期望的反例构建：给出明确的错误模型设置（因变量缺失交互项），计算加权 score 方程在真值处的期望不为零。这是典型的“非 DR 性”证明手段。
  - 零假设下的烈性检验：当 β=0 时，事件时间分布独立于 A，IPTW 下的 Cox 模型退化为标准未加权 Cox 模型（因为 IPTW 在总体中创造“伪人群”，但若无因果效应，则“伪人群”结果与原始分布一致）。这种直觉被转化为严谨证明。
  - 模拟评估的框架：通过犯错的类型（PS错，PH错），使用偏差、置信区间覆盖率，直观地评估方法的 DR 失败行为。
真实例子与应用：
- 数据：survival R 包内 Rotterdam 乳腺癌数据集（Royston & Altman 2013）。此数据集包含众多与癌症复发和生存相关的协变量。
- 分析：作者在此数据集上用了 IPTW + Cox 回归，然后用标准化得到边际 HR 的估计。变量 x（如淋巴结数量对数）是真正的混杂因素。他们对比了“没有 PS”（标准 Cox）、“有 PS”（调权的 PS 加权 Cox）、“有 PS + 正确 X” （PS 模型包含 x）。然后展示不同模型规格给出同一个暴露（比如是否接受某种疗法）下的 HR 估计从 0.65 到 2.1 不等。这样的变化完美地展示了非双重稳健性——如果你依赖“组合”方法但某一边没搞对，效应会整个颠倒。
- 想说明什么：这个例子是在真实数据中演示：1）IPW+Cox 组合给出的不同结果的巨大差异是可见的；2）使用该方法但同时又混淆模型，不检验 PS/Outcome 的指定，一厢情委信任它是双稳健的，会犯下大错。
🔎结论是否比证明窄：作者对“双重稳健性”的定义比较严格（需要危险率估计双稳健）。结论明确比证明窄：他们完全证明了非零效应下非 DR；零假设下的 DR 性要求删失模型也要正确。但在论文讨论部分，可能隐含地暗示了“对于 Near-zero effect，该方法表现也许还可以”（虽然他们没直接 claim），而否定了 General 的 DR 说法。在证明不如 claim 的地方可能是：“它证明了半参数 Cox 模型不行”，但并未对更广泛的 PH 推广（如时间相关协变量，竞争风险）进行同样严格的证明。任何此类推广都需非常谨慎。

四、开放问题（点到为止，扎根具体语句）¶

在非零效应下，能否构造专门针对 Hazard Ratio 的真正的双重稳健估计量？本文只给出了针对生存差 S(t) 的双重稳健估计，但未解决 hazard ratio 本身的 DR 身份。扎根于本文：作者说“We outline 2 simple alternative estimators that are doubly robust for the survival difference... and one doubly robust method of estimation for the full survival curve。” The omission 是 hazard ratio。
当 PH 假设不满足（即非比例风险），本文的结论会如何变化？ 扎根于本文：作者仅考虑了半参数 Cox、Weibull 和一种“灵活参数模型”(Royston-Parmar)，但仍属 PH。如推广到非 PH 模型（加速失效时间模型、转换模型），则本文的证明需重写，但“非 DR”的结论很可能依然成立甚至更强。
当协变量是高维的（如本文典型情景）时，双重稳健估计的有限样本表现和必要假设（如稀疏性）是什么？ 扎根于本文：本文模拟仅使用了低维协变量（至多 2-3 个）。在 high-dim 的应用中，选择 哪些变量做调整（如 Witte & Didelez 2018 所述）将更加关键且困难，PS和结果模型错误的可能性会急剧增大，从而严重违反 DR 性。
在更根本的层面：是否存在一个斜向的理论解释，使得”非 collapsible 目标量的双重稳健估计“在原则上就不可行，只能退而求其次？ 作者的结果暗示了这个“天花板”，主要挑战来自目标量本身的结构。扎根于本文：引用了 Gabriel et al. (2023) 在非典则连接 GLM 中的类似发现，加上本文在 non-collapsible hazard ratio 里 DR 的“死亡”，提示这可能是非 collapsible 目标量（优势比、风险比）的固有特征，值得一个庞大的理论覆盖。

Maintained by 陈星宇 · Homepage · Source on GitHub