Propensity weighting plus adjustment in proportional hazards model is not doubly robust¶

作者: Erin E Gabriel, Michael C Sachs, Ingeborg Waernbaum, Els Goetghebeur, Paul F Blanche et al.
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在观察性研究中，当结局为生存时间（time-to-event）且存在删失时，如何稳健地估计暴露（处理）对生存结局的因果效应。具体而言，研究者希望得到一个双重稳健（doubly robust, DR）的估计量——即只要倾向性评分模型（propensity score model）和结局模型（outcome model）中有一个被正确设定，估计量就是一致的。这个方向在广义线性模型（GLM）框架下已有成熟理论（如 Seaman & Vansteelandt, 2018），但在生存分析领域，尤其是比例风险模型（Cox 模型）下，双重稳健性是否成立一直存在争议。本文的核心贡献是证明：在比例风险模型下，倾向性评分加权 + 回归调整的组合不是双重稳健的，除非在零假设（无因果效应）下。

发展脉络（history）¶

奠基工作：双重稳健估计的思想可追溯到 Robins et al. (1994) 和 Scharfstein et al. (1999)，他们指出，在缺失数据或因果推断中，将倾向性评分加权与结局模型结合可得到“只要一个模型正确就一致”的估计量。Seaman & Vansteelandt (2018) 给出了一个清晰的入门介绍，并指出这种性质在 GLM 框架下成立。

主要进展：在生存分析领域，研究者尝试将双重稳健思想推广到比例风险模型。Dukes et al. (2019) 开发了条件风险差（hazard difference）的双重稳健估计量，Tchetgen Tchetgen & Robins (2012) 提出了边际风险比（hazard ratio）的双重稳健估计量。Bai et al. (2013) 利用半参数理论推导了处理特定生存分布的双重稳健估计量。这些工作表明，在某些特定设定下（如风险差、特定时间点的生存概率），双重稳健性是可能的。

当前 frontier 与本文的位置：然而，一个常见的实践是：直接用 Cox 模型 + 倾向性评分加权（IPTW）来估计风险比（hazard ratio），并默认这种组合是双重稳健的。Gabriel et al. (2024) 已经指出，即使对于可折叠（collapsible）的 estimand，非规范链接的 GLM 模型在回归标准化后也不具备双重稳健性。本文则进一步聚焦于比例风险模型，通过理论证明和模拟揭示：当存在真实的因果效应时，Cox 模型 + IPTW 的组合不满足双重稳健性。作者将此归因于风险比（hazard ratio）的不可折叠性（non-collapsibility）——即条件风险比与边际风险比在数值上不同，且这种差异无法通过简单的加权或标准化消除。作为替代，作者提出了两个在给定时间点对生存差异（survival difference）双重稳健的估计量，以及一个对完整生存曲线双重稳健的估计方法。

子线索聚类¶

这些被引文献大致落在三条子线索上：

双重稳健估计的理论与方法：核心是研究在什么模型下、对什么 estimand，加权+回归的组合是双重稳健的。代表工作：Seaman & Vansteelandt (2018) 的入门介绍、Gabriel et al. (2024) 对 GLM 的讨论、Dukes et al. (2019) 对风险差的 DR 估计、Bai et al. (2013) 对生存分布的 DR 估计。本文属于这一线索，但给出了一个负面结果。
风险比（hazard ratio）的因果解释与性质：核心是揭示风险比作为因果效应度量的困难，尤其是其不可折叠性和时间依赖性。代表工作：Hernán (2010) 指出风险比的因果解释困难；Daniel et al. (2020) 和 Sjölander et al. (2016) 深入讨论了不可折叠性。本文利用这一性质来解释为什么 DR 不成立。
应用实践：许多应用论文（如 Vaughan et al., 2015; Estruch et al., 2018; Simon et al., 2020; Ionescu et al., 2021）直接使用 Cox 模型 + IPTW，但通常不提供方法选择的理由。本文的动机正是纠正这种“默认 DR”的误解。

这个方向在追问的核心问题¶

对于生存结局，什么 estimand 可以做到双重稳健？ 风险差（hazard difference）可以（Dukes et al., 2019），但风险比（hazard ratio）不行。生存差异（survival difference）在给定时间点可以（本文提出的替代估计量），但完整生存曲线需要更复杂的假设。
不可折叠性如何破坏双重稳健性？ 核心机制是：条件模型（Cox 模型）估计的是条件风险比，而加权后想要的是边际风险比。当存在效应时，两者不等，且加权无法消除这种差异。本文的证明正是基于这一观察。
在比例风险模型下，是否存在任何双重稳健的估计量？ 本文的回答是：仅在零假设下。这暗示了在非零效应下，需要放弃比例风险假设，或改用其他 estimand（如生存差异）。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 成“应用研究者错误地认为 Cox 模型 + IPTW 是双重稳健的，而实际上它只在零假设下成立”。因此，本文的贡献是“纠正误解 + 提供替代方案”。作者淡化了以下竞争路线： - 风险差（hazard difference）的双重稳健估计（Dukes et al., 2019）：作者承认其存在，但指出它估计的是条件风险差，而非边际风险比，且需要保证非负风险。 - 边际风险比的双重稳健估计（Tchetgen Tchetgen & Robins, 2012）：作者在引言中提及，但未深入讨论其与本文结果的关系。 - 其他生存模型（如加速失效时间模型 AFT）：作者未提及，这可能是一个值得探索的方向。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 关于加速失效时间模型（AFT）的双重稳健估计工作。AFT 模型是可折叠的，因此可能不存在本文揭示的问题。这是一个值得研究者去查的 gap。 - 关于时变处理（time-varying treatment）的生存分析双重稳健估计。本文只考虑点处理（point treatment），但许多应用涉及纵向数据。 - 关于高维协变量下的生存分析双重稳健估计。本文的模拟和证明都假设低维协变量，高维场景下是否会有不同表现？

张力¶

未见明显对立引用。所有被引工作基本认同风险比的不可折叠性，且都承认双重稳健性在生存分析中的困难。本文的负面结果与 Dukes et al. (2019) 的正面结果并不矛盾，因为后者针对的是风险差而非风险比。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\(A\)：暴露/处理变量，二值（0 = 未处理，1 = 处理）。
\(T\)：真实的生存时间（潜在结果：\(T^1\) 若 \(A=1\)，\(T^0\) 若 \(A=0\)）。
\(C\)：删失时间。
\(U = \min(T, C)\)：观测到的随访时间。
\(\Delta = I(T \leq C)\)：事件指示符（1 = 观察到事件，0 = 删失）。
\(X\)：协变量向量（包含所有混杂）。
\(g(X) = P(A=1|X)\)：倾向性评分（propensity score）。
\(\lambda(t|A, X)\)：给定 \(A\) 和 \(X\) 的风险函数（hazard function）。
\(\lambda_0(t)\)：基线风险函数（baseline hazard）。
\(\beta\)：Cox 模型中的对数风险比（log hazard ratio），即 \(\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma^T X)\)。
\(\psi\)：目标 estimand，通常是边际风险比（marginal hazard ratio），即 \(E[\lambda(t|A=1, X)] / E[\lambda(t|A=0, X)]\) 的某种平均，或更常见地，通过加权后拟合的 Cox 模型中的系数。
\(w_i = 1/g(X_i)\) 或 \(w_i = A_i/g(X_i) + (1-A_i)/(1-g(X_i))\)：IPTW 权重。
模型：
数据生成机制：假设 \((X, A, T^0, T^1, C)\) 来自某个联合分布。我们观测到 \((X_i, A_i, U_i, \Delta_i)\) 的 i.i.d. 样本。
因果假设：无未观测混杂（ignorability / no unmeasured confounders）：\(T^a \perp A | X\)；正值性（positivity）：\(0 < g(X) < 1\)；一致性（consistency）：若 \(A=a\) 则 \(T=T^a\)。
删失假设：删失时间 \(C\) 独立于 \(T\) 给定 \(A, X\)（独立删失），或更一般地，可通过逆概率删失加权（IPCW）处理。
结局模型：比例风险模型（Cox 模型）：\(\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma^T X)\)。注意，这是一个条件模型，\(\beta\) 是条件对数风险比。
倾向性评分模型：例如 logistic 回归：\(\text{logit}(g(X)) = \alpha^T X\)。
可观测数据：研究者实际能观测到的是 \((X_i, A_i, U_i, \Delta_i)\)。想要但观测不到的是：
潜在结果 \(T^0, T^1\)（只能观测到其中一个）。
真实的基线风险函数 \(\lambda_0(t)\)（半参数模型中视为 nuisance）。
真实的倾向性评分 \(g(X)\)（需要估计）。
边际风险比 \(\psi\)（这是目标 estimand，需要从条件模型推导或通过加权估计）。

第二步：讲最小内核¶

最简特例：假设只有一个二值协变量 \(X \in \{0, 1\}\)，且无删失（\(C = \infty\)，即所有个体都观察到事件）。此时，Cox 模型简化为：

\[\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma X)\]

其中 \(\beta\) 是条件对数风险比。倾向性评分 \(g(X) = P(A=1|X)\) 可以通过一个简单的 logistic 模型估计。

核心问题：我们想估计边际风险比 \(\psi\)，即处理组相对于对照组的平均风险比。一个常见做法是： 1. 用 IPTW 对样本加权，使得加权后的样本中 \(A\) 与 \(X\) 独立。 2. 在加权后的样本中拟合一个不含 \(X\) 的 Cox 模型：\(\lambda(t|A) = \lambda_0^*(t) \exp(\psi A)\)。 3. 得到的 \(\psi\) 就是边际风险比的估计。

为什么这不双重稳健？

情形 1：倾向性评分模型正确，结局模型错误。 如果 \(g(X)\) 被正确估计，那么 IPTW 可以消除 \(X\) 的混杂。在加权后的样本中，\(A\) 与 \(X\) 独立，因此拟合不含 \(X\) 的 Cox 模型可以得到边际风险比 \(\psi\) 的一致估计。这是正确的。
情形 2：结局模型正确，倾向性评分模型错误。 如果 Cox 模型（包含 \(X\)）被正确设定，那么 \(\beta\) 是条件对数风险比的一致估计。然而，我们想要的是边际风险比 \(\psi\)。由于风险比的不可折叠性，\(\psi \neq \beta\)（除非 \(\beta=0\) 或 \(X\) 与 \(A\) 独立）。即使我们通过回归标准化（g-formula）来边际化，即计算 \(E_X[\lambda_0(t) \exp(\beta A + \gamma X)]\)，得到的边际风险比也依赖于 \(\lambda_0(t)\) 和 \(\gamma\) 的估计。如果倾向性评分模型错误，IPTW 权重不正确，那么加权后的样本中 \(A\) 与 \(X\) 不独立，导致 \(\beta\) 的估计有偏，进而导致边际风险比的估计有偏。因此，当结局模型正确但倾向性评分模型错误时，估计量不一致。

结论：只有当两个模型都正确，或者倾向性评分模型正确（情形 1）时，估计量才一致。当只有结局模型正确时，估计量不一致。因此，这不是双重稳健的。双重稳健性要求：只要有一个模型正确，估计量就一致。这里只满足了一半。

关键洞察：这个失败的根本原因是风险比的不可折叠性。对于可折叠的 estimand（如风险差、均值差），条件估计和边际估计在数值上是一致的（在无混杂下），因此回归标准化可以工作。但对于风险比，条件估计和边际估计不同，且这种差异无法通过简单的加权消除。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在比例风险模型（Cox、Weibull、flexible parametric）中，将倾向性评分加权（IPTW）与回归调整（Cox 模型）结合，是否能得到双重稳健的估计量？
核心工具/方法：通过理论证明（基于部分似然和全似然的渐近性质）和模拟研究，揭示这种组合在非零因果效应下不满足双重稳健性；并提出替代的、对生存差异双重稳健的估计量。
主要结论：当存在真实的因果效应时，Cox 模型 + IPTW 的组合不是双重稳健的——它只在零假设（无因果效应）下才具有双重稳健性。作为替代，作者提出了两个基于逆概率删失加权（IPCW）和回归标准化的估计量，它们在给定时间点对生存差异是双重稳健的。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

定义：
目标 estimand：边际风险比（marginal hazard ratio），记为 \(\psi\)。作者通过 IPTW 加权后的 Cox 模型（不含协变量）来估计。
估计方法：
1. IPTW-Cox：先用倾向性评分模型估计 \(g(X)\)，计算 IPTW 权重 \(w_i\)，然后在加权后的数据中拟合 Cox 模型（仅含 \(A\)），得到 \(\hat{\psi}\)。
2. IPTW-regression standardization：先用倾向性评分模型估计 \(g(X)\)，计算 IPTW 权重，然后在加权后的数据中拟合包含 \(X\) 的 Cox 模型，再通过标准化（g-formula）得到边际风险比。
替代估计量：
1. 生存差异（survival difference）：在给定时间点 \(t\)，\(S_1(t) - S_0(t)\)，其中 \(S_a(t) = P(T > t | A=a)\)。作者提出基于 IPCW 和回归标准化的双重稳健估计量。
2. 完整生存曲线：通过 IPCW 和回归标准化，对完整生存曲线进行双重稳健估计。
假设：
因果假设：无未观测混杂（\(T^a \perp A | X\)）、正值性（\(0 < g(X) < 1\)）、一致性。
删失假设：删失时间 \(C\) 独立于 \(T\) 给定 \(A, X\)（独立删失）。对于替代估计量，需要正确建模删失机制 \(G_c(t|A, X) = P(C > t | A, X)\)。
模型假设：
- 倾向性评分模型：例如 logistic 回归，假设其形式正确（或至少是参数正确的）。
- 结局模型：比例风险模型（Cox、Weibull、flexible parametric），假设其形式正确。
相比已有文献的放宽/强化：本文没有放宽任何假设，而是揭示了在标准假设下，双重稳健性不成立。相比 Dukes et al. (2019) 对风险差的 DR 估计，本文聚焦于风险比，这是一个更困难（且更常用）的 estimand。

主要结果¶

定理 1（非正式陈述）：在比例风险模型下，IPTW-Cox 和 IPTW-regression standardization 估计量不是双重稳健的。具体地： - 当倾向性评分模型正确时，估计量一致（无论结局模型是否正确）。 - 当结局模型正确但倾向性评分模型错误时，估计量不一致，除非 \(\beta = 0\)（即无因果效应）。 - 证明路线：作者利用部分似然和全似然的得分函数（score function）的渐近性质。核心思想是：当倾向性评分模型错误时，IPTW 权重不能消除混杂，导致 Cox 模型中的 \(\beta\) 估计有偏。由于风险比的不可折叠性，即使结局模型正确，有偏的 \(\beta\) 也会导致边际风险比的估计有偏。只有在 \(\beta=0\) 时，条件风险比等于边际风险比（均为 1），此时偏倚消失。

定理 2（非正式陈述）：在零假设（\(\beta=0\)）下，IPTW-Cox 和 IPTW-regression standardization 估计量是双重稳健的。 - 直觉：当无因果效应时，条件风险比等于边际风险比（均为 1），因此不可折叠性问题消失。此时，只要有一个模型正确，估计量就一致。

替代估计量（非正式陈述）：作者提出两个对生存差异 \(S_1(t) - S_0(t)\) 双重稳健的估计量： 1. IPCW + 回归标准化：先通过 IPCW 处理删失，然后对处理组和对照组分别拟合生存模型（如 Cox 模型），再通过标准化得到边际生存曲线，最后计算差异。 2. 直接双重稳健估计：基于半参数理论，构造一个对生存差异双重稳健的估计方程。 - 关键：这些替代估计量对生存差异是双重稳健的，但不是对风险比。它们需要正确建模删失机制。

证明路线与技术技巧¶

整体路线（针对定理 1 的证明）：

设定：假设数据来自一个比例风险模型，且无删失（或删失机制已知）。考虑 IPTW-Cox 估计量：先估计倾向性评分 \(\hat{g}(X)\)，然后求解加权部分似然得分方程：
\[\sum_{i=1}^n w_i \left[ A_i - \frac{\sum_{j: U_j \geq U_i} w_j \exp(\psi A_j)}{\sum_{j: U_j \geq U_i} w_j \exp(\psi A_j)} \right] = 0\]
其中 \(w_i = A_i/\hat{g}(X_i) + (1-A_i)/(1-\hat{g}(X_i))\)。
渐近展开：将得分方程在真实参数 \(\psi^*\) 处进行泰勒展开，得到 \(\hat{\psi} - \psi^*\) 的渐近表达式。这个表达式包含两项：一项来自倾向性评分估计的误差，一项来自 Cox 模型估计的误差。
分析偏倚：
- 如果倾向性评分模型正确（\(\hat{g}(X) \xrightarrow{p} g(X)\)），则 IPTW 权重使得加权后的样本中 \(A\) 与 \(X\) 独立。此时，得分方程在 \(\psi^*\)（边际风险比）处的期望为零，因此 \(\hat{\psi}\) 一致。
- 如果倾向性评分模型错误（\(\hat{g}(X) \xrightarrow{p} g^*(X) \neq g(X)\)），则 IPTW 权重不能完全消除混杂。此时，加权后的样本中 \(A\) 与 \(X\) 仍然相关。Cox 模型（不含 \(X\)）估计的是某个“伪”边际风险比 \(\psi^\dagger\)，它不等于真实的边际风险比 \(\psi^*\)。作者证明，只有当真实的因果效应为零（\(\beta=0\)）时，\(\psi^\dagger = \psi^*\)。
关键跳跃点：证明 \(\psi^\dagger \neq \psi^*\) 当 \(\beta \neq 0\) 时。这依赖于风险比的不可折叠性。作者利用一个引理：在比例风险模型下，边际风险比是条件风险比的加权平均，但权重依赖于协变量分布和基线风险。当倾向性评分模型错误时，加权后的协变量分布改变，导致加权平均的结果偏离真实边际风险比。

技术技巧点名： - 部分似然（partial likelihood）：用于 Cox 模型的估计。 - M-估计理论（M-estimation theory）：用于推导估计量的渐近分布和偏倚。 - 泰勒展开（Taylor expansion）：用于将估计量展开为影响函数之和。 - 不可折叠性（non-collapsibility）：核心概念，用于解释为什么条件估计和边际估计不同。

真实例子与应用¶

本文有模拟研究，无真实数据例子。

模拟设计：
数据生成：生成一个协变量 \(X\)（正态分布），处理 \(A\)（基于 logistic 模型，\(g(X)\) 为线性或非线性），生存时间 \(T\)（基于 Cox 模型或 Weibull 模型，\(\beta\) 取不同值），删失时间 \(C\)（独立于 \(T\) 给定 \(A, X\)）。
场景：考虑四种组合：
1. 倾向性评分模型正确，结局模型正确。
2. 倾向性评分模型正确，结局模型错误（如省略 \(X\) 的非线性项）。
3. 倾向性评分模型错误（如省略 \(X\) 的非线性项），结局模型正确。
4. 两个模型都错误。
估计量：比较 IPTW-Cox、IPTW-Weibull、IPTW-flexible parametric，以及替代的生存差异估计量。
结果：
- 在场景 1 和 2 中，所有估计量都一致（因为倾向性评分模型正确）。
- 在场景 3 中，IPTW-Cox 等估计量有偏，且偏倚随 \(\beta\) 增大而增大。替代的生存差异估计量无偏（因为对生存差异是双重稳健的）。
- 在场景 4 中，所有估计量都有偏。
这个例子想说明什么：验证了理论结果——IPTW-Cox 只在倾向性评分模型正确时一致，不是双重稳健的。同时展示了替代估计量的有效性。

🔎 结论是否比证明窄¶

是的，结论比证明窄。 作者在摘要和引言中声称“这种组合不产生双重稳健估计量”，但证明和模拟主要针对边际风险比（通过 IPTW 加权后的 Cox 模型估计）。作者没有证明： - 对于条件风险比（即包含所有协变量的 Cox 模型中的 \(\beta\)），IPTW 加权是否破坏其双重稳健性？实际上，对于条件风险比，如果结局模型正确，即使倾向性评分模型错误，\(\beta\) 的估计也可能一致（因为 Cox 模型本身可以调整混杂）。但作者没有讨论这一点。 - 对于其他生存模型（如 AFT 模型），结论是否成立？作者只讨论了比例风险模型。 - 对于其他加权方案（如重叠权重、匹配权重），结论是否成立？作者只讨论了 IPTW。

因此，本文的结论应被理解为：对于边际风险比的 IPTW-Cox 估计，双重稳健性不成立。这是一个重要的负面结果，但不应过度泛化。

四、开放问题¶

AFT 模型下的双重稳健性：加速失效时间（AFT）模型是可折叠的，因此 IPTW + AFT 的组合是否可能是双重稳健的？本文未讨论。扎根点：作者在引言中只提到比例风险模型，未提及 AFT 模型。这是一个值得探索的 gap。
高维协变量下的表现：本文的模拟和证明都假设低维协变量。在高维场景下（如 \(p > n\)），倾向性评分和结局模型都需要正则化估计（如 Lasso）。此时，双重稳健性是否还能在零假设下成立？扎根点：作者在讨论中未提及高维场景。
时变处理（time-varying treatment）：本文只考虑点处理。在纵向数据中，处理随时间变化，且存在时变混杂。此时，IPTW + Cox 模型的组合是否具有双重稳健性？扎根点：作者在引言中未提及时变处理，这是一个自然的扩展方向。
其他 estimand 的双重稳健性：除了生存差异，还有哪些生存分析中的 estimand（如限制平均生存时间 RMST）可以做到双重稳健？扎根点：作者提出了对生存差异双重稳健的替代估计量，但未讨论 RMST 等。

Maintained by 陈星宇 · Homepage · Source on GitHub