跳转至

Propensity weighting plus adjustment in proportional hazards model is not doubly robust

作者: Erin E Gabriel, Michael C Sachs, Ingeborg Waernbaum, Els Goetghebeur, Paul F Blanche et al.
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向要解决的根本问题是:在观察性研究中,当结局为生存时间(time-to-event)且存在删失时,如何稳健地估计暴露(处理)对生存结局的因果效应。具体而言,研究者希望得到一个双重稳健(doubly robust, DR)的估计量——即只要倾向性评分模型(propensity score model)和结局模型(outcome model)中有一个被正确设定,估计量就是一致的。这个方向在广义线性模型(GLM)框架下已有成熟理论(如 Seaman & Vansteelandt, 2018),但在生存分析领域,尤其是比例风险模型(Cox 模型)下,双重稳健性是否成立一直存在争议。本文的核心贡献是证明:在比例风险模型下,倾向性评分加权 + 回归调整的组合是双重稳健的,除非在零假设(无因果效应)下。

发展脉络(history)

奠基工作:双重稳健估计的思想可追溯到 Robins et al. (1994) 和 Scharfstein et al. (1999),他们指出,在缺失数据或因果推断中,将倾向性评分加权与结局模型结合可得到“只要一个模型正确就一致”的估计量。Seaman & Vansteelandt (2018) 给出了一个清晰的入门介绍,并指出这种性质在 GLM 框架下成立。

主要进展:在生存分析领域,研究者尝试将双重稳健思想推广到比例风险模型。Dukes et al. (2019) 开发了条件风险差(hazard difference)的双重稳健估计量,Tchetgen Tchetgen & Robins (2012) 提出了边际风险比(hazard ratio)的双重稳健估计量。Bai et al. (2013) 利用半参数理论推导了处理特定生存分布的双重稳健估计量。这些工作表明,在某些特定设定下(如风险差、特定时间点的生存概率),双重稳健性是可能的。

当前 frontier 与本文的位置:然而,一个常见的实践是:直接用 Cox 模型 + 倾向性评分加权(IPTW)来估计风险比(hazard ratio),并默认这种组合是双重稳健的。Gabriel et al. (2024) 已经指出,即使对于可折叠(collapsible)的 estimand,非规范链接的 GLM 模型在回归标准化后也不具备双重稳健性。本文则进一步聚焦于比例风险模型,通过理论证明和模拟揭示:当存在真实的因果效应时,Cox 模型 + IPTW 的组合不满足双重稳健性。作者将此归因于风险比(hazard ratio)的不可折叠性(non-collapsibility)——即条件风险比与边际风险比在数值上不同,且这种差异无法通过简单的加权或标准化消除。作为替代,作者提出了两个在给定时间点对生存差异(survival difference)双重稳健的估计量,以及一个对完整生存曲线双重稳健的估计方法。

子线索聚类

这些被引文献大致落在三条子线索上:

  1. 双重稳健估计的理论与方法:核心是研究在什么模型下、对什么 estimand,加权+回归的组合是双重稳健的。代表工作:Seaman & Vansteelandt (2018) 的入门介绍、Gabriel et al. (2024) 对 GLM 的讨论、Dukes et al. (2019) 对风险差的 DR 估计、Bai et al. (2013) 对生存分布的 DR 估计。本文属于这一线索,但给出了一个负面结果

  2. 风险比(hazard ratio)的因果解释与性质:核心是揭示风险比作为因果效应度量的困难,尤其是其不可折叠性和时间依赖性。代表工作:Hernán (2010) 指出风险比的因果解释困难;Daniel et al. (2020) 和 Sjölander et al. (2016) 深入讨论了不可折叠性。本文利用这一性质来解释为什么 DR 不成立。

  3. 应用实践:许多应用论文(如 Vaughan et al., 2015; Estruch et al., 2018; Simon et al., 2020; Ionescu et al., 2021)直接使用 Cox 模型 + IPTW,但通常不提供方法选择的理由。本文的动机正是纠正这种“默认 DR”的误解。

这个方向在追问的核心问题

  1. 对于生存结局,什么 estimand 可以做到双重稳健? 风险差(hazard difference)可以(Dukes et al., 2019),但风险比(hazard ratio)不行。生存差异(survival difference)在给定时间点可以(本文提出的替代估计量),但完整生存曲线需要更复杂的假设。

  2. 不可折叠性如何破坏双重稳健性? 核心机制是:条件模型(Cox 模型)估计的是条件风险比,而加权后想要的是边际风险比。当存在效应时,两者不等,且加权无法消除这种差异。本文的证明正是基于这一观察。

  3. 在比例风险模型下,是否存在任何双重稳健的估计量? 本文的回答是:仅在零假设下。这暗示了在非零效应下,需要放弃比例风险假设,或改用其他 estimand(如生存差异)。

⚠️ 作者的 framing

这是作者的说法:作者将缺口 frame 成“应用研究者错误地认为 Cox 模型 + IPTW 是双重稳健的,而实际上它只在零假设下成立”。因此,本文的贡献是“纠正误解 + 提供替代方案”。作者淡化了以下竞争路线: - 风险差(hazard difference)的双重稳健估计(Dukes et al., 2019):作者承认其存在,但指出它估计的是条件风险差,而非边际风险比,且需要保证非负风险。 - 边际风险比的双重稳健估计(Tchetgen Tchetgen & Robins, 2012):作者在引言中提及,但未深入讨论其与本文结果的关系。 - 其他生存模型(如加速失效时间模型 AFT):作者未提及,这可能是一个值得探索的方向。

什么明显该被引 / 该存在、却没出现在 intro 里? - 关于加速失效时间模型(AFT)的双重稳健估计工作。AFT 模型是可折叠的,因此可能不存在本文揭示的问题。这是一个值得研究者去查的 gap。 - 关于时变处理(time-varying treatment)的生存分析双重稳健估计。本文只考虑点处理(point treatment),但许多应用涉及纵向数据。 - 关于高维协变量下的生存分析双重稳健估计。本文的模拟和证明都假设低维协变量,高维场景下是否会有不同表现?

张力

未见明显对立引用。所有被引工作基本认同风险比的不可折叠性,且都承认双重稳健性在生存分析中的困难。本文的负面结果与 Dukes et al. (2019) 的正面结果并不矛盾,因为后者针对的是风险差而非风险比。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号
  • \(A\):暴露/处理变量,二值(0 = 未处理,1 = 处理)。
  • \(T\):真实的生存时间(潜在结果:\(T^1\)\(A=1\)\(T^0\)\(A=0\))。
  • \(C\):删失时间。
  • \(U = \min(T, C)\):观测到的随访时间。
  • \(\Delta = I(T \leq C)\):事件指示符(1 = 观察到事件,0 = 删失)。
  • \(X\):协变量向量(包含所有混杂)。
  • \(g(X) = P(A=1|X)\):倾向性评分(propensity score)。
  • \(\lambda(t|A, X)\):给定 \(A\)\(X\) 的风险函数(hazard function)。
  • \(\lambda_0(t)\):基线风险函数(baseline hazard)。
  • \(\beta\):Cox 模型中的对数风险比(log hazard ratio),即 \(\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma^T X)\)
  • \(\psi\):目标 estimand,通常是边际风险比(marginal hazard ratio),即 \(E[\lambda(t|A=1, X)] / E[\lambda(t|A=0, X)]\) 的某种平均,或更常见地,通过加权后拟合的 Cox 模型中的系数。
  • \(w_i = 1/g(X_i)\)\(w_i = A_i/g(X_i) + (1-A_i)/(1-g(X_i))\):IPTW 权重。

  • 模型

  • 数据生成机制:假设 \((X, A, T^0, T^1, C)\) 来自某个联合分布。我们观测到 \((X_i, A_i, U_i, \Delta_i)\) 的 i.i.d. 样本。
  • 因果假设:无未观测混杂(ignorability / no unmeasured confounders):\(T^a \perp A | X\);正值性(positivity):\(0 < g(X) < 1\);一致性(consistency):若 \(A=a\)\(T=T^a\)
  • 删失假设:删失时间 \(C\) 独立于 \(T\) 给定 \(A, X\)(独立删失),或更一般地,可通过逆概率删失加权(IPCW)处理。
  • 结局模型:比例风险模型(Cox 模型):\(\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma^T X)\)。注意,这是一个条件模型,\(\beta\) 是条件对数风险比。
  • 倾向性评分模型:例如 logistic 回归:\(\text{logit}(g(X)) = \alpha^T X\)

  • 可观测数据:研究者实际能观测到的是 \((X_i, A_i, U_i, \Delta_i)\)想要但观测不到的是:

  • 潜在结果 \(T^0, T^1\)(只能观测到其中一个)。
  • 真实的基线风险函数 \(\lambda_0(t)\)(半参数模型中视为 nuisance)。
  • 真实的倾向性评分 \(g(X)\)(需要估计)。
  • 边际风险比 \(\psi\)(这是目标 estimand,需要从条件模型推导或通过加权估计)。

第二步:讲最小内核

最简特例:假设只有一个二值协变量 \(X \in \{0, 1\}\),且无删失(\(C = \infty\),即所有个体都观察到事件)。此时,Cox 模型简化为:

\[\lambda(t|A, X) = \lambda_0(t) \exp(\beta A + \gamma X)\]
其中 \(\beta\) 是条件对数风险比。倾向性评分 \(g(X) = P(A=1|X)\) 可以通过一个简单的 logistic 模型估计。

核心问题:我们想估计边际风险比 \(\psi\),即处理组相对于对照组的平均风险比。一个常见做法是: 1. 用 IPTW 对样本加权,使得加权后的样本中 \(A\)\(X\) 独立。 2. 在加权后的样本中拟合一个不含 \(X\) 的 Cox 模型:\(\lambda(t|A) = \lambda_0^*(t) \exp(\psi A)\)。 3. 得到的 \(\psi\) 就是边际风险比的估计。

为什么这不双重稳健?

  • 情形 1:倾向性评分模型正确,结局模型错误。 如果 \(g(X)\) 被正确估计,那么 IPTW 可以消除 \(X\) 的混杂。在加权后的样本中,\(A\)\(X\) 独立,因此拟合不含 \(X\) 的 Cox 模型可以得到边际风险比 \(\psi\) 的一致估计。这是正确的

  • 情形 2:结局模型正确,倾向性评分模型错误。 如果 Cox 模型(包含 \(X\))被正确设定,那么 \(\beta\) 是条件对数风险比的一致估计。然而,我们想要的是边际风险比 \(\psi\)。由于风险比的不可折叠性,\(\psi \neq \beta\)(除非 \(\beta=0\)\(X\)\(A\) 独立)。即使我们通过回归标准化(g-formula)来边际化,即计算 \(E_X[\lambda_0(t) \exp(\beta A + \gamma X)]\),得到的边际风险比也依赖于 \(\lambda_0(t)\)\(\gamma\) 的估计。如果倾向性评分模型错误,IPTW 权重不正确,那么加权后的样本中 \(A\)\(X\) 不独立,导致 \(\beta\) 的估计有偏,进而导致边际风险比的估计有偏。因此,当结局模型正确但倾向性评分模型错误时,估计量不一致

结论:只有当两个模型都正确,或者倾向性评分模型正确(情形 1)时,估计量才一致。当只有结局模型正确时,估计量不一致。因此,这不是双重稳健的。双重稳健性要求:只要有一个模型正确,估计量就一致。这里只满足了一半。

关键洞察:这个失败的根本原因是风险比的不可折叠性。对于可折叠的 estimand(如风险差、均值差),条件估计和边际估计在数值上是一致的(在无混杂下),因此回归标准化可以工作。但对于风险比,条件估计和边际估计不同,且这种差异无法通过简单的加权消除。


三、这篇论文做了什么

三句话

  1. 研究了什么问题:在比例风险模型(Cox、Weibull、flexible parametric)中,将倾向性评分加权(IPTW)与回归调整(Cox 模型)结合,是否能得到双重稳健的估计量?
  2. 核心工具/方法:通过理论证明(基于部分似然和全似然的渐近性质)和模拟研究,揭示这种组合在非零因果效应下不满足双重稳健性;并提出替代的、对生存差异双重稳健的估计量。
  3. 主要结论:当存在真实的因果效应时,Cox 模型 + IPTW 的组合是双重稳健的——它只在零假设(无因果效应)下才具有双重稳健性。作为替代,作者提出了两个基于逆概率删失加权(IPCW)和回归标准化的估计量,它们在给定时间点对生存差异是双重稳健的。

关键设定与假设

在第二节最小记号的基础上,补全完整设定:

  • 定义
  • 目标 estimand:边际风险比(marginal hazard ratio),记为 \(\psi\)。作者通过 IPTW 加权后的 Cox 模型(不含协变量)来估计。
  • 估计方法
    1. IPTW-Cox:先用倾向性评分模型估计 \(g(X)\),计算 IPTW 权重 \(w_i\),然后在加权后的数据中拟合 Cox 模型(仅含 \(A\)),得到 \(\hat{\psi}\)
    2. IPTW-regression standardization:先用倾向性评分模型估计 \(g(X)\),计算 IPTW 权重,然后在加权后的数据中拟合包含 \(X\) 的 Cox 模型,再通过标准化(g-formula)得到边际风险比。
  • 替代估计量

    1. 生存差异(survival difference):在给定时间点 \(t\)\(S_1(t) - S_0(t)\),其中 \(S_a(t) = P(T > t | A=a)\)。作者提出基于 IPCW 和回归标准化的双重稳健估计量。
    2. 完整生存曲线:通过 IPCW 和回归标准化,对完整生存曲线进行双重稳健估计。
  • 假设

  • 因果假设:无未观测混杂(\(T^a \perp A | X\))、正值性(\(0 < g(X) < 1\))、一致性。
  • 删失假设:删失时间 \(C\) 独立于 \(T\) 给定 \(A, X\)(独立删失)。对于替代估计量,需要正确建模删失机制 \(G_c(t|A, X) = P(C > t | A, X)\)
  • 模型假设
    • 倾向性评分模型:例如 logistic 回归,假设其形式正确(或至少是参数正确的)。
    • 结局模型:比例风险模型(Cox、Weibull、flexible parametric),假设其形式正确。
  • 相比已有文献的放宽/强化:本文没有放宽任何假设,而是揭示了在标准假设下,双重稳健性不成立。相比 Dukes et al. (2019) 对风险差的 DR 估计,本文聚焦于风险比,这是一个更困难(且更常用)的 estimand。

主要结果

定理 1(非正式陈述):在比例风险模型下,IPTW-Cox 和 IPTW-regression standardization 估计量不是双重稳健的。具体地: - 当倾向性评分模型正确时,估计量一致(无论结局模型是否正确)。 - 当结局模型正确但倾向性评分模型错误时,估计量不一致,除非 \(\beta = 0\)(即无因果效应)。 - 证明路线:作者利用部分似然和全似然的得分函数(score function)的渐近性质。核心思想是:当倾向性评分模型错误时,IPTW 权重不能消除混杂,导致 Cox 模型中的 \(\beta\) 估计有偏。由于风险比的不可折叠性,即使结局模型正确,有偏的 \(\beta\) 也会导致边际风险比的估计有偏。只有在 \(\beta=0\) 时,条件风险比等于边际风险比(均为 1),此时偏倚消失。

定理 2(非正式陈述):在零假设(\(\beta=0\))下,IPTW-Cox 和 IPTW-regression standardization 估计量是双重稳健的。 - 直觉:当无因果效应时,条件风险比等于边际风险比(均为 1),因此不可折叠性问题消失。此时,只要有一个模型正确,估计量就一致。

替代估计量(非正式陈述):作者提出两个对生存差异 \(S_1(t) - S_0(t)\) 双重稳健的估计量: 1. IPCW + 回归标准化:先通过 IPCW 处理删失,然后对处理组和对照组分别拟合生存模型(如 Cox 模型),再通过标准化得到边际生存曲线,最后计算差异。 2. 直接双重稳健估计:基于半参数理论,构造一个对生存差异双重稳健的估计方程。 - 关键:这些替代估计量对生存差异是双重稳健的,但不是对风险比。它们需要正确建模删失机制。

证明路线与技术技巧

整体路线(针对定理 1 的证明)

  1. 设定:假设数据来自一个比例风险模型,且无删失(或删失机制已知)。考虑 IPTW-Cox 估计量:先估计倾向性评分 \(\hat{g}(X)\),然后求解加权部分似然得分方程:

    \[\sum_{i=1}^n w_i \left[ A_i - \frac{\sum_{j: U_j \geq U_i} w_j \exp(\psi A_j)}{\sum_{j: U_j \geq U_i} w_j \exp(\psi A_j)} \right] = 0\]
    其中 \(w_i = A_i/\hat{g}(X_i) + (1-A_i)/(1-\hat{g}(X_i))\)

  2. 渐近展开:将得分方程在真实参数 \(\psi^*\) 处进行泰勒展开,得到 \(\hat{\psi} - \psi^*\) 的渐近表达式。这个表达式包含两项:一项来自倾向性评分估计的误差,一项来自 Cox 模型估计的误差。

  3. 分析偏倚

    • 如果倾向性评分模型正确(\(\hat{g}(X) \xrightarrow{p} g(X)\)),则 IPTW 权重使得加权后的样本中 \(A\)\(X\) 独立。此时,得分方程在 \(\psi^*\)(边际风险比)处的期望为零,因此 \(\hat{\psi}\) 一致。
    • 如果倾向性评分模型错误(\(\hat{g}(X) \xrightarrow{p} g^*(X) \neq g(X)\)),则 IPTW 权重不能完全消除混杂。此时,加权后的样本中 \(A\)\(X\) 仍然相关。Cox 模型(不含 \(X\))估计的是某个“伪”边际风险比 \(\psi^\dagger\),它不等于真实的边际风险比 \(\psi^*\)。作者证明,只有当真实的因果效应为零(\(\beta=0\))时,\(\psi^\dagger = \psi^*\)
  4. 关键跳跃点:证明 \(\psi^\dagger \neq \psi^*\)\(\beta \neq 0\) 时。这依赖于风险比的不可折叠性。作者利用一个引理:在比例风险模型下,边际风险比是条件风险比的加权平均,但权重依赖于协变量分布和基线风险。当倾向性评分模型错误时,加权后的协变量分布改变,导致加权平均的结果偏离真实边际风险比。

技术技巧点名: - 部分似然(partial likelihood):用于 Cox 模型的估计。 - M-估计理论(M-estimation theory):用于推导估计量的渐近分布和偏倚。 - 泰勒展开(Taylor expansion):用于将估计量展开为影响函数之和。 - 不可折叠性(non-collapsibility):核心概念,用于解释为什么条件估计和边际估计不同。

真实例子与应用

本文有模拟研究,无真实数据例子。

  • 模拟设计
  • 数据生成:生成一个协变量 \(X\)(正态分布),处理 \(A\)(基于 logistic 模型,\(g(X)\) 为线性或非线性),生存时间 \(T\)(基于 Cox 模型或 Weibull 模型,\(\beta\) 取不同值),删失时间 \(C\)(独立于 \(T\) 给定 \(A, X\))。
  • 场景:考虑四种组合:
    1. 倾向性评分模型正确,结局模型正确。
    2. 倾向性评分模型正确,结局模型错误(如省略 \(X\) 的非线性项)。
    3. 倾向性评分模型错误(如省略 \(X\) 的非线性项),结局模型正确。
    4. 两个模型都错误。
  • 估计量:比较 IPTW-Cox、IPTW-Weibull、IPTW-flexible parametric,以及替代的生存差异估计量。
  • 结果
    • 在场景 1 和 2 中,所有估计量都一致(因为倾向性评分模型正确)。
    • 在场景 3 中,IPTW-Cox 等估计量有偏,且偏倚随 \(\beta\) 增大而增大。替代的生存差异估计量无偏(因为对生存差异是双重稳健的)。
    • 在场景 4 中,所有估计量都有偏。
  • 这个例子想说明什么:验证了理论结果——IPTW-Cox 只在倾向性评分模型正确时一致,不是双重稳健的。同时展示了替代估计量的有效性。

🔎 结论是否比证明窄

是的,结论比证明窄。 作者在摘要和引言中声称“这种组合不产生双重稳健估计量”,但证明和模拟主要针对边际风险比(通过 IPTW 加权后的 Cox 模型估计)。作者没有证明: - 对于条件风险比(即包含所有协变量的 Cox 模型中的 \(\beta\)),IPTW 加权是否破坏其双重稳健性?实际上,对于条件风险比,如果结局模型正确,即使倾向性评分模型错误,\(\beta\) 的估计也可能一致(因为 Cox 模型本身可以调整混杂)。但作者没有讨论这一点。 - 对于其他生存模型(如 AFT 模型),结论是否成立?作者只讨论了比例风险模型。 - 对于其他加权方案(如重叠权重、匹配权重),结论是否成立?作者只讨论了 IPTW。

因此,本文的结论应被理解为:对于边际风险比的 IPTW-Cox 估计,双重稳健性不成立。这是一个重要的负面结果,但不应过度泛化。


四、开放问题

  1. AFT 模型下的双重稳健性:加速失效时间(AFT)模型是可折叠的,因此 IPTW + AFT 的组合是否可能是双重稳健的?本文未讨论。扎根点:作者在引言中只提到比例风险模型,未提及 AFT 模型。这是一个值得探索的 gap。

  2. 高维协变量下的表现:本文的模拟和证明都假设低维协变量。在高维场景下(如 \(p > n\)),倾向性评分和结局模型都需要正则化估计(如 Lasso)。此时,双重稳健性是否还能在零假设下成立?扎根点:作者在讨论中未提及高维场景。

  3. 时变处理(time-varying treatment):本文只考虑点处理。在纵向数据中,处理随时间变化,且存在时变混杂。此时,IPTW + Cox 模型的组合是否具有双重稳健性?扎根点:作者在引言中未提及时变处理,这是一个自然的扩展方向。

  4. 其他 estimand 的双重稳健性:除了生存差异,还有哪些生存分析中的 estimand(如限制平均生存时间 RMST)可以做到双重稳健?扎根点:作者提出了对生存差异双重稳健的替代估计量,但未讨论 RMST 等。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论