Regression-based Proximal Causal Inference for Right-censored Time-to-event Data¶
作者: Kendrick Qijun Li, George C. Linderman, Xu Shi, Eric J. Tchetgen Tchetgen
来源: Epidemiology
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在存在未测量混杂的观察性研究中,如何利用测量到的、但带有误差的代理变量(负对照暴露/负对照结果),在不依赖“无未测量混杂”这一不可验假设的前提下,非参数或半参数地识别与估计因果效应。当前,该方向的理论框架(非参数识别、半参数效率界)已基本成型,但针对复杂数据结构(如右删失生存数据)的易用估计方法(如回归型两阶段法)仍处于起步与填补空白阶段。
发展脉络: - 奠基工作:Miao, Geng, and Tchetgen Tchetgen (2018) [1] 证明了在至少有两个独立代理变量且满足特定秩条件的情况下,因果效应可以被非参数识别,即使测量误差机制本身不可识别。这打破了以往必须识别测量误差分布的局限(如 Kuroki & Pearl 的路线)。 - 主要进展(框架与半参数理论):Tchetgen Tchetgen et al. (2020) [2] 正式提出了 Proximal Causal Learning 的潜在结果框架,明确承认协变量为不完美代理;Cui et al. (2023) [4] 发展了半参数 proximal 估计理论,给出了平均处理效应的效率界与双稳健估计量;Shi, Miao, and Tchetgen (2020) [3] 将负对照方法向流行病学受众做了系统梳理与推广。 - 当前 frontier(生存数据与计算易用性): - 生存数据上的 PCI:Ying, Cui, and Tchetgen Tchetgen (2022) [7] 提出了针对边际反事实生存曲线的 PIPW 估计量;Ying (2022) [6] 提出了处理依赖删失的 proximal 方法。但作者指出,这些方法“涉及求解复杂的积分方程,且通常是病态的”。 - 回归型易用方法:Liu et al. (2024) [5] 提出了基于两阶段 GLM 的回归型 PCI,避开了积分方程求解,适用于连续/计数/二值结果。作者明确指出:“A simple regression-based PCI approach for survival outcomes akin to the two-stage regression approach... is still lacking.” - 本文的位置:填补上述两个 frontier 的交汇空白——将回归型两阶段 PCI 扩展至右删失生存数据,并在加法风险结构模型下给出理论保证。
子线索聚类: 1. 非参数识别与半参数效率理论:[1], [2], [4], [13]。这一簇在建立 PCI 的数学根基:识别条件(秩条件)、桥函数的积分方程定义、效率界与双稳健性。 2. 计算易用性与回归型方法:[5], [11]。这一簇致力于将 PCI 从复杂的积分方程求解降维为标准回归(两阶段 GLM / 两阶段最小二乘),使得从业者用现成软件即可实现。Tchetgen Tchetgen et al. (2015) [11] 在 IV 语境下为加法风险模型开发了类似的两阶段回归。 3. 生存数据上的因果推断:[6], [7], [11]。这一簇处理右删失与依赖删失带来的识别与估计挑战,是本文的直接应用场景。
这个方向在追问的核心问题: 1. 识别问题:在未测量混杂 \(U\) 存在时,何种秩条件与代理变量结构能保证因果效应的非参数识别?([1] 的核心) 2. 估计与计算问题:桥函数通常是积分方程的解,病态且难估。如何构造易于计算、有理论保证的估计量?([5] 与本文的核心) 3. 复杂数据结构适配:如何将 PCI 框架适配到右删失、纵向等复杂数据,使得代理变量的条件独立假设与估计量依然成立?([6], [7] 与本文的核心)
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“回归型 PCI 在右删失生存数据上的缺失”,并强调其方法“obviates the need to solve difficult integral equations”,从而使得 PCI 在流行病学中最常见的生存数据上变得易用。 - 被淡化的竞争路线:作者淡化了非参数/半参数双稳健估计路线([4], [13])在生存数据上的潜力。虽然 [4] 的方法涉及病态积分方程,但 [13] 的 Minimax Kernel 方法已提供了一种不依赖参数模型求解积分方程的途径,作者未讨论为何在生存数据上两阶段回归优于 Minimax Kernel。 - 缺失的引用:Intro 中未见对加法风险模型本身半参数推断经典文献(如 Aalen, Lin & Ying)的引用,也未见对生存数据上 IV 方法近期进展(除 [11] 外)的对比。这值得研究者去查:两阶段回归在加法风险下的理论保证,是否早已在 IV 或测量误差文献中有类似处理?
张力: 未见明显对立引用。各被引工作是在不同设定(非参数 vs 回归、点结果 vs 生存结果)下递进扩展,逻辑一致。但存在一条隐含张力:[4] 与 [13] 追求双稳健与半参数效率,而 [5] 与本文追求计算易用性(参数/半参数模型假设),这两条路线在稳健性与易用性上的取舍未被作者显式讨论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(A\):二值处理/暴露(如是否接受右心导管置入,\(A \in \{0,1\}\))。
- \(T\):潜在生存时间/事件时间(连续随机变量,要研究的 primary outcome)。
- \(C\):潜在删失时间(连续随机变量)。
- \(\tilde{T} = \min(T, C)\):可观测时间。
- \(\Delta = I(T \le C)\):删失指示变量(\(\Delta=1\) 表示未删失,观测到真实事件时间)。
- \(X\):已测量协变量(向量,假定无混杂或仅作为控制变量)。
- \(U\):未测量混杂(向量,不可观测,导致 \(A\) 与 \(T\) 产生依赖)。
- \(Z\):处理混杂代理/负对照暴露(Negative Control Exposure, NCE)。可观测,不受 \(A\) 影响,但与 \(A\) 共享未测量混杂 \(U\) 的信息。
- \(W\):结果混杂代理/负对照结果(Negative Control Outcome, NCO)。可观测,不受 \(A\) 的因果影响,但与 \(T\) 共享未测量混杂 \(U\) 的信息。本文考虑三种类型的 \(W\):连续、计数、右删失时间。
- \(W^d\):当 \(W\) 为右删失时间时的可观测代理,\(W^d = \min(W, C)\),\(\Delta_W = I(W \le C)\)。
- 可观测数据:\((X, Z, A, \tilde{T}, \Delta, W)\)(或含 \(W^d, \Delta_W\))。研究者观测到的是删失后的生存时间与代理变量。
- 不可观测但需识别的量:未测量混杂 \(U\),以及 \(U\) 对 \(T\) 与 \(A\) 的影响机制。核心目标 estimand 是 \(A\) 对 \(T\) 的因果效应(在加法风险尺度下)。
模型: 数据生成机制上,\(U\) 同时影响 \(A\) 与 \(T\)(造成混杂)。\(Z\) 仅受 \(U\) 影响(与 \(A\) 的生成机制共享 \(U\)),\(W\) 仅受 \(U\) 影响(与 \(T\) 的生成机制共享 \(U\)),\(A\) 对 \(W\) 无因果效应。删失机制 \(C\) 假定在给定 \((X, U)\) 下与 \((T, W, Z, A)\) 独立(或更弱的 proximal 条件)。 结构模型设定为加法风险模型:
第二步:讲最小内核
支撑整篇论文的最小内核是:在加法风险结构下,如何用两阶段回归将未测量混杂 \(U\) 的效应 \(h(U)\) 替换为可观测的代理变量 \(W\) 的预测值,从而消除混杂偏倚并估计 \(\beta\)。
最简特例(连续 NCO \(W\),无协变量 \(X\),无删失 \(C\)): 假设 \(W\) 是连续的,且我们能完全观测到 \(T\)(无删失)。加法风险模型为 \(\lambda_{T|A,U}(t|a, u) = \lambda_0(t) + a \beta + h(u)\)。
-
第一阶段(构造 \(U\) 的替代变量): 核心假设是存在一个结果桥函数 \(q(W)\),使得:
\[E[h(U) | A, Z] = E[q(W) | A, Z]\]在连续 \(W\) 且线性设定下,假设 \(q(W) = \alpha W\)。第一阶段回归即为:\[W = \mu_0 + \mu_1 A + \mu_2 Z + \epsilon\]用 OLS 估计 \(\hat{\mu}_2\),得到 \(W\) 在给定 \((A,Z)\) 下对 \(Z\) 的线性预测部分 \(\hat{W}^{\perp} = \hat{\mu}_2 Z\)。这一部分捕获了 \(Z\) 所蕴含的 \(U\) 的信息,即 \(h(U)\) 的替代。 -
第二阶段(因果效应估计): 将第一阶段的预测值 \(\hat{W}^{\perp}\) 作为协变量代入加法风险模型,替换不可观测的 \(h(U)\):
\[\lambda_{T|A,Z,W}(t|a, z, w) \approx \lambda_0(t) + a \beta + \hat{\mu}_2 Z\]利用 Aalen 加法风险模型的半参数估计(或部分似然),直接回归 \(\tilde{T}\) 的风险增量对 \((A, Z)\) 的关系,估计出 \(\beta\)。
为什么成立:因为 \(Z\) 是 NCE,只通过 \(U\) 与 \(T\) 关联;\(W\) 是 NCO,只通过 \(U\) 与 \(A\) 关联。在桥函数条件下,\(W\) 在 \((A,Z)\) 下对 \(Z\) 的回归预测,恰好提取了 \(Z\) 中关于 \(U\) 的那部分变异,而这部分变异正是造成 \(A\) 与 \(T\) 混杂的来源。将其放入第二阶段,就控制了混杂,剩余的 \(A\) 对风险的加法效应即为因果效应 \(\beta\)。
三、这篇论文做了什么¶
三句话: ① 研究了在未测量混杂与右删失共存时,如何估计处理对生存时间的因果效应; ② 核心方法是基于结果桥函数的两阶段回归,第一阶段用负对照结果(NCO)对负对照暴露(NCE)回归构造混杂替代变量,第二阶段将其纳入加法风险模型; ③ 主要结论是为连续、计数、右删失三类 NCO 分别给出了识别条件与两阶段估计量,证明了估计量的一致性与渐近正态性,并在 SUPPORT 数据上验证了方法有效性。
关键设定与假设: 在第二节最小记号基础上补全: - Assumption 1 (Proximal Negative Control Conditions):\(Z\) 是有效 NCE(\(Z\) 对 \(T\) 无直接因果效应,仅通过 \(U\) 关联);\(W\) 是有效 NCO(\(A\) 对 \(W\) 无直接因果效应,仅通过 \(U\) 关联)。这是 PCI 的核心假设,对应 [1], [3] 的定义,本文将其推广至 \(W\) 为右删失时间变量的情形。 - Assumption 2 (Completeness/Rank Condition):\(U\) 对 \(Z\)(或 \(W\))的条件分布满足完备性条件(如 \(E[g(U)|Z]\) 几乎处处为 0 蕴含 \(g(U)=0\))。这是保证桥函数存在且唯一的数学条件,非参数情形下难以验证,但在线性/指数族设定下退化为秩条件,本文的回归方法隐含依赖此条件的线性版本。 - Assumption 3 (Independent Censoring given X and U):\(C \perp (T, W, Z, A) | X, U\)。相比标准生存分析中的 \(C \perp T | X\),本文允许 \(C\) 依赖 \(U\),只要控制了 \(U\)(通过代理)即可。若 \(C\) 依赖 \(U\) 而无代理,则产生依赖删失偏倚。 - Additive Hazard Structural Model:\(\lambda_{T|A,X,U}(t|a,x,u) = \lambda_0(t) + a\beta + x^T\gamma + h(u)\)。相比 [7] 关注边际生存曲线,本文关注条件风险模型;相比 Cox 模型,加法风险模型的优势在于:当加入 \(h(U)\) 或其替代变量时,\(A\) 的系数 \(\beta\) 仍保持因果解释且不随时间变化,而在 Cox 模型下加入代理变量可能导致 hazard ratio 的非因果解释(collapsible 问题)。
主要结果: 1. 定理:非参数识别(对应三类 NCO): - 连续/计数 NCO:在桥函数 \(E[h(U)|A,Z] = E[q(W)|A,Z]\) 存在且满足完备性条件下,\(\beta\) 可识别。 - 右删失 NCO:定义 \(W^d = \min(W, C)\),需构造删失调整的桥函数。作者证明,在 \(C \perp W | A, Z, X, U\) 下,存在函数 \(q^d\) 使得 \(E[h(U)|A,Z,X] = E[q^d(W^d, \Delta_W)|A,Z,X]\),从而 \(\beta\) 依然可识别。 2. 定理:两阶段估计的一致性与渐近正态性: - 第一阶段用 GLM(连续用线性,计数用 Poisson,右删失用 Aalen 加法风险)估计 \(W\) 对 \((A, Z, X)\) 的回归,提取 \(Z\) 的系数预测值 \(\hat{\eta}\)。 - 第二阶段将 \(\hat{\eta}\) 作为协变量放入 Aalen 加法风险模型估计 \(\beta\)。 - 证明了两阶段估计量 \(\hat{\beta}\) 是一致的,且渐近分布为正态。渐近方差通过 Influence Function 推导,涉及第一阶段估计的 nuisance 参数修正。
证明路线与技术技巧: - 整体路线: 1. 设定桥函数与识别:写出 \(h(U)\) 的桥函数表示 \(q(W)\) 或 \(q^d(W^d, \Delta_W)\),证明在完备性条件下该表示唯一,从而在加法风险模型中可用 \(q(W)\) 替代 \(h(U)\)。 2. 第一阶段参数化:将桥函数参数化为 \(W\) 对 \((A, Z, X)\) 的 GLM 回归,得到预测值 \(\hat{\eta} = \hat{\gamma}_Z Z\)。 3. 第二阶段 Aalen 回归:将 \(\hat{\eta}\) 纳入 Aalen 模型,估计 \(\beta\)。 4. 渐近理论推导:利用半参数 M-估计理论,写出两阶段联合估计方程,推导 Influence Function,证明由于第一阶段的预测误差在第二阶段正交(\(Z\) 与 \(W\) 在给定 \(U\) 下的结构),预测误差不贡献渐近方差的一阶项,从而 \(\hat{\beta}\) 达到渐近正态。 - 关键跳跃点: - 右删失 NCO 的桥函数构造:当 \(W\) 被删失为 \(W^d\) 时,如何保证 \(E[q^d(W^d, \Delta_W)|A,Z,X]\) 仍能捕获 \(E[h(U)|A,Z,X]\)?作者利用了 \(C \perp W | U\) 的假设,通过条件期望的分解,证明 \(W^d\) 与 \(\Delta_W\) 的联合分布仍包含足够的 \(U\) 信息以满足完备性。 - 两阶段估计的方差修正:标准的两阶段估计(如 2SLS)在非线性模型下通常需要修正第一阶段预测误差的方差贡献。作者利用 Aalen 模型的线性结构与桥函数的条件期望性质,证明了在特定正交条件下,第一阶段的估计误差对 \(\hat{\beta}\) 的渐近方差影响可被精确计算与修正。 - 技术技巧点名: - Bridge Function / Completeness:源自 [1] 的 PCI 识别核心工具,用于将不可观测 \(U\) 的效应映射到可观测 \(W\) 上。 - Aalen Additive Hazard Model:生存分析中的半参数模型,因其风险函数的线性加法结构,天然适合将代理变量预测值作为线性协变量纳入,避免了 Cox 模型的 collapsibility 与非因果解释难题。 - Two-Stage M-estimation / Influence Function:半参数推断的标准工具,用于处理 nuisance 参数(第一阶段的 \(\hat{\eta}\))对目标参数(第二阶段的 \(\hat{\beta}\))的渐近影响,推导出联合 Influence Function 以获得正确的方差估计。 - GLM with Right-Censored Outcome (Aalen regression for Stage 1):当 NCO 本身也是右删失时间时,第一阶段回归不能用标准 GLM,作者巧妙地用 Aalen 加法风险模型对 \(W^d\) 进行回归,提取 \(Z\) 的系数作为混杂替代。
真实例子与应用: - 数据:SUPPORT (Study to Understand Prognoses and Preferences for Outcomes and Risks of Treatments) 数据集,包含危重症患者的临床信息。 - 场景:评估右心导管置入 (RHC, \(A=1\)) 对危重症患者生存时间 (\(T\)) 的因果效应。RHC 的分配严重受患者病情(如疾病严重度、器官功能)影响,存在大量未测量/测量不精确的混杂(如医生对病情的主观判断、患者 frailty)。 - 如何用上去: - NCE (\(Z\)):入院时的疾病类别与某些基线特征(与是否用 RHC 相关,但不直接决定生存)。 - NCO (\(W\)):24小时内的血液生物标志物(如 PaO2/FiO2 比率、pH、 hematocrit)。作者引用 [15] 指出,这些标志物“提供关于患者呼吸功能、系统性灌注与贫血的关键信息……与治疗和结果均强烈相关”,但它们是病情 \(U\) 的不完美代理,且 RHC 不可能在 24 小时内因果改变这些基线标志物。 - 处理右删失:很多患者未在随访期内死亡,存在右删失。 - 结果:两阶段回归型 PCI 估计出 RHC 对生存风险的加法效应 \(\hat{\beta}\) 为正(增加风险),与未控制未测量混杂的偏倚估计(可能显示 RHC 有益或无害)形成对比,也与 [7] 中 PIPW 方法的结论方向一致,验证了方法能有效校正未测量混杂偏倚。 - 想说明什么:展示回归型 PCI 在真实右删失流行病学数据上的可行性与结果合理性,证明其能揭示被混杂掩盖的真实有害效应。
🔎 结论是否比证明窄: 作者在理论部分严格证明了在 GLM 与 Aalen 模型参数设定下的一致性与渐近正态性。但在 Intro 与 Discussion 中,作者泛泛 claim 该方法“obviates the need to solve difficult integral equations typically involved in nonparametric PCI estimation”。这是一个比证明窄的 claim:证明只覆盖了参数/半参数的两阶段回归设定,并未证明在非参数桥函数设定下两阶段回归依然能绕过积分方程求解(实际上,非参数桥函数的估计依然隐含求解积分方程,只是回归方法将其参数化了)。研究者需注意:方法的“易用性”是以参数化桥函数为代价的,若桥函数参数设定错误,一致性可能不保(缺乏双稳健性,这是与 [4] 的核心差距)。
四、开放问题(点到为止)¶
- 双稳健性缺失:本文的两阶段回归方法依赖第一阶段桥函数的参数设定(GLM/Aalen)正确,若设定错误则估计不一致。而 [4] 与 [13] 发展了双稳健或 Minimax Kernel 方法。能否在加法风险结构下,构造既易用又对桥函数设定部分稳健的估计量?(扎根于:作者未讨论其方法与 [4] 双稳健性的对比,以及 [5] 中对参数设定敏感性的局限)。
- 依赖删失的 Proximal 处理:本文假设 \(C \perp (T, W) | X, U\),即控制 \(U\) 后删失独立。若 \(C\) 与 \(T\) 的依赖关系无法被 \(U\) 完全捕获(即存在非 \(U\) 渠道的依赖删失),当前的桥函数构造是否失效?如何引入针对删失的代理变量?(扎根于:Assumption 3 的强条件,以及 [6] 处理依赖删失的更复杂设定)。
- NCO 为右删失时的完备性验证:当 \(W\) 本身也是右删失时间时,\((W^d, \Delta_W)\) 对 \(U\) 的完备性条件在数学上极难验证。能否给出在常见生存分布(如 Weibull, Cox 模型)下完备性成立的充分条件?(扎根于:定理证明中对完备性条件的直接引用,缺乏对删失数据下完备性的具体讨论)。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub