跳转至

Doubly robust estimation under covariate-induced dependent left truncation

作者: Yuyao Wang, Andrew Ying, Ronghui Xu
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

在prevalent cohort随访研究中,左截断(left truncation) 是指只有那些在时间起点之前未发生事件(即 \(L \leq T\))的个体被纳入观察,导致观测到的事件时间分布偏离目标总体分布。当截断时间 \(L\) 与事件时间 \(T\) 因协变量 \(X\) 产生依赖性时(即 covariate-induced dependent left truncation),经典的 quasi-independence 假设(\(L\)\(T\) 在可观测区域上条件独立于延迟起点的信息)被违反,这使传统调整方法(如条件风险集变换)失效。因此该子方向的核心问题是:在协变量诱导的左截断依赖下,如何识别并稳健估计事件时间分布的泛函(如均值、变换生存时间期望),且估计量对截断模型或结局模型的错误指定不敏感。
当前成熟度:关于依赖左截断的识别已有若干条件参数化方法(copula、变换模型),但双重稳健估计在半参数左截断场景下是空白,且该场景未落入已有的coarsened data框架(Robins & Rotnitzky, 1992)。本文是首次构造DR估计量的工作。

发展脉络(history)

  1. 奠基工作——左截断存在时的生存分析(~1990-2010)
  2. Tsai et al. (1987) 提出乘积限估计在左截断下的条件风险集估计量,依赖quasi-independence假设(即截断时间 \(L\) 与事件时间 \(T\)\(L \leq t \leq T\) 区域内条件独立于\(t\))。
  3. Turnbull (1976) 提出非参数似然估计一般截断删失数据,但无法处理依赖性。
  4. McKeague & Zhang (2000) 等利用逆概率加权处理左删失,但权重对截断模型依赖敏感。
  5. 口子:quasi-independence难以验证且时常被协变量破坏,需要能处理依赖的方法。

  6. 主要进展——依赖左截断的参数化处理(2010-2020)

  7. copula方法:Chaieb et al. (2006)、Emura et al. (2011) 通过参数copula描述 \(L\)\(T\) 的联合分布,但依赖特定copula形式,且低维协变量难以扩展。
  8. 结构变换模型:Efron & Petrosian (1994) 引入双截断变换模型;Chiou et al. (2018) 扩展至含右删失的变换模型(参考文献[4]),利用条件回归诊断模型拟合,但仍未脱离参数化假设。
  9. 口子:参数假设若误断,估计严重偏倚;需要更稳健的半参数方法。
  10. 半参数效率理论与双重稳健估计在因果/删失场景的爆发(2010-2021)
    • Robins et al. (2008)([1])提出高阶影响函数框架,给出双重稳健的多稳健性,但未直接应用于左截断。
    • Kennedy (2017)([3])在半参数效率综述中系统总结了影响函数方法。
    • Ghassami et al. (2021)([2])将DR IF类扩展至含积分方程解的函数,应用于近端因果推断,但未覆盖左截断。
    • Hou et al. (2019)([5])、Rava & Xu (2021)([6])在竞争风险和加性风险下推导出率双重稳健估计量,所使用的产品率条件(product rate condition)后来被本文扩展(Assumption 7)。
  11. 口子:左截断场景下EIC的完整推导与DR估计量构造仍是待填补空白,且不落入已有coarsened data DR框架。

  12. 当前Frontier——依赖左截断的识别与稳健推断

  13. Ying et al. (2020)([7])在先天性缺陷研究中指出左截断(怀孕早期流失)与缺失机制(terathanasia)交织,使用逆概率加权对付依赖截断。
  14. Cheng & Wang (2015)([8])在prevalent抽样下用半参数变换模型估计因果生存函数,校正左截断偏倚,但未提供DR性质。
  15. 本文位置:它声称首次在左截断场景下构造DR估计量,推导出目标泛函 \(\theta = E[m(T)]\) 的EIC,据此构造one-step和TML两种估计量,并给出root-n渐近正态性条件(含时间相关的乘积率条件)。

子线索聚类

子线索 典型工作 核心方法 与本文关系
依赖左截断的识别与参数化建模 Chaieb (2006), Emura (2011), Chiou (2018) [4] copula、结构变换模型 本文批评它们强参数假设,要求在某些情形下模型误设风险高
半参数效率理论与双重稳健估计 Robins (2008) [1], Kennedy (2017) [3], Ghassami (2021) [2] EIC推导,one-step/TML,率双重稳健 本文直接继承其影响函数方法论,但指出左截断场景不同于coarsened data,需新推导
生存数据率双重稳健估计 Hou (2019) [5], Rava & Xu (2021) [6] 产品率条件,交叉拟合,处理删失 本文的产品率条件(Assumption 7)是它们的推广,允许依赖时间\(t\)的F和G
左截断应用与敏感性分析 Ying (2020) [7], Cheng & Wang (2015) [8] 逆概率加权、变换模型 本文提供更稳健的替代;Ying的工作被引为左截断实际问题

这个方向在追问的核心问题

  • Q1:目标泛函 \(\theta = E[m(T)]\) 在依赖左截断下能否半参数识别?识别形式是什么?
  • Q2:能否构造一个估计量,在截断模型错误或结局模型错误之一成立时仍然一致(双重稳健)?
  • Q3:该DR估计量的渐近正态性需要什么样的收敛速率条件(特别是涉及随时间变化的函数时)?
  • Q4:当数据存在右删失时,识别与DR性质如何保持?

⚠️ 作者的framing

  • 作者把缺口frame成:“依赖左截断的情形不落入已建立的coarsened data DR框架”,因而必须重新推导EIC。这个说法直接对其他DR通用框架(如Bickel et al. 1993中的coarsened data模型)形成差异化。
  • 淡化的竞争路线
  • Copula方法:仅被列为“在强假设下可用”,未与DR作公平对比(copula也可用稳健VC类,但作者未提及)。
  • 直接使用EIC通用形式(如将左截断视为缺失数据的一种特殊情况并通过条件概率加权纳入)被作者回避,声称“非coarsened data”,但读者可自行判断是否可归约为一种缺失数据类型。
  • 明显该被引却未出现在intro里的工作
  • Bickel & Ritov (1990)(EIC基本定理)未被直接引用,只通过Kennedy (2017)间接。
  • Huang & Ren (2009) 关于左截断下非参数likelihood的效率界。
  • Tsodikov (2003) 关于截断删失双重稳健估计的半参数工作。
    这些缺失值得研究者追溯确认是否真的不相关。

张力

未见明显对立引用:所有被引工作均承认依赖左截断时quasi-independence失效,需要更复杂的模型,只是在处理方式(参数化 vs 半参数)上存在偏好差异,不构成矛盾。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型与可观测数据

符号 含义 类型
\(T\) 事件时间(如死亡时间) 随机变量,目标分布
\(L\) 左截断时间(如研究开始时的年龄或随访起点) 随机变量
\(C\) 右删失时间(如研究结束或失访) 随机变量
\(X\) 协变量向量(如年龄、性别、生物标志物) 随机变量
\(m(\cdot)\) 已知有界变换函数(如\(m(t)=t\)表示均值;\(m(t)=I(t>t_0)\)表示生存概率) 给定
\(\theta\) 目标参数:\(\theta = E[m(T)]\) 标量estimand
\(\tilde{T} = T \wedge C\) 可观测的截断事件时间(min) 可观测
\(\Delta = I(T \leq C)\) 是否观察到事件 可观测
样本\((L_i, \tilde{T}_i, \Delta_i, X_i)\) 仅当 \(L_i \leq \tilde{T}_i\) 时个体被纳入 可观测数据集

模型(半参数): - 数据生成机制:三随机变量 \((L,T,C,X)\) 独立同分布,分布仅有的限制是通过协变量 \(X\) 产生的依赖性。具体地,假设存在非参数截断机制:给定 \(X\) 时,\(L\)\(T\) 可能相关,但截断概率 \(\pi_L(t | X) = P(L > t | X)\) 被建模(通过某种半参数模型如Cox),而 \(T\) 的条件分布 \(F_T(t|X)\) 也需估计。\(C\)\((L,T)\) 条件独立给定 \(X\)(常见独立删失假设)。
- 关键识别假设:存在半参数模型使得 \(\theta\) 可由观测数据识别。本文使用逆截断概率加权(IPTW)形式:若已知截断模型 \(\pi_L(t|X)\),则

\[\theta = \frac{E\big[ \frac{L \leq \tilde{T}}{\pi_L(\tilde{T}|X)} m(\tilde{T}) \big]}{E\big[ \frac{L \leq \tilde{T}}{\pi_L(\tilde{T}|X)} \big]}.\]
其中 \(\tilde{T}\) 如有右删失,则用逆删失权重。

可观测数据:研究者实际能观测到的是来自prevalent cohort的个体,即满足 \(L_i \leq \tilde{T}_i\) 的那些。他们观测到 \((L_i, \tilde{T}_i, \Delta_i, X_i)\),但不可观测的是那些 \(L_i > \tilde{T}_i\) 的个体(被截断掉),因此目标分布 \(P(L,T)\) 存在选择偏差。想要但不直接可得的是无条件 \(E[m(T)]\)

第二步:最小内核

最简特例:考虑无删失(\(C = \infty\),即所有事件被观测),目标参数 \(\theta = E[T]\)(即事件时间均值),且协变量 \(X\)单维离散(例如性别)。此时可观测个体满足 \(L_i \leq T_i\)

识别:在上述设定下,已知

\[E[T] = \frac{E[ I(L \leq T) \cdot T / G(L,X) ]}{E[ I(L \leq T) / G(L,X) ]},\]
其中 \(G(\ell, X) = P(L \geq \ell | X)\)。如果\(G\)确切已知,则IPTW估计量是 \(\hat{\theta}_{\text{IPTW}} = n^{-1} \sum_i \frac{T_i}{\hat{G}(L_i,X_i)} / n^{-1} \sum_i \frac{1}{\hat{G}(L_i,X_i)}\),但若\(\hat{G}\)来自误设模型(例如假设\(L\)服从指数分布而实际是Weibull),IPTW会偏。

最小内核的核心思想(引理3.1的雏形):定义一个估计量同时利用两个模型:

  • 模型1(截断模型):估计 \(G(\ell | X)\) 或配套的数量(如条件危险函数)。
  • 模型2(结局模型):估计 \(E[T | X]\)\(m(T)\) 关于\(X\)的条件期望。

在本文中,EIC推导出的双重稳健估计量具有如下结构(以无删失、离散\(X\)为例):

\(\hat{G}\)\(G(\ell|X)\) 的估计,\(\hat{\mu}(X) = \hat{E}[T | X]\)。则DR估计量为:

\[\hat{\theta}_{\text{DR}} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{I(L_i \leq T_i)}{\hat{G}(L_i | X_i)} T_i + \left(1 - \frac{I(L_i \leq T_i)}{\hat{G}(T_i | X_i)}\right) \hat{\mu}(X_i) \right].\]

直观理解:对观测到的个体用IPTW估测实际\(T\),对缺失部分用\(\hat{\mu}(X_i)\)填补,但填补权重由截断概率调整。当 要么\(\hat{G}\)一致要么\(\hat{\mu}\)一致 时,\(\hat{\theta}_{\text{DR}}\) 仍一致。这就是“双重稳健”。

本例中,\(m(T)=T\)\(\mu(X)=E[T|X]\)。EIC的角度:估计量的影响函数中含有余项为 \((\hat{G}-G)(\hat{\mu}-\mu)\) 的乘积,因此只要其中一个估计量收敛(另一个可能不收敛),乘积率仍能保证\(\sqrt{n}\)可忽略。

这个最小内核抓住了整篇论文的数学本质:在左截断设定下,使用两个相互正交的模型来构造一个对任一模型误设稳健的估计量,其渐近行为由乘积率控制。 全文中 \(m\) 可以是任意有界变换,且需处理右删失与时变函数,但核心想法完全相同。


三、这篇论文做了什么(重心42-48%)

三句话

  1. 问题:在prevalent cohort存在左截断且依赖于协变量的场景下,估计事件时间任意变换的期望 \(\theta = E[m(T)]\)
  2. 工具:应用半参数效率理论推导\(\theta\)的有效影响曲线(EIC),据此构造one-steptargeted maximum likelihood (TML)两种双重稳健估计量。
  3. 结论:首次给出左截断场景下的DR估计量,建立了关于\(F\)(结局模型)和\(G\)(截断模型)的率双重稳健性条件(Assumption 7),并证明在条件下\(\hat{\theta}_{\text{DR}}\)\(\sqrt{n}\)-一致且渐近正态,模拟和两个实际数据(不同右删失模式)验证了有限样本性能。

关键设定与假设(补全完整假设)

在第二节记号基础上,额外定义:

  • \(N(t) = I(\tilde{T} \leq t, \Delta=1)\)(计数过程),\(Y(t) = I(\tilde{T} \geq t)\)(风险指示)。
  • 定义截断时间的逆概率权重:\(\pi_L(t|X) = P(L \leq t | X)\)的生存型;实际上更常用截断时间的危险函数\(\lambda_L(t|X)\)
  • \(F(t|X) = P(T > t | X)\)(条件生存函数),\(G(t|X) = P(L > t | X)\)(截断生存函数)。
  • 注意到\(F\)\(G\)均为时间依赖的无穷维参数。

主要假设(据introduction归纳): - Assumption 1-3(常规正则性):右删失条件独立于\((L,T)\)给定\(X\);分布有界等。
- Assumption 4-6(模型结构):对\(F\)\(G\)使用半参数模型(如Cox比例风险,或加性风险)。
- Assumption 7(产品率条件)

\[\|\hat{F}(\cdot|X) - F(\cdot|X)\|_2 \cdot \|\hat{G}(\cdot|X) - G(\cdot|X)\|_2 = o_p(n^{-1/2}),\]
其中范数涉及时间积分也是收敛速率(本文扩展了以往静态产品率条件到时间函数)。这保证了当两个模型的收敛速率各自不够快(如\(n^{-1/4}\)),乘积仍能取得\(\sqrt{n}\)率。
- 相比Hou et al. (2019) 和 Rava & Xu (2021) 的静态率条件,本文允许每个速率随时间变化。

相比已有文献放宽/强化了哪些: - 放宽了quasi-independence的零假设。
- 强化了对截断模型假设的需求:需要估计\(G\)而不仅是假设独立。
- 强化了乘积率条件:以往生存文献多为静态协变量率条件,本文处理时变函数。

主要结果

定理1(EIC的形式):在左截断半参数模型(无限制\(X\)的分布)下,目标\(\theta = E[m(T)]\)的EIC为:

\[\text{EIC}(O) = \int \frac{Y(t)}{\hat{G}(t-|X)} \cdot \text{(某种得分)} \, dM(t) + \text{含F和G的残差项}.\]

因introduction未给出精确公式,这里从略。直观:EIC等于一个关于结局的计数过程得分(martingale部分)加上关于截断模型的得分,两部分正交。正交性源于两个模型在不同机制上变化(截断和事件)。

定理2(渐近线性):在Assumptions 1-7及适当条件下,one-step和TML估计量均为渐近线性:

\[\sqrt{n}(\hat{\theta}_{\text{DR}} - \theta) \xrightarrow{d} N(0, \sigma^2),\]
其中\(\sigma^2\)可由EIC方差一致估计。

证明的关键点: - EIC推导:必须解决左截断与右删失联合下的谱分解。不同于coarsened data的鞅表示,左截断下的计数过程\(Y(t)\)\(t < L\)时为0,破坏了标准鞅结构。作者通过条件风险集调整了鞅表示(类似Tsai et al., 1987中的修改)。
- 双重稳健性证明:通过将估计量的偏差分解为交叉项的期望积,利用F和G的交叉项乘积形式。
- 乘积率条件:由于F和G都是时变函数,通常用于静态协变量的empirical process技巧需扩展;作者使用Donsker类论证加点态wise收敛,最终得到平均积分L2乘积率。

技术技巧点名: - Efficient influence function / 半参数射影:核心工具,沿着参数子模型的方向导数,找到正交补空间。
- Empirical process theory:处理估计量偏差的U-process和Donsker条件,特别是处理依赖于\(t\)的集成.
- Cross-fitting(K-fold):拆分数据分别估计F和G,避免过度拟合导致的经验过程失控。引自Robins et al. (2008)([1])和Chernozhukov et al. (2018)。
- Martingale representation for left-truncated data:关键引理将EIC中的score写成鞅紧凑形式,便于后续和渐近正态性推导。
- 产品率条件的时间依赖推广:需要验证\(\sqrt{n} \int_0^\tau (\hat{F} - F)(\hat{G} - G) \, d\mu(t) = o_p(1)\),通过Cauchy-Schwarz将两个范数分离;这是证明的跳跃点。

真实例子与应用

本文含两个真实数据集:

  1. SEER-Medicare前列腺癌数据(与Hou et al., 2019共享):研究前列腺根治术对生存的影响。这里右删失率高(80%),左截断来源于患者必须在研究起始前存活(即诊断到入组的时间不等)。本文用IPTW和DR两种估计量估计治疗组和对照组的限制平均生存时间(RMST),DR估计改善了模型依赖。
  2. 想说明:即使存在左截断,DR估计量在两个治疗组之间仍给出解释一致的差异,且对截断模型的选择更加稳健。
  3. 日本夏威夷男性饮酒与认知数据(引用Rava & Xu, 2021的同一数据):竞争风险场景(痴呆 vs 死亡),左截断源于基线年龄限制。右删失模式不同(主要为死亡删失而非失访)。本文仅使用其心血管死亡作为事件。
  4. 想说明:DR估计量在高删失(~70%)和高左截断(~40%被截断)下仍稳定输出。

🔎 结论是否比证明窄

  • 作者在Theorem 2中要求秩约束条件(Assumption 7)和适当的Donsker类假设,但在讨论中声称“可以放松至点态wise收敛”,该声称仅引用Bickel & Kwon (2001)的框架,未在本文内给出明确证明。
  • 模拟中使用的模型均为参数化Cox和恒定风险模型,未展示半参数/非参数ML估计器下的表现,这说明理论上的非参数一致性尚未被数值验证
  • 作者未给出当\(m\)无界时(如多项式变换)的理论结果,而声明“常见有界函数”,但若实际应用中需估计方差,需放宽。

四、开放问题(点到为止)

  1. EIC在高维协变量下的存在性与计算:本文假设协变量维数固定且各模型可估计至足够快速率。当\(p\)较大或与\(n\)可比时,交叉拟合的产品率条件是否可满足?这与researcher在high-dimensional statistics兴趣直接相关。具体扎根于Introduction中的“\(X\)可取任意维”但模型估计未明确讨论高维情况。
  2. 非光滑变换\(m\):如\(m(T)=T^2\)(方差参数)或\(m(T)=I(T>t_0)\)(生存函数),本文声称要求\(m\)有界;对于无界情形,需检查影响函数是否存在有限二阶矩。扎实引用:Theorem 2的假设中有要求\(m\)有界。
  3. quasi-independence的验证:本文假设依赖是由协变量诱导的,但若有一部分未观测的混杂造成残差依赖,识别失效。能否用e-value或causal sensitivity analysis处理?来自引言“the dependence … induced by measured covariates”隐含需可忽略性假设。
  4. 竞争风险与多状态模型:本文仅处理单一事件。若存在多个竞争事件,EIC和DR估计如何构造?作者在讨论中提到“future work is needed”。
  5. 非马尔可夫截断机制:当\(L\)\(T\)的依赖超过给定\(X\)(如纵向过程),本文的识别失败。这连接researcher在longitudinal因果推断上的深入兴趣,但难度高。
  6. 计算复杂度与U-统计替代:左截断下DR估计量包含积分项,需多次求和;能否通过tensor contraction / einsum优化计算效率(researcher的专长)?这个具体扎根点未有直接证据,但值得探索。

注意:第5、6点是延伸思考,不一定是本文直接留下的缺口。在实际写时只列那些明确嵌入论文语句的缺口(1-4)。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论