Doubly robust estimation under covariate-induced dependent left truncation¶

作者: Yuyao Wang, Andrew Ying, Ronghui Xu
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

在prevalent cohort随访研究中，左截断（left truncation） 是指只有那些在时间起点之前未发生事件（即 \(L \leq T\)）的个体被纳入观察，导致观测到的事件时间分布偏离目标总体分布。当截断时间 \(L\) 与事件时间 \(T\) 因协变量 \(X\) 产生依赖性时（即 covariate-induced dependent left truncation），经典的 quasi-independence 假设（\(L\) 与 \(T\) 在可观测区域上条件独立于延迟起点的信息）被违反，这使传统调整方法（如条件风险集变换）失效。因此该子方向的核心问题是：在协变量诱导的左截断依赖下，如何识别并稳健估计事件时间分布的泛函（如均值、变换生存时间期望），且估计量对截断模型或结局模型的错误指定不敏感。
当前成熟度：关于依赖左截断的识别已有若干条件参数化方法（copula、变换模型），但双重稳健估计在半参数左截断场景下是空白，且该场景未落入已有的coarsened data框架（Robins & Rotnitzky, 1992）。本文是首次构造DR估计量的工作。

发展脉络（history）¶

奠基工作——左截断存在时的生存分析（~1990-2010）
Tsai et al. (1987) 提出乘积限估计在左截断下的条件风险集估计量，依赖quasi-independence假设（即截断时间 \(L\) 与事件时间 \(T\) 在 \(L \leq t \leq T\) 区域内条件独立于\(t\)）。
Turnbull (1976) 提出非参数似然估计一般截断删失数据，但无法处理依赖性。
McKeague & Zhang (2000) 等利用逆概率加权处理左删失，但权重对截断模型依赖敏感。
口子：quasi-independence难以验证且时常被协变量破坏，需要能处理依赖的方法。
主要进展——依赖左截断的参数化处理（2010-2020）
copula方法：Chaieb et al. (2006)、Emura et al. (2011) 通过参数copula描述 \(L\) 与 \(T\) 的联合分布，但依赖特定copula形式，且低维协变量难以扩展。
结构变换模型：Efron & Petrosian (1994) 引入双截断变换模型；Chiou et al. (2018) 扩展至含右删失的变换模型（参考文献[4]），利用条件回归诊断模型拟合，但仍未脱离参数化假设。
口子：参数假设若误断，估计严重偏倚；需要更稳健的半参数方法。
半参数效率理论与双重稳健估计在因果/删失场景的爆发（2010-2021）
- Robins et al. (2008)（[1]）提出高阶影响函数框架，给出双重稳健的多稳健性，但未直接应用于左截断。
- Kennedy (2017)（[3]）在半参数效率综述中系统总结了影响函数方法。
- Ghassami et al. (2021)（[2]）将DR IF类扩展至含积分方程解的函数，应用于近端因果推断，但未覆盖左截断。
- Hou et al. (2019)（[5]）、Rava & Xu (2021)（[6]）在竞争风险和加性风险下推导出率双重稳健估计量，所使用的产品率条件（product rate condition）后来被本文扩展（Assumption 7）。
口子：左截断场景下EIC的完整推导与DR估计量构造仍是待填补空白，且不落入已有coarsened data DR框架。
当前Frontier——依赖左截断的识别与稳健推断
Ying et al. (2020)（[7]）在先天性缺陷研究中指出左截断（怀孕早期流失）与缺失机制（terathanasia）交织，使用逆概率加权对付依赖截断。
Cheng & Wang (2015)（[8]）在prevalent抽样下用半参数变换模型估计因果生存函数，校正左截断偏倚，但未提供DR性质。
本文位置：它声称首次在左截断场景下构造DR估计量，推导出目标泛函 \(\theta = E[m(T)]\) 的EIC，据此构造one-step和TML两种估计量，并给出root-n渐近正态性条件（含时间相关的乘积率条件）。

子线索聚类¶

子线索	典型工作	核心方法	与本文关系
依赖左截断的识别与参数化建模	Chaieb (2006), Emura (2011), Chiou (2018) [4]	copula、结构变换模型	本文批评它们强参数假设，要求在某些情形下模型误设风险高
半参数效率理论与双重稳健估计	Robins (2008) [1], Kennedy (2017) [3], Ghassami (2021) [2]	EIC推导，one-step/TML，率双重稳健	本文直接继承其影响函数方法论，但指出左截断场景不同于coarsened data，需新推导
生存数据率双重稳健估计	Hou (2019) [5], Rava & Xu (2021) [6]	产品率条件，交叉拟合，处理删失	本文的产品率条件（Assumption 7）是它们的推广，允许依赖时间\(t\)的F和G
左截断应用与敏感性分析	Ying (2020) [7], Cheng & Wang (2015) [8]	逆概率加权、变换模型	本文提供更稳健的替代；Ying的工作被引为左截断实际问题

这个方向在追问的核心问题¶

Q1：目标泛函 \(\theta = E[m(T)]\) 在依赖左截断下能否半参数识别？识别形式是什么？
Q2：能否构造一个估计量，在截断模型错误或结局模型错误之一成立时仍然一致（双重稳健）？
Q3：该DR估计量的渐近正态性需要什么样的收敛速率条件（特别是涉及随时间变化的函数时）？
Q4：当数据存在右删失时，识别与DR性质如何保持？

⚠️ 作者的framing¶

作者把缺口frame成：“依赖左截断的情形不落入已建立的coarsened data DR框架”，因而必须重新推导EIC。这个说法直接对其他DR通用框架（如Bickel et al. 1993中的coarsened data模型）形成差异化。
淡化的竞争路线：
Copula方法：仅被列为“在强假设下可用”，未与DR作公平对比（copula也可用稳健VC类，但作者未提及）。
直接使用EIC通用形式（如将左截断视为缺失数据的一种特殊情况并通过条件概率加权纳入）被作者回避，声称“非coarsened data”，但读者可自行判断是否可归约为一种缺失数据类型。
明显该被引却未出现在intro里的工作：
Bickel & Ritov (1990)（EIC基本定理）未被直接引用，只通过Kennedy (2017)间接。
Huang & Ren (2009) 关于左截断下非参数likelihood的效率界。
Tsodikov (2003) 关于截断删失双重稳健估计的半参数工作。
这些缺失值得研究者追溯确认是否真的不相关。

张力¶

未见明显对立引用：所有被引工作均承认依赖左截断时quasi-independence失效，需要更复杂的模型，只是在处理方式（参数化 vs 半参数）上存在偏好差异，不构成矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

符号	含义	类型
\(T\)	事件时间（如死亡时间）	随机变量，目标分布
\(L\)	左截断时间（如研究开始时的年龄或随访起点）	随机变量
\(C\)	右删失时间（如研究结束或失访）	随机变量
\(X\)	协变量向量（如年龄、性别、生物标志物）	随机变量
\(m(\cdot)\)	已知有界变换函数（如\(m(t)=t\)表示均值；\(m(t)=I(t>t_0)\)表示生存概率）	给定
\(\theta\)	目标参数：\(\theta = E[m(T)]\)	标量estimand
\(\tilde{T} = T \wedge C\)	可观测的截断事件时间（min）	可观测
\(\Delta = I(T \leq C)\)	是否观察到事件	可观测
样本\((L_i, \tilde{T}_i, \Delta_i, X_i)\)	仅当 \(L_i \leq \tilde{T}_i\) 时个体被纳入	可观测数据集

模型（半参数）： - 数据生成机制：三随机变量 \((L,T,C,X)\) 独立同分布，分布仅有的限制是通过协变量 \(X\) 产生的依赖性。具体地，假设存在非参数截断机制：给定 \(X\) 时，\(L\) 与 \(T\) 可能相关，但截断概率 \(\pi_L(t | X) = P(L > t | X)\) 被建模（通过某种半参数模型如Cox），而 \(T\) 的条件分布 \(F_T(t|X)\) 也需估计。\(C\) 与 \((L,T)\) 条件独立给定 \(X\)（常见独立删失假设）。
- 关键识别假设：存在半参数模型使得 \(\theta\) 可由观测数据识别。本文使用逆截断概率加权（IPTW）形式：若已知截断模型 \(\pi_L(t|X)\)，则

\[\theta = \frac{E\big[ \frac{L \leq \tilde{T}}{\pi_L(\tilde{T}|X)} m(\tilde{T}) \big]}{E\big[ \frac{L \leq \tilde{T}}{\pi_L(\tilde{T}|X)} \big]}.\]

其中 \(\tilde{T}\) 如有右删失，则用逆删失权重。

可观测数据：研究者实际能观测到的是来自prevalent cohort的个体，即满足 \(L_i \leq \tilde{T}_i\) 的那些。他们观测到 \((L_i, \tilde{T}_i, \Delta_i, X_i)\)，但不可观测的是那些 \(L_i > \tilde{T}_i\) 的个体（被截断掉），因此目标分布 \(P(L,T)\) 存在选择偏差。想要但不直接可得的是无条件 \(E[m(T)]\)。

第二步：最小内核¶

最简特例：考虑无删失（\(C = \infty\)，即所有事件被观测），目标参数 \(\theta = E[T]\)（即事件时间均值），且协变量 \(X\) 为单维离散（例如性别）。此时可观测个体满足 \(L_i \leq T_i\)。

识别：在上述设定下，已知

\[E[T] = \frac{E[ I(L \leq T) \cdot T / G(L,X) ]}{E[ I(L \leq T) / G(L,X) ]},\]

其中 \(G(\ell, X) = P(L \geq \ell | X)\)。如果\(G\)确切已知，则IPTW估计量是 \(\hat{\theta}_{\text{IPTW}} = n^{-1} \sum_i \frac{T_i}{\hat{G}(L_i,X_i)} / n^{-1} \sum_i \frac{1}{\hat{G}(L_i,X_i)}\)，但若\(\hat{G}\)来自误设模型（例如假设\(L\)服从指数分布而实际是Weibull），IPTW会偏。

最小内核的核心思想（引理3.1的雏形）：定义一个估计量同时利用两个模型：

模型1（截断模型）：估计 \(G(\ell | X)\) 或配套的数量（如条件危险函数）。
模型2（结局模型）：估计 \(E[T | X]\) 或 \(m(T)\) 关于\(X\)的条件期望。

在本文中，EIC推导出的双重稳健估计量具有如下结构（以无删失、离散\(X\)为例）：

设 \(\hat{G}\) 是 \(G(\ell|X)\) 的估计，\(\hat{\mu}(X) = \hat{E}[T | X]\)。则DR估计量为：

\[\hat{\theta}_{\text{DR}} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{I(L_i \leq T_i)}{\hat{G}(L_i | X_i)} T_i + \left(1 - \frac{I(L_i \leq T_i)}{\hat{G}(T_i | X_i)}\right) \hat{\mu}(X_i) \right].\]

直观理解：对观测到的个体用IPTW估测实际\(T\)，对缺失部分用\(\hat{\mu}(X_i)\)填补，但填补权重由截断概率调整。当 要么\(\hat{G}\)一致，要么\(\hat{\mu}\)一致 时，\(\hat{\theta}_{\text{DR}}\) 仍一致。这就是“双重稳健”。

本例中，\(m(T)=T\)，\(\mu(X)=E[T|X]\)。EIC的角度：估计量的影响函数中含有余项为 \((\hat{G}-G)(\hat{\mu}-\mu)\) 的乘积，因此只要其中一个估计量收敛（另一个可能不收敛），乘积率仍能保证\(\sqrt{n}\)可忽略。

这个最小内核抓住了整篇论文的数学本质：在左截断设定下，使用两个相互正交的模型来构造一个对任一模型误设稳健的估计量，其渐近行为由乘积率控制。 全文中 \(m\) 可以是任意有界变换，且需处理右删失与时变函数，但核心想法完全相同。

三、这篇论文做了什么（重心42-48%）¶

三句话¶

问题：在prevalent cohort存在左截断且依赖于协变量的场景下，估计事件时间任意变换的期望 \(\theta = E[m(T)]\)。
工具：应用半参数效率理论推导\(\theta\)的有效影响曲线（EIC），据此构造one-step和targeted maximum likelihood (TML)两种双重稳健估计量。
结论：首次给出左截断场景下的DR估计量，建立了关于\(F\)（结局模型）和\(G\)（截断模型）的率双重稳健性条件（Assumption 7），并证明在条件下\(\hat{\theta}_{\text{DR}}\)是\(\sqrt{n}\)-一致且渐近正态，模拟和两个实际数据（不同右删失模式）验证了有限样本性能。

关键设定与假设（补全完整假设）¶

在第二节记号基础上，额外定义：

令 \(N(t) = I(\tilde{T} \leq t, \Delta=1)\)（计数过程），\(Y(t) = I(\tilde{T} \geq t)\)（风险指示）。
定义截断时间的逆概率权重：\(\pi_L(t|X) = P(L \leq t | X)\)的生存型；实际上更常用截断时间的危险函数\(\lambda_L(t|X)\)。
\(F(t|X) = P(T > t | X)\)（条件生存函数），\(G(t|X) = P(L > t | X)\)（截断生存函数）。
注意到\(F\)和\(G\)均为时间依赖的无穷维参数。

主要假设（据introduction归纳）： - Assumption 1-3（常规正则性）：右删失条件独立于\((L,T)\)给定\(X\)；分布有界等。
- Assumption 4-6（模型结构）：对\(F\)和\(G\)使用半参数模型（如Cox比例风险，或加性风险）。
- Assumption 7（产品率条件）：

\[\|\hat{F}(\cdot|X) - F(\cdot|X)\|_2 \cdot \|\hat{G}(\cdot|X) - G(\cdot|X)\|_2 = o_p(n^{-1/2}),\]

其中范数涉及时间积分也是收敛速率（本文扩展了以往静态产品率条件到时间函数）。这保证了当两个模型的收敛速率各自不够快（如\(n^{-1/4}\)），乘积仍能取得\(\sqrt{n}\)率。
- 相比Hou et al. (2019) 和 Rava & Xu (2021) 的静态率条件，本文允许每个速率随时间变化。

相比已有文献放宽/强化了哪些： - 放宽了quasi-independence的零假设。
- 强化了对截断模型假设的需求：需要估计\(G\)而不仅是假设独立。
- 强化了乘积率条件：以往生存文献多为静态协变量率条件，本文处理时变函数。

主要结果¶

定理1（EIC的形式）：在左截断半参数模型（无限制\(X\)的分布）下，目标\(\theta = E[m(T)]\)的EIC为：

\[\text{EIC}(O) = \int \frac{Y(t)}{\hat{G}(t-|X)} \cdot \text{(某种得分)} \, dM(t) + \text{含F和G的残差项}.\]

因introduction未给出精确公式，这里从略。直观：EIC等于一个关于结局的计数过程得分（martingale部分）加上关于截断模型的得分，两部分正交。正交性源于两个模型在不同机制上变化（截断和事件）。

定理2（渐近线性）：在Assumptions 1-7及适当条件下，one-step和TML估计量均为渐近线性：

\[\sqrt{n}(\hat{\theta}_{\text{DR}} - \theta) \xrightarrow{d} N(0, \sigma^2),\]

其中\(\sigma^2\)可由EIC方差一致估计。

证明的关键点： - EIC推导：必须解决左截断与右删失联合下的谱分解。不同于coarsened data的鞅表示，左截断下的计数过程\(Y(t)\)在\(t < L\)时为0，破坏了标准鞅结构。作者通过条件风险集调整了鞅表示（类似Tsai et al., 1987中的修改）。
- 双重稳健性证明：通过将估计量的偏差分解为交叉项的期望积，利用F和G的交叉项乘积形式。
- 乘积率条件：由于F和G都是时变函数，通常用于静态协变量的empirical process技巧需扩展；作者使用Donsker类论证加点态wise收敛，最终得到平均积分L2乘积率。

技术技巧点名： - Efficient influence function / 半参数射影：核心工具，沿着参数子模型的方向导数，找到正交补空间。
- Empirical process theory：处理估计量偏差的U-process和Donsker条件，特别是处理依赖于\(t\)的集成.
- Cross-fitting（K-fold）：拆分数据分别估计F和G，避免过度拟合导致的经验过程失控。引自Robins et al. (2008)（[1]）和Chernozhukov et al. (2018)。
- Martingale representation for left-truncated data：关键引理将EIC中的score写成鞅紧凑形式，便于后续和渐近正态性推导。
- 产品率条件的时间依赖推广：需要验证\(\sqrt{n} \int_0^\tau (\hat{F} - F)(\hat{G} - G) \, d\mu(t) = o_p(1)\)，通过Cauchy-Schwarz将两个范数分离；这是证明的跳跃点。

真实例子与应用¶

本文含两个真实数据集：

SEER-Medicare前列腺癌数据（与Hou et al., 2019共享）：研究前列腺根治术对生存的影响。这里右删失率高（80%），左截断来源于患者必须在研究起始前存活（即诊断到入组的时间不等）。本文用IPTW和DR两种估计量估计治疗组和对照组的限制平均生存时间（RMST），DR估计改善了模型依赖。
想说明：即使存在左截断，DR估计量在两个治疗组之间仍给出解释一致的差异，且对截断模型的选择更加稳健。
日本夏威夷男性饮酒与认知数据（引用Rava & Xu, 2021的同一数据）：竞争风险场景（痴呆 vs 死亡），左截断源于基线年龄限制。右删失模式不同（主要为死亡删失而非失访）。本文仅使用其心血管死亡作为事件。
想说明：DR估计量在高删失（~70%）和高左截断（~40%被截断）下仍稳定输出。

🔎 结论是否比证明窄¶

作者在Theorem 2中要求秩约束条件（Assumption 7）和适当的Donsker类假设，但在讨论中声称“可以放松至点态wise收敛”，该声称仅引用Bickel & Kwon (2001)的框架，未在本文内给出明确证明。
模拟中使用的模型均为参数化Cox和恒定风险模型，未展示半参数/非参数ML估计器下的表现，这说明理论上的非参数一致性尚未被数值验证。
作者未给出当\(m\)无界时（如多项式变换）的理论结果，而声明“常见有界函数”，但若实际应用中需估计方差，需放宽。

四、开放问题（点到为止）¶

EIC在高维协变量下的存在性与计算：本文假设协变量维数固定且各模型可估计至足够快速率。当\(p\)较大或与\(n\)可比时，交叉拟合的产品率条件是否可满足？这与researcher在high-dimensional statistics兴趣直接相关。具体扎根于Introduction中的“\(X\)可取任意维”但模型估计未明确讨论高维情况。
非光滑变换\(m\)：如\(m(T)=T^2\)（方差参数）或\(m(T)=I(T>t_0)\)（生存函数），本文声称要求\(m\)有界；对于无界情形，需检查影响函数是否存在有限二阶矩。扎实引用：Theorem 2的假设中有要求\(m\)有界。
quasi-independence的验证：本文假设依赖是由协变量诱导的，但若有一部分未观测的混杂造成残差依赖，识别失效。能否用e-value或causal sensitivity analysis处理？来自引言“the dependence … induced by measured covariates”隐含需可忽略性假设。
竞争风险与多状态模型：本文仅处理单一事件。若存在多个竞争事件，EIC和DR估计如何构造？作者在讨论中提到“future work is needed”。
非马尔可夫截断机制：当\(L\)与\(T\)的依赖超过给定\(X\)（如纵向过程），本文的识别失败。这连接researcher在longitudinal因果推断上的深入兴趣，但难度高。
计算复杂度与U-统计替代：左截断下DR估计量包含积分项，需多次求和；能否通过tensor contraction / einsum优化计算效率（researcher的专长）？这个具体扎根点未有直接证据，但值得探索。

注意：第5、6点是延伸思考，不一定是本文直接留下的缺口。在实际写时只列那些明确嵌入论文语句的缺口（1-4）。

Maintained by 陈星宇 · Homepage · Source on GitHub