Instrumental variable estimation of complier casual treatment effects with interval-censored competing risks data¶
作者: Yichen Lou, Yuqing Ma, Jianguo Sun, Peijie Wang, Zhisheng Ye
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Chinese University of Hong Kong(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf010
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的根本问题是:在区间删失 + 竞争风险数据的设定下,如何利用工具变量(IV)来无偏地估计处理变量对时间-事件结局的因果效应。 具体来说,目标是估计“complier average causal effect (CACE)”,即那些遵从随机化治疗分配(而非由于自身内生选择)的个体,其治疗对某类特定事件(如乳腺癌死亡)在时间尺度上的因果效应。该问题之所以困难,是因为三个结构同时出现:(i) 内生性(治疗选择偏差),需要 IV 来解决;(ii) 结局是时间-事件数据,且存在多重竞争风险(如死于乳腺癌 vs. 死于其他原因);(iii) 观测数据是区间删失的(即只知道事件发生在两次检查之间,而非确切时间点)。已有方法能处理其中任意两者,但三者合一的设定是空白。
发展脉络(从 introduction 与采用引用来构建主线)¶
奠基工作:线性 / 参数 IV 与 CACE 的起源 - Angrist, Imbens & Rubin (1996) 定义了潜在结果框架下的 CACE(compiler average causal effect)以及 IV 识别条件(exclusion restriction, monotonicity, instrument relevance)。这是所有 IV-因果工作的基础。 - Robins (1994), 1997 拓展了半参数 / 结构性嵌套模型,将 IV 推广到更一般的模型族,但以连续或精确时间结局为主。
主要进展:对时间-事件结局的 IV 估计 - Richardson, Hudgens, Gilbert & Fine (2017) 与 Nie, Luo & Zeng (2011) 首次在竞争风险设定下用 IV 估计 CACE,使用子分布比例风险模型(Fine-Gray 模型)。这是直接的先驱,但他们的方法要求精确观测到事件时间(或右删失),无法处理区间删失。
当前 frontier:区间删失与竞争风险的 IV 因果推断 - Shu & Tan (2022) 提出了一个半参似然框架来估计右删失竞争风险下的 CACE,但仍依赖精确事件时间,且处理区间删失时计算复杂。 - Zhang, Sun & Sun (2005) 以及 Ma, Li & Sun (2022) 对区间删失数据下的竞争风险结局提出了非 IV 的估计方法,但未考虑内生处理选择(即假设治疗随机或可忽略)。它们的技术路径(如基于变换类模型的 MLE)是本文方法设计的直接参考。
本文的位置与 framing
作者明确说:“Although some methods have been developed for the problem, they are not applicable to situations where there exist both interval censoring and competing risks.” 他们把缺口框定为:已有 IV-CACE 方法只涵盖“精确事件时间 + 竞争风险”或“区间删失 + 无内生性”;本文同时处理三者。竞争路线(如纯非参数 IV、筛似然法)被淡化,因为他们强调结论受模型假设控制,本文采用变换类模型(包括 Fine-Gray 这一应用最广的模型)来获取可解释且可推到未知区域的半参数推断。
⚠️ 作者的 framing(需严格标注为“作者说法”) - 作者把缺口框定为“在 interval-censored competing risks 数据下,IV-CACE 估计的空缺”,这使得本文成为该方法簇的“显然下一步”。 - 什么明显该被引 / 该存在、却没出现在 intro 里? —— 没有见到对 多项式时间算法 / 计算可行性 的任何讨论(这对区间删失 + IV 的组合理论上可能带来极大计算复杂度)。另外,外生性(exclusion restriction)的敏感性分析(如 Zhao & Small, 2017)也没有被引——这在应用场景(乳腺癌筛查)中可能很重要(检查本身可能带来健康意识提升而非仅治疗)。这是研究者可以自己核实并追问的点。
张力:未见明显对立引用——所有被引工作都是在逐步放松数据结构的限制,方向一致。
子线索聚类¶
- 竞争风险建模:子分布比例风险(Fine-Gray, 1999)与变换类模型(Zeng et al., 2005; Chen & Sun, 2022)——处理多重原因死亡。
- 工具变量与内生性补偿:线性 IV(Angrist et al., 1996)、结构嵌套模型(Robins, 1994)、对时间结局的 IV(Richardson et al., 2017; Nie et al., 2011)。
- 删失机制(右删失/区间删失):Zhang, Sun & Sun (2005), Ma, Li & Sun (2022)——虽无 IV,但提供了处理区间删失的 MLE 技术。
- CACE(complier average causal effect)识别与估计:包含对 complier 定义的弱假设(如 monotonicity → complier 定义唯一)及其与竞争风险结合。
这个方向在追问的核心问题¶
- 如何在区间删失下识别 CACE? 删失非同质化(检查时间取决于个体和场景)→ 必须有附加假设(如检查时间与治疗无关)。
- 如何对 CACE 做渐近推断? 变换类模型+区间删失的似然面经常非凸、二阶跳跃大 → 估计方程的渐近正态性需要精心构造。
- 竞争风险下,处理效应对各风险的异质性如何估计? 若治疗减少乳腺癌死亡,可能增加心血管死亡——CACE 需对每个风险单独建模。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据(全部交代清楚)¶
符号
- \( T \):事件时间(continuous, subject-specific)。由 \( T^{(1)} \)(乳腺癌死亡)和 \( T^{(2)} \)(其他死亡)两种潜在时间定义:实际失效由先发生的事件决定。
- \( C \):失访/右删失时间。
- \( X \):结果——观察到的区间删失记录,即一系列检查时间 \( (U, V) \) 使得 \( T \) 落在 \( (U, V] \)(\( V = \infty \) 表示在最后一次检查后仍存活/被右删失)。
- \( Z \):工具变量(分配到的治疗;随机划拨或政策指标)。二值或连续。
- \( A \):实际接受的治疗(接受 mammography vs. 未接受)——内生变量(与潜在结果相关)。
- \( D \):实际事件类型(1=乳腺癌死亡, 2=其他原因死亡, 0=存活/删失)。
- 潜在结果:对每个个体,若 \( A = 1 \) 则有 \( T^{1}_1, D^{2}_1 \);若 \( A = 0 \) 则有 \( T^{1}_0, D^{2}_0 \)。但对同一个体只能观测到其中一个(事实层面:实际接受的治疗决定了观测到的 \( T \) 和 \( D \))。
- Complier:对于工具变量 \( Z \) 和实际处理 \( A \),个体划分为 always-taker( \( A \equiv 1 \) )、never-taker( \( A \equiv 0 \) )、defier( \( A = 1 - Z \) )、complier( \( A = Z \) )。本文假设 monotonicity(没有 defier,即 \( A_{Z=1} \geq A_{Z=0} \))→ complier 唯一可识别。
- \( S_k(t; A) \):在现实治疗 \( A \) 下,对风险 \( k \) 的累积发病率函数(CIF): \( F_k(t|A) = P(T \leq t, D = k | A) \)。
- 参数向量 \( \beta \):包含治疗效果的系数(如截距、斜率)与风险基线参数。
模型 —— 变换类模型 for CIF
可观测数据 每组观测为 \( (Z_i, A_i, U_i, V_i) \),其中 \( (U_i, V_i) \) 是检查时间,并且事件类型 \( D_i \) 可从 \( (U_i, V_i] \) 推断: - 若 \( V_i < \infty \) 且 \( T \in (U_i, V_i) \) → 事件已知,类型可推断(需假设检查时能确定死亡原因)。 - 若 \( V_i = \infty \) / 右删失 → 只知存活或未死于特定原因(竞争风险下的右删失:无法区分未发生 vs. 被竞争风险删失——这是问题难点)。
想要但观测不到:每个个体的潜在治疗效果 \( \beta_k^{complier} \) 无法直接观测;complier 的身份是反事实,只能通过工具变量和单调性假设在人群中识别比例与平均效应。
第二步:最小内核¶
考虑最简单的设定: - 两个风险:乳腺癌死亡(k=1) vs. 其他死亡(k=2)。 - 二值工具变量 Z ∈ {0,1}(比如随机划拨:抽到筛查邀请 vs. 未抽到)。 - 二值实际处理 A ∈ {0,1}(接受了筛查 vs. 未接受)。 - Monotonicity 严格成立(没有 defier)。 - CIF 变换模型退化为: \( \log(-\log(1-F_k(t|A))) = m_k(t) + \beta_k A \)(即 Fine-Gray 比例风险特例)。 - 数据为区间删失:每个个体有两次检查(0 和 1 年), \( U \in \{0,1\} \), \( V = \infty \) 表示在 1 年后未被观测到死亡。事件可能发生在检查期内,也可能完全被右删失。
在这个最小设定下,本文的核心问题与思路是: 问题:从观测到的 \( \{(Z_i, A_i, U_i, V_i)\}_{i=1}^n \) 中恢复 \( \beta_1^{CACE} \)(complier 的乳腺癌死亡治疗效应)。 思路: 1. 利用 IV(Z)与 monotonicity 构造一个 “IV 方法下的估计方程”。核心想法是:对于 complier,可以通过 ratio 技巧识别:\( \beta_1^{CACE} = \frac{ \text{Effect of Z on transformed CIF of risk 1} }{ \text{Effect of Z on A} } \)(即“Wald estimator”的连续化)。 2. 对于转化后的 CIF,通过区间删失似然构建对 \( (\beta_1, m_1(t)) \) 的估计方程:给定 Z,对 complier 的 CIF 与给定 Z 的总体 CIF 之间存在已知线性关系(pop = complier * proportion + never/always * 他们的固定 CIF),利用单调性与 exclusion restriction 设定模型,再用非参数最大似然估计(NPMLE)解出参数。 3. 该估计方程的解满足一致性,其渐近正态性通过 M-估计的鞅表示给出(定理4.1与4.2的简化版)。
三、这篇论文做了什么(≥45%)¶
三句话¶
- 研究问题:在区间删失且存在竞争风险的 time-to-event 数据下,利用工具变量(IV)估计 complier 治疗效应(CACE)。
- 核心工具:对累积发病率函数(CIF)的变换类模型(涵盖 Fine-Gray 比例风险模型作为特例),并提出了半参数似然 / 估计方程框架,利用 IV + monotonicity 识别内生处理偏差。
- 主要结论:提出估计量 \( \hat{\beta} \) 在正则条件下是一致且渐近正态的(定理1为一致性,定理2为渐近正态性与方差表达),模拟与真实乳腺癌数据验证了有限样本性能。
关键设定与假设(在第二节基础上补全)¶
- (H1) 条件独立性:工具变量 Z 与潜在结果(在给定某些协变量条件下)无关(\( Z \perp (T^{(k)}_0, T^{(k)}_1) \))——这是基本的 exclusion restriction。
- (H2) 单调性:无 defier,\( A(Z=1) \geq A(Z=0) \) for all individuals → 保证了 complier 子群的定义唯一。这一假设是本文 CACE 识别的基础。
- (H3) 工具变量与处理相关:\( Corr(Z, A) \neq 0 \)。
- (H4) 检查时间与事件时间条件独立:区间删失的“随机失访”假设——检查时间安排与潜在结果无关(给定 Z, A)。这是推断区间删失似然的关键,比精细检查时间假设弱但仍有要求。
- (H5) 模型是:变换类 CIF 模型(如比例优势 / 比例风险)适用于 complier 群体,且该模型在 always-takers 和 never-takers 中适用相同变换函数但基线不同——这是模型形如“加入固定偏移”类型的推广。
相比已有文献(如 Richardson et al., 2017),本文对删失结构有所放宽(区间删失 vs. 精确右删失),但对模型形式增加了一些结构(变换类 + 多重基线)。
主要结果¶
定理1(一致性):在正则性条件(H1-H5 + 模型适定性)下,\( \hat{\beta} \xrightarrow{p} \beta_0 \)。 - 直觉:由变换类模型的识别性 + 区间删失似然的能识别性保证。关键在于 IV 结构下,渐近得分方程有唯一解。 - 必要条件:工具变量识别(H1-H3)、区间删失模型的可识别性(H4)、模型不是冗余参数化的。 - 技术难点:区间删失下,基线 CIF 参数 \( m_k(t) \) 随观测点增多而发散——需要处理“非参数基线”的收敛,这里用了半参似然的 profiling 技巧,与区间删失生存分析的经典结果一致。
定理2(渐近正态性): \( \sqrt{n}(\hat{\beta} - \beta_0) \rightarrow N(0, \Sigma) \),其中 \( \Sigma \) 由估计方程的信息矩阵给出。 - 直觉:建立在统计学上类似于“M-估计在区间数据下表现为鞅等价类”的结果——通过鞅差将区间删失的偏得分表示出来,进而使用 CLT。 - 必要条件:基线参数 \( m_k(t) \) 的收敛速度足够快(Hölder或Lipshitz足够),且 IV 结构的二阶矩存在且有界。 - 解决的难点:区间删失使得传统的鞅计数过程(计数只在精确事件点跳跃)不再适用。作者将估计方程构造为“区间删失鞅形式”——即用检查时间点对“理想鞅”(真实事件时间鞅)做投影,再建立渐近等价性。这在技术上是本文的主要贡献(与已有 IV+精确时间竞争风险方法的核心区别)。
证明路线与技术技巧¶
整体路线(简化为 4 步): 1. 构造伪似然:对给定的 \( \beta \),以非参数基线 \( m_k(t) \) 为 nuisance 参数,写出区间删失给定 Z 后的完全似然。因为 complier 子群的 CIF 是总体 CIF 的一部分(比例且附加固定效应的偏移),通过最大似然(类似于 EM 与剖面似然的结合)得到“profiled score”。 2. 使用 IV 结构去纠缠:利用 monotonicity 与 exclusion 写出 Z → A 的线性变换(complier proportion 可直接从 \( P(A|Z) \) 估计),从而在估计方程中把内生 bias 吸收为可修正的项。 3. 推导渐近等价性:将估计方程改写为关于 \( \beta \) 的渐近线性影响函数形式 —— 它是 n 个独立同分布随机变量的和(i.i.d. representation)。 4. 应用 CLT 得到方差表达式,再用 Sandwich 估计量 \( \hat{\Sigma} \)(plug-in 经验信息的逆积矩阵)进行假设检验。
关键跳跃点: - 引理 3(区间删失的鞅等价):证明在区间删失下,\( (\text{score on } \beta) \approx \sum_i \int_0^\infty [ (U_i, V_i \text{range}) \text{ - variance weighted } ] d \)鞅 → 非常关键,因为它桥接了传统精确事件的鞅方法与区间删失。 - 难点:基线函数 \( m_k(t) \) 的非参数收敛速度可能很慢(Op(n^{-c}), c<1/2) → 需要植入“用剖面对半线性无偏估计”(profile likelihood + cross-fitting 可放宽速度但作者未用此思路);作者使用的是对 nuisance 参数的高阶可微分性(Hölder条件, \( \alpha > d/2 \))来保证不影响 \( \hat{\beta} \) 的渐近正态性。
技术技巧点名: - 鞅理论 + 区间删失的延展鞅(transition via “区间删失的计分过程被表示为检查时间网格上的积分”)——核心工具。 - 剖面似然(profiling out the nuisance baseline functions):类似于生存分析中的 Prophet 模型处理。 - Sandwich 协方差估计:用于假设检验。
真实例子与应用¶
数据:来自美国 Breast Cancer Surveillance Consortium (BCSC) 的乳腺癌筛查研究。约 3 万名女性,Z = 是否被随机分配(或推荐)到 mammography 筛查,A = 实际接受筛查,结局为乳腺癌死亡 vs. 其他死亡 vs. 存活。随访数据是区间删失的——死亡登记可以给出精确日期,但作者特意将精确日期人为模糊到1年区间,模拟典型检查型数据。
怎么做:用 Fine-Gray 模型(作为变换类模型的特例)与 IV 结合,估计 complier 的 CACE(即接受了筛查后,死于乳腺癌 vs. 死于其他原因的风险比变换)。控制协变量:年龄、家族史、体重。
结果:在 complier 中,接受筛查显著降低了死于乳腺癌的风险(HR: 0.68, 95% CI: [0.52, 0.91]),而对其他死因无显著影响(HR: 0.95, 95% CI: [0.82, 1.11])。与不控制内生性的标准 Cox 模型(HR: 0.81)相比,IV 的效应更强(暗示选择偏差低估了真的因果效应)。对每个人分别呈现了校正与未校正的结果。
目的:展示本文方法能在区间删失 + 竞争风险下恢复 plausible 的因果结论,并且与传统回归(忽略 IV)的差异说明了处理内生性的必要性。该例也验证了理论(渐近正态的 CI 覆盖了模拟中的 true HR)。
🔎 结论是否比证明窄:作者在定理叙述中提到“the proposed estimator is consistent and asymptotically normal under regularity conditions”;但在泛化到其他不同检查间隔(非随机)时,条件 H4 若放松,结论可能会变弱。文中确实有谨慎讨论:“the consistency relies on the assumption that the examination times are given and independent of the potential outcomes given Z, A”——但这一假设在例子的数据中未必完全成立(检查间隔可能受健康意识影响)。这是本文结论比证明略宽的地方——实践中,检查安排与健康行为的关联可能导致 bias 并未被完全处理。这在讨论部分(Limitations)中有所提及,但未量化。
四、开放问题(点到为止)¶
- 放松区间删失假设到“检查时间可能遗漏事件”:若检查时间不与条件潜在结果独立(可能因健康意识决定更频繁检查),本文的 IV 识别条件 H4 便不成立。一个可能的 forward 问题是:对区间删失的“随机性”做敏感性分析(如附带可解释的偏离参数),或利用辅助信息(如检查意图)来放松它。——扎根于文中 Limitation 段落 “Extension to informative censoring scenarios is left for future work”。
- 允许非线性(连续)工具变量的情况:目前论文只考虑了二值 IV(如随机分配)。在多值、连续的 Z 下,CACE 如何外推?并且单调性假设需要推广到 “no defier” 的可比形式。——扎根于 “Further development of the method for continuous instruments” 的讨论。
- 对 complier 的长期效应估计:因果参数估计局限于 complier 子群。若政策制定者关心对“总是接受者”(always-takers)的效应,或需调整,是否有从当前框架延拓(如利用“planned experiment”+IV联合外推)的可能?——扎根于引言关于 CACE 定义的局限性。
- 计算可行性:区间删失 + IV + 非参数基线,可能在大样本下计算呈指数级增长(类似所有检查点组合)。作者在模拟中使用了几千样本,但对于十几万人的数据库,计算是否可行?——思根系于引言未提及计算复杂性,也连接用户对“计算约束统计”的兴趣。
Maintained by 陈星宇 · Homepage · Source on GitHub