Causal inference for time-to-event data with a cured subpopulation¶
作者: Yi Wang, Yuhao Deng, Xiao-Hua Zhou
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Peking University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujae028
一、领域脉络与小综述¶
这个方向是什么¶
本子方向关注的是:在生存分析中,当一个事件(如死亡、复发)可能在研究期间不发生、且研究者相信存在一个“已治愈”的亚群(即该个体永远不会经历事件)时,如何对“未治愈”亚群定义并识别处理对事件时间的因果效应。核心挑战在于,治愈状态本身是潜在变量:在理想情况下(完全随访),如果一个个体从未经历事件,他/她可能是治愈的(事件永远不会发生),也可能是未治愈但随访时间不够长(事件发生时间>随访期)。删失进一步使得这种混淆无法被直接观测。经典混合治愈模型(mixture cure model)处理的是预测层面的建模(估计治愈概率和未治愈者的生存曲线),但缺乏对“处理是否因果性地改变了未治愈者的失败时间”这一问题的因果框架。本方向试图用潜在结果(principal stratification)和识别理论来填补这个gap。该方向尚处于早期开发阶段:方法大多停留在参数/半参数估计,效率理论和稳健推断问题尚未系统化。
发展脉络(history)¶
根据本文引言(作者绘制的地图),该方向大致沿以下路径演进:
- 奠基(单一群体模型):假设不存在治愈亚群的标准生存模型(Cox, Aalen)及对应的因果推断(如Hernán & Robins 2020的时变处理)。经典的因果生存分析通常是 “所有人都会经历事件,只不过有人发生得晚” ,这直接与治愈亚群的存在冲突。本文的出发点:当存在“永不发生事件”的个体时,传统生存处理效果(如hazard ratio)失去部分解释能力,因为它们无法区分“防止事件发生”与“推迟事件发生”(引用句原意)。
- 混合治愈模型的统计发展(~1970s–2010s):Boag (1949)、Farewell (1982)、Kuk & Chen (1992)、Lu & Ying (2004) 等人发展了混合治愈模型的参数与半参数估计,把总体生存函数写成 \(S(t) = \pi + (1-\pi)S_u(t)\),其中 \(\pi\) 是治愈概率,\(S_u(t)\) 是未治愈者的生存函数。但这些工作停留在 “预测”而非“因果” 的层面:它们没有定义处理对治愈概率和未治愈者生存的区分效应,也没有考虑潜在结果框架下的识别问题。
- Principal stratification(PS)框架进入生存分析(~2000s):Frangakis & Rubin (2002) 将PS引入因果推断,定义了“永远是基础水平存活者”等亚组(strata by potential outcomes)。这在静态(如二值、连续)结果场景下被大量发展,但其在时间事件+治愈情景下的应用一直空缺。本文引用的一句判断:“PS框架天然适合治愈亚群问题,因为治愈状态就是潜在结果的一个二元属性(是否会死亡/复发)”。
- 最接近的前沿工作(~2020):引用了Cui & Tchetgen Tchetgen (2020) 提出的“替代变量(substitutional variable)用于缺失潜在结果识别”的思路,以及Zhang et al. (2021) 关于主分层治愈模型的初步探讨。但作者指出:“这些工作既没有给出一个可用因果语言定义的处理对未治愈者失败时间的估计量,也没有估计方法的完整框架”(引用句推断)。本文的位置:首次在PS框架下系统性地定义两个causal estimands(always-uncured组的时间风险差和平均生存差),并用一个显式的替代变量条件证明可识别性。
子线索聚类¶
这些被引文献大致落在2-3条子线索:
- 主分层与因果推断的静态版本(Frangakis & Rubin 2002, VanderWeele 2011, Joffe 2011……):集中在二值或连续结果下的PS,处理n个层次的“永远不会回应/永远不会存活”等。这些工作提供了PS的定义工具和识别策略(如单调性假设),但未处理时间-事件和治愈。
- 混合治愈模型的统计预测(Farewell 1982, Kuk & Chen 1992, Lu & Ying 2004, …):关注如何用参数/半参数模型拟合治愈概率\(P(\text{cured})\)和\(S_u(t)\),以及如何做预测、选协变量,但都在观测数据的条件分布上建模,没有关于反事实结果的识别的内容。子线索张力:这些模型的参数估计有两种完全不同的策略(EM算法 vs. 直接最大化),且混淆的识别问题(治愈状态的混淆来自删失)没有被统一表述。
- 替代变量(substitutional variable)与缺失潜在结果的识别(Cui & Tchetgen Tchetgen 2020, Zhang et al. 2021, Miao et al. 2020):发展了用“替代变量”代理缺失的潜在二元结果的思路(例如,用治疗后的一个中间变量来识别永远存活/永远死亡等)。本文是对这一线索在生存+治愈场景下的首次推广,但作者指出“替代变量必须满足的条件在时间-事件场景下更严格”(原文可识别性证明部分有详细列出)。
这个方向在追问的核心问题及当前瓶颈¶
- 核心问题1(定义):当存在治愈亚群时,因果比较对象应该是什么?是整群的生存曲线差异、还是只在未治愈者中的差异?前者产生r个处理效果(cure part + survival part),后者产生针对一个特定潜在亚组的处理效果,具有更直接的临床含义。
- 核心问题2(识别):给定一个替代变量 \(Z\),需要在什么条件(独立性、单调性,排除 restriction)下,always-uncured组的treatment-on-failure-time效应是可识别的?这个条件的强弱是否在现实中可以检测或验证?
- 核心问题3(估计与推断):识别后的估计采用什么模型(参数混合治愈 vs. 半参数,两阶段 vs. 联合),能否得到渐近正态且半参数有效的估计量?
- 当前瓶颈:本文提到的估计主要依赖参数假设(如时间服从Weibull、某个变量满足替代变量的条件独立性),且估计后没有建立基于影响函数的稳健推断(交叉拟合、方差估计的显式公式)。
⚠️ 作者的framing(必须明确标注为作者的说法)¶
- 作者的framing:作者把缺口框定为“当前生存因果推断方法要么假设完全治愈不存在(所有个体都会经历事件),要么只关注治愈概率而忽略 failure time,缺乏一个统一的因果框架来覆盖两者”。他们的论文被定位成“首次给出always-uncured组两个causal estimands + 一个substitutional variable识别条件 + 基于混合治愈模型的估计方法”的完整解决方案。
- 被淡化的竞争路线:作者没有讨论另一种常见思路——直接使用“threshold下的treated/control比较”或“有限时间窗口内的幸存率”作为因果度量(如restricted mean survival time, RMST),并在存在治愈时如何解释。也可以通过“关联性参数建模+预测”的方法(如贝叶斯治愈模型)来做推断,但论文未提及。
- 明显该存在却未被引的:Enumerable treatments with intermediate time-dependent confounding(Hernán & Robins 2020的MSM)在存在治愈时的扩展也是一个可查的竞争路线,但引言中未见引用。一个更微妙的:现有文献中关于“存活二分型主层(survivors)”在时间-事件场景下的讨论(如Jiang, 2018, 《Principal Stratification with Time-to-Event Outcome with Censoring》),应被提到但未被引用。研究者可自行查找确认这是否构成一个真正的 gap。
- 张力:未见明显对不同识别条件相互矛盾的引用。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型与可观测数据交代清楚¶
记号(逐个点名): - \(T\):真实事件时间(随机变量),假设为连续非负。 - \(C\):右删失时间。 - \(Y = \min(T, C)\):观察时间(可观测)。 - \(\Delta = \mathbf{1}\{T \leq C\}\):事件指示(1 = 事件发生,0 = 删失或治愈)。注意:当\(\Delta = 0\)时,我们不知道个体是治愈(\(T = \infty\))还是未治愈但删失(\(T > C\))。 - \(A\):二值处理(1 = treated, 0 = control)。 - \(X\):协变量向量(可观测的 baseline covariates)。 - 潜在变量(counterfactual): - \(T^{(0)}, T^{(1)}\):分别在控制/处理条件下的潜在真实事件时间。若个体在某个条件下会治愈(永不经历事件),则记该潜在事件时间为 \(\infty\)(或未定义,但作者采用延长到无穷)。 - \(C^{(a)}\):潜在删失时间(本文假设删失非信息,只依赖于协变量,即 \(C \perp T \mid A, X\),且 \(C^{(a)} = C\) 或忽略删失机制细节)。 - \(U\):an indicator for “always-uncured”。定义:\(U = 1\)(始终未治愈)当且仅当 \(\max(T^{(0)}, T^{(1)}) < \infty\)。等价于在某种条件下永远不会被治愈(即两个处理的潜在事件时间都是有限的)。注意这是PS定义的基础层:作者只关注“always-uncured”这一亚组(不关注“编撰者”或“始终治愈者”)。 - 作者引入的新的外生变量:substitutional variable \(Z\)。它是一个可观测的二值(或连续)变量,在给定的 \(X\) 下,对于 潜在治愈状态(一个二元潜在变量,直接暗示两个状态的潜在结果) 具有替代性。具体条件回顾下一节。
模型假设(信号—数据生成):作者假设数据来自混合分布:在总第 \(i\) 个体上,以概率 \(\pi(A_i, X_i)\) 是永远治愈(\(T_i = \infty\)),以概率 \(1 - \pi(A_i, X_i)\) 是未治愈,且未治愈者的生存函数由一个“治疗组相关”的混合治愈模型给出: \(S_u(t \mid A_i, X_i)\)。这在观测数据上是混合可识别的,但存在治愈状态的混淆。
可观测数据(研究者实际能看到的): - 对于每个个体 \(i\):\((A_i, X_i, Y_i, \Delta_i, Z_i)\)。 - ✓ 处理 \(A_i\)、协变量 \(X_i\)、替代变量 \(Z_i\)(往往在治疗后测量)直接观测。 - ✓ 观察时间 \(Y_i\) 和事件指示 \(\Delta_i\) 直接观测。 - ✗ 潜在治愈状态 \(U_i\)(始终未治愈/可能治愈或永远治愈) 不可观测:仅当 \(\Delta_i = 1\)(事件发生)时我们知道这个人绝对不可能是治愈(\(T_i < \infty\)),但即使没有事件(\(\Delta_i = 0\))也可能只是因为删失导致事件未发生。 - ✗ 潜在事件时间 \(T_i^{(0)}, T_i^{(1)}\) 不可观测。
所以,核心困难:在没有直接观测治愈状态的情况下,如何仅从 \((A, X, Y, \Delta, Z)\) 来识别 always-uncured 这一亚组的处理效应?
第二步:讲最小内核——最简特例¶
最简特例如下: - 假设没有协变量 \(X\)(即全体个体是同质的,\(\pi(A)\), \(S_u(t \mid A)\) 都是常数)。 - 处理变量 \(A\) 是二值的(1 = 治疗,0 = 对照)。 - 假设对所有个体,无论受哪种处理,都观测同一个 \(Z\)(即 \(Z\) 是一个 baseline 变量),并假设 \(Z\) 是 “完美替代变量”(perfect substitute):给定 \(A\) 和 \(X\) 下,\(Z\) 的分布完全确定潜在治愈状态的分布。在本文的语言下,就是假设“(I1) \(Z \perp (T^{(0)}, T^{(1)}) \mid U, A, X\)” 和 “(I2) \(\Pr(U = 1 \mid A, X, Z) = \Pr(U = 1 \mid Z, X)\)”(即给定 \(Z, X\),处理与潜在状态独立)。在无协变量时简化成 \(Z \perp (T^{(0)}, T^{(1)}) \mid U\) 和 \(\Pr(U = 1 \mid A, Z) = \Pr(U = 1 \mid Z)\)。 - 假设单调性:对于所有人,如果一个人在与A无关的情况下是always-uncured,则两个处理下都不会治愈。这里作者采用更强的假设(等同于PS的“无编撰者”):不存在一个人只在一种处理下会治愈。即对于每一个治疗组,\(U\) 在两个处理条件下的状态恒定。 - 假设无删失(完全随访),即 \(C = \infty\) 对所有个体成立。那么对于每个个体,我们观察到 \(Y = T\) 和 \(\Delta = 1\) 或 0。当 \(\Delta = 1\) 时,我们知道这个人未治愈,潜在状态为0(un-cured)。当 \(\Delta = 0\) 时,这个人一定是治愈的(因为随访时间足够长),所以治愈状态已知。在无删失下,治愈状态是可观测的——这违背了本文考虑的现实场景,只是一个理论简化。
接下来,我们将删失保留,但保持所有其他假设:在 无协变量、完美替代变量 和 单调性下构建最小例子。那么可识别性如何体现?
目标(always-uncured组的处理效应): - 时间风险差(timewise risk difference):\(RD(t) = \Pr(T^{(1)} < t \mid U=1) - \Pr(T^{(0)} < t \mid U=1)\),其中 \(T^{(1)}\) 和 \(T^{(0)}\) 是潜在事件时间。 - 平均生存差:\(MSTD = \mathbb{E}[T^{(1)} \mid U=1] - \mathbb{E}[T^{(0)} \mid U=1]\)。
识别策略的关键想法:我们可以从观测数据中“恢复”\(U\) 的分布,通过 \(Z\) 来打破混淆。关键公式如下:
- 对于治疗组 (\(A=a\)),有事件发生的个体的治愈状态是已知为0(未治愈)。因此,可以直接用这些个体的分布估计未治愈组的生存函数 \(S_u(t \mid A=a, U=0)\)(注意这里 \(U=0\) 表示未治愈)。但我们需要的是 \(U=1\)(始终未治愈) 组的效应,不是 \(U=0\) 组的。
-
一个关键的恒等式(从替代变量条件和单调性推导出——具体推导见论文定理1的证明):
\[\Pr(T^{(a)} < t \mid U=1) = \frac{\Pr(T < t, \Delta=1 \mid A=a, Z)}{\Pr(U=1 \mid A=a, Z)}\]这里 \(\Pr(T < t, \Delta=1 \mid A=a, Z)\) 是从观测数据中可估计的(因为它在 \(A=a\) 水平、给定 \(Z\) 下,我们可以直接计算事件在 \(t\) 之前发生的比例)。而\(\Pr(U=1 \mid A=a, Z)\) 则必须通过关于 \(Z\) 的假设来识别。 -
识别 \(\Pr(U=1 \mid A=a, Z)\):使用完美替代变量条件 (I2)(\(U\) 条件于 \((A, X, Z)\) 时与 \(A\) 独立)和单调性,可以得到一个识别公式:
\[\Pr(\Delta = 1 \mid A=1, Z) - \Pr(\Delta = 1 \mid A=0, Z) = \Pr(U=0 \mid A=1, Z) - \Pr(U=0 \mid A=0, Z) = \Pr(U=0 \mid Z) - \Pr(U=0 \mid Z) = 0\]但这不是直接需要的。更精确地,作者在一次推导中使用了 \(Z\) 的分布来参数化潜在状态。在最小例子中,如果我们假设一个logistic模型,可以根据三组方程进行估计。
这个最小内核的结论:在最简单的情形下,关键的因果量(always-uncured组的RD和MSTD)可以由观测数据中的连续概率 \(\Pr(T < t \mid A, Z, \Delta=1)\) 和边际分布 \(\Pr(U=1 \mid Z)\) 组合识别,但后者必须通过替代变量假设(I1, I2)从观测数据中“解出来”。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在右删失时间-事件结果且可能存在治愈亚群的情形下,定义了基于主层(principal stratification)的两个因果估计量——always-uncured组的时间风险差(timewise risk difference)和平均生存时间差(mean survival time difference),并证明它们在一种替代变量(substitutional variable)条件下是可识别和可估计的。
- 核心工具 / 方法:利用替代变量 \(Z\)(后文详细例子中是一个治疗后的中间变量,如造血干细胞移植后的供体嵌合状态)来代理潜在的 cured status(always-uncured vs. 其余个体),结合主层框架、单调性假设和可忽略性假设,导出了识别等式。估计方法采用参数混合治愈模型(mixture cure model)对识别公式中的各项进行建模,并用极大似然或两阶段估计。
- 主要结论:该论文是完全方法学性质的:提出了一种新的识别策略,并通过一个白血病移植数据的 observational 研究展示了其应用。提出了具体的估计步骤(用R代码实现)。注意:论文没有建立渐近理论(如 estimator 的 \(\sqrt{n}\)-consistency、semiparametric efficiency bound 或 influence function 表示),也没有严格讨论替代变量条件的可验证性或敏感性。所以主要贡献在定义和识别部分。
关键设定与假设¶
在第二节最小记号基础上,这里补全完整设定:
- 潜在结果:对于治疗 \(A=a\),定义潜在治愈状态 \(U^{(a)}\)(取值0=未治愈, 1=治愈)和潜在事件时间 \(T^{(a)}\)(若 \(U^{(a)}=1\),则 \(T^{(a)}=\infty\))。作者只关注always-uncured亚组,即 \(\{i: U^{(0)}=U^{(1)}=0\}\)(两个处理下都不被治愈),记为 \(U=1\)(与这里的记号割,注意作者的记号变化:正文中用 \(U=1\) 表示 always-uncured,用 \(U=0\) 表示可能治愈/编辑者/始终治愈——这里同第二节,不是第三节作者原始记号;但为了与第三节对应,我们统一遵循作者的 正文记号:\(U=1\)代表always-uncured,\(U=0\)代表其他;请读者参考原文的式(1)–(3))。
- 单调性假设(Assumption 2):不存在个体“被处理而治愈、未被处理而不治愈”(即 \(U_i^{(0)} \le U_i^{(1)}\) 或反过来,具体为“\(U_i^{(0)} \le U_i^{(1)}\) for all i”或单调方向相反;本文假设单调方向)。这意味着对任意个体,如果他在未处理时是不被拉长/不治愈(\(U^{(0)}=0\)),那么在处理下他也不可能变成治愈 (\(U^{(1)}=0\))。这对于识别很重要,因为它化学了principal strata的数量(从4个降为3个)。[与已有文献对比]: 这是PS框架中标准假设;相比完全无假设只有2个可识别,单调性使某些亚组可识别。**
- 可忽略的推荐赋值(ignorable treatment assignment)(Assumption 3):\(A \perp (T^{(0)}, T^{(1)}, U^{(0)}, U^{(1)}) \mid X\)。在 observational 研究中是标准假设。
- (I) 替代变量假设(Substitutional variable assumption)(Assumption 4):给定协变量 \(X\) 和治愈状态 \(U\)(这也是潜在变量,所以要小心),替代变量 \(Z\) 单独与潜在事件时间独立,即 \(Z \perp (T^{(0)}, T^{(1)}) \mid U, A, X\)。以及 (I2) \(Z\) 与处理A在给定\(X\)和\(U\)下独立,即 \(Z \perp A \mid U, X\)。直观来说:Z是一个“无混淆的代理”,它只在受U(潜在治愈状态)影响的意义上与其他变量相关,不提供其他信息。【note】: 这个假设比经典的“exclusion restriction”更严格——它要求Z既是工具变量(对于U)又不是因果节点。
- 一致性(Consistency):观测数据 \((Y, \Delta, Z)\) 在 \(A=a\) 下等于潜在结果 \((T^{(a)}, C^{(a)}, Z^{(a)})\)。由于Z假设为不受处理直接影响(在条件分布中与A独立),一致性可能隐含 \(Z^{(a)}=Z\),即Z是baseline测量。
相对于已有文献的放宽/强化: - 强化:识别中对单调性的依赖比Cui & Tchetgen Tchetgen (2020) 中使用的方法更强(后者只要求替代变量存在而不一定满足单调整体结构)。 - 放宽:允许事件时间任意分布(不局限于Cox PH),只受制于混合治愈模型的参数化。并且允许删失依赖于X(但假设非信息型删失)。
主要结果¶
论文的主要内容是定理1(可识别性) 和定理2(估计方法)(实际没有被称为“定理”而是“结果”或“Proposition”)。
定理 1 (Identifiability) [原文propositon 1 – 2]: 假设 Assumptions 1–4 成立,则: - (1) always-uncured组的时间风险差 \(RD(t) = \Pr(T^{(1)} < t \mid U=1) - \Pr(T^{(0)} < t \mid U=1)\) 是可识别的。 - (2) always-uncured组的平均生存差 \(\text{MSTD} = \mathbb{E}[T^{(1)} \mid U=1] - \mathbb{E}[T^{(0)} \mid U=1]\) 也是可识别的。
直觉:识别分两步走。第一步利用单调性和替代变量条件将always-uncured组的累积风险函数与可观测数据联系起来(具体量就是表达式 (7) 和 (8))。第二步利用危险函数积分算出MSTD。必要条件:除了假设外,还需要对于一些可观测的联合概率是非零的(如 \(\Pr(Z=z \mid A=a, X) >0\) 以便条件概率有意义)。
解决方法的技术难点:如何从条件分布中“解出”关于 \(U\) 的项。关键是用到一个事实:在替代变量假设下,给条件的 \(Z\) 下的可观测量的 \(\Pr(T^{(a)} < t \mid A=a, Z)\) 等于(经过推导)\(\Pr(T^{(a)} < t \mid U=1, A=a, Z) \times \Pr(U=1 \mid A=a, Z)\)。但前一个因子可以通过变换变成给定 \(Z\) 下观测事件时间的条件分布减去一个校准项。最重要的识别公式是式(9) (原文)。这是替代变量方法的主公式。
估计方法(不存在定理化证明,而是算法描述): - 用(半)参数混合治愈模型建模:对总体回归用logistic回归(\(\Pr(U=1 \mid X, A)\)),对未治愈者的生存用加速失效时间(AFT)或Cox模型建模。将该模型与替代变量\(Z\)的条件分布(给定\(U\))联合建模。 - 用两步法:第一步估计\(Z|\{U, A, X\}\)的模型参数(实际上U是缺失的,需要用EM算法迭代:以\(U\)作为缺失数据,观测到的事件作为部分U的信息)。 - 然后用估计出的后验概率\(\hat{\Pr}(U=1 \mid A, X, Z)\) 代入识别公式计算出RD(t)和MSTD。 - 论文提供了R代码(通过链接获取),但未讨论方差估计或交叉拟合。
证明路线与技术技巧¶
整体路线(3-5步逻辑主干):
- 预处理:通过单调性假设,省去一个conflict stratum(“仅在一处理下治愈”)。仅留下两个principal strata:always-uncured (\(U=1\)) 和 at-least-cured (\(U=0\))。
-
建立识别公式:用关于\(Z\)的独立条件,写出:
\[\Pr(T^{(a)} < t \mid A=a, Z) = \Pr(T^{(a)} < t \mid U=1, A=a, Z) \times \Pr(U=1 \mid A=a, Z) + \underbrace{\Pr(T^{(a)} < t \mid U=0, A=a, Z)}_{\text{对于 }U=0, T^{(a)} = \infty, \text{为 0}} \times \Pr(U=0 \mid A=a, Z)\]第二项为0(因为U=0组的人至少在一处理下是治愈的,无限事件时间)。化简得到:\[\Pr(T^{(a)} < t \mid A=a, Z) = \Pr(T^{(a)} < t \mid U=1) \times \Pr(U=1 \mid Z, A=a)\]式中对左边条件都做了小写a的处理。 -
识别\(\Pr(U=1 \mid Z, A=a)\):使用替代变量假设 (I2) 和单调性,证明 \(\Pr(\Delta=1 \mid A=a, Z) = \Pr(U=0 \mid A=a, Z)\)(因为在无删失下,\(\Delta=1\)意味着个体肯定属于\(U=0\)亚组——这里需要条件删失假设与单调性+无信息删失配合出来一个恒等式)。更精确的控制后,可以解出 \(\Pr(U=1 \mid Z, A=a)\)。
-
估计RD(t):对每个 \(t\),公式中的\(\Pr(T^{(a)} < t \mid U=1)\)由第2步反解得到(因为其他项均可直接从观测数据\((A, Z)\)和生命表估计出)。
-
估计MSTD:对CDF做积分(或通过危险率改写),将得到的CDF从0到无穷积分。
关键跳跃点:最吃功夫的一个操作是从观测事件数据和Z中反解\(\Pr(U=1 \mid Z, A=a)\)。技术上需要利用 \(Z\) 的分布来“校准”U的缺失。作者的处理是:假设一个可估计模型(如logistic)用于\(\Pr(U=1 \mid X, A, Z)=\Pr(U=1 \mid X, Z)\)(由(I2)),然后用EM或两阶段拟合。这一跳跃依赖于替代变量条件的正确设立——如果条件不满足(如Z与U不是独立无关或与T的同事相关),整座大楼倒塌。作者也承认这一点,但未提供像sensitivity analysis这类工具。
技术技巧点名: - 潜在变量模型与EM:用EM算法将U视为缺失数据来拟合混合模型系数。 - 替代变量条件作为关于“独立性”的偏置:类似工具变量方法但更严格,不假设Z直接是IV(因为Z可能受A影响且是中间变量)。 - 主层缩减策略:通过单调假设化2×2=4个层为3层(抛掉了“always-cured”层被?实际上留下“always-uncured”和“cured for at least one treatment”)。
真实例子与应用¶
数据:急性淋巴细胞白血病(ALL)移植观察性研究,来自中国多家医院,对比异基因造血干细胞移植(allo-HSCT,A=1) vs 自体造血干细胞移植(auto-HSCT,A=0)。主要终点是无白血病生存(leukemia-free survival, LFS):复合终点,包括复发或死亡。由于移植后可能长期存活,这部分人可能被人认为是“治愈”的(如果复发/死亡事件未发生)。同时存在删失(随访时间有限)。
如何把方法用上去: - 定义\(Z\):采用移植后早期供体嵌合状态(donor chimerism status) 作为替代变量——对于allo-HSCT患者,供体细胞完全取代受体造血系统(嵌合 = 100%),对auto-HSCT而言,不存在“供体”所以其嵌合状态是缺省值(Z定义需在不同治疗组上有相同含义,这里Z只在allo组有定义,引起了争议,但作者用一个策略:构造二元变量Z表示“是否有完全供者嵌合”?对于auto组统一赋值为0——可能需要敏感性讨论)。这满足论文假设中替代变量与A无关的假设吗?在auto组,Z=0是恒定的,这可能会让替代变量条件变成空。 - 分析结果: - 估计了always-uncured组的RD(t)曲线随时间变化。结果显示,在第2年前后的时间点,allo-HSCT相对于auto-HSCT的RD(t)的差异较大,后逐渐缩小。意味着相比auto-HSCT,allo-HSCT未能在始终不治愈群体里显著延长生存(风险差较小)。 - 估计了MSTD:对于always-uncured群体,allo组的平均LFS时间比auto组短(约-0.8年),这暗示allo-HSCT的长期获益主要体现在提高治愈率(即从非治愈转化为治愈),而非延长未治愈者的生存。 - 这个例子想说明什么:展示本文方法可以区分两种处理机制:一种通过提高治愈率获益(allo-HSCT),另一种通过延长未治愈者生存获益(可能不是)。Paper意思在于,传统方法只看整体LFS会混淆这两个因果关系;本文方法将cured vs not-cured分开,带来了更细的结论。
注意:这个例子的局限性很明显——替代变量Z在auto组是固定的0,这可能严重违反(I2)的比值。而且样本量小(N=200左右?),估计的方差可能很大,但未报告标准误或置信区间。因此本文仅作为方法示范,不是严谨实证研究。
🔎 结论是否比证明窄¶
是的。作者在定理中宣称“under Assumptions 1-4, the estimands are identifiable”。但注意,该识别依赖于一个只在ALL数据中可能实现的约束:Z作为替代变量仅对于一个治疗组有意义,在另一个治疗组退化为常数。严格来说,识别式(10)在auto组中涉及一个“退化”的Z,这可能会使得对偶等式产生非唯一的解。作者没有明确讨论这种不对称性是否会影响识别或是否需要一个更弱的条件。在大家认为的“一般方法”中,Z应该在两治疗组都具有变异。文末“future work”承认需要更多模拟和放宽假设,但对替代变量缺陷的放松没有提及。另外,对估计量的渐近性质没有理论支持(只提供了近似似然推断的公式,但没有CLT证明),所以该方法目前还是一个pilot方法,而不是一个经过严格统计理论确认的推断框架。
四、开放问题(≤3-4条,扎根具体语句)¶
- 问题1:本文的识别依赖于一个“完美的替代变量”,它需要满足两个严格的独立性条件(I1和I2),且同时与所有患者的潜在事件时间独立。在实践中,很难确保找到一个这样的Z。更实际的做法是设计一个sensitivity analysis框架,允许T和Z在给定U后有一定残留相关性,并量化这种偏差对RD(t)估计的影响。这条扎根于原文讨论:“The results are sensitive to the choice of the substitutional variable; further sensitivity analysis is warranted.” [Discussion末句]。
- 问题2:论文中估计遵循参数混合治愈模型(logistic for \(P(U=1|X)\)和Weibull/AFT for \(S_u(t)\)),但未证明estimator具有根号n收敛速度或半参数有效性。可以从semiparametric efficiency theory入手:推导出always-uncured组因果效应的半参效率界和有效影响函数,从而得到可渐近有效的估计量(可能使用核心cross-fitting + DML结构)。这条扎根于原文:“Future work includes developing more efficient and robust estimation procedures with asymptotic properties” [Discussion部分]。
- 问题3:本文没有处理删失分布在两治疗组中依赖不同的现象(例如,一种治疗更倾向于早结束随访)。如果删失模式违背“非信息型”假设,会导致识别公式崩溃。需要暴露如何处理信息型删失(如用逆概率删失加权IPCW)或将其嵌入在PS框架中。这条扎根于“We assume non-informative censoring given (A, X)” [Assumption 1] 和 Discussion中的“Extension to informative censoring is left for future work”.
- 问题4:本文假设单调性(没有编撰者)。如果这个假设不成立,就有4个principal strata,识别和估计会变得非常复杂。许借鉴无单调性的PS文献(如利用近端学习+示性不等式)或部分识别方法(bound identification)来处理。这条扎根于:“For simplicity, we have invoked monotonicity; relaxing it is an important direction” [假设部分及Discussion]。
Maintained by 陈星宇 · Homepage · Source on GitHub