跳转至

Mediation Analysis of Failure Time Data Under Interval Censoring

作者: Yanpeng Shi, Shuwei Li
来源: Statistics in Medicine
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1002/sim.70583


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在生存数据(尤其是区间删失数据)下,如何识别与估计暴露对生存结局的直接效应与间接(中介)效应。当前该方向的成熟度处于"方法框架已建立、但针对复杂删失与多中介的半参数有效估计仍不完善"的阶段——反事实框架与顺序可忽略性假设已被广泛接受,但将它们与区间删失的似然结构结合、并给出具有渐近保证的估计量,仍是正在填补的缺口。

发展脉络(history): - 奠基工作:反事实中介分析框架由 Robins & Greenland (1992) 开创,将总效应分解为通过特定中介路径的效应(PSE);Pearl (2001) 进一步用 do-算子给出了因果图下的路径特定效应公式。这两篇留下了"如何将 PSE 从反事实期望转化为可观测量的函数(即识别问题)"的口子。 - 主要进展(生存中介):VanderWeele (2011) 将中介分析扩展到生存数据,给出了基于风险比的 PSE 定义;Lange et al. (2012) 与 Tchetgen Tchetgen (2012) 分别在参数与半参数设定下处理了生存中介的估计。这些工作留下了"对删失数据(尤其是区间删失)的似然结构未做处理"的口子。 - 主要进展(区间删失估计):在纯生存分析(无中介)一侧,区间删失的半参数估计已有成熟工具:Wellner & Zhan (1997) 建立了筛极大似然(sieve MLE)的渐近理论;Huang & Wellner (1997) 给出了比例风险模型下区间删失的渐近性质。这些工作留下了"筛方法能否嵌入因果中介的复杂似然(含多中介的联合分布与条件风险)"的口子。 - 当前 frontier 与本文位置:近期,Gao et al. (2022) 与 Chen et al. (2023) 开始处理右删失下的生存中介,但均假设右删失且依赖风险比定义 PSE。本文(Shi & Li 2024)的位置是:将区间删失引入生存中介,并用生存概率与限制平均生存时间(RMST)替代风险比来定义 PSE,采用筛 MLE 进行估计

子线索聚类: 1. 反事实中介与路径特定效应(PSE)的识别理论:从 Robins & Greenland (1992) 到 Pearl (2001),核心在"如何用可观测分布写出反事实 PSE"。本文沿此线索,在顺序可忽略性下给出了区间删失设定下 PSE 的识别公式。 2. 生存数据下的中介效应定义:VanderWeele (2011)、Lange et al. (2012)、Tchetgen Tchetgen (2012) 主要用风险比定义 PSE。本文另起一簇:用生存概率与 RMST 定义 PSE,理由是风险比依赖"罕见结局"假设(rare outcome assumption),而 RMST 不需要。 3. 区间删失的半参数估计方法:Wellner & Zhan (1997) 的筛 MLE 理论。本文将此估计工具搬入中介分析的似然结构,同时估计中介模型与风险模型的全部参数。

这个方向在追问的核心问题: 1. 识别问题:在顺序可忽略性与区间删失下,PSE 能否被可观测分布唯一写出?(本文回答:能,且给出了基于生存概率与 RMST 的两种识别公式。) 2. 定义问题:生存中介的 PSE 应基于风险比、生存概率还是 RMST?当前主流用风险比,瓶颈是罕见结局假设;本文提出用 RMST 绕过此瓶颈。 3. 估计问题:区间删失下,中介与风险的联合似然复杂(含多中介的联合模型),如何构造有渐近保证的估计量?当前瓶颈是右删失方法不能直接用于区间删失;本文用筛 MLE 填补。

⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成"区间删失下的生存中介分析尚无方法,且现有风险比定义依赖罕见结局假设",好让本文的"区间删失 + RMST 定义 + 篮 MLE"成为显然的下一步。 - 被淡化或回避的竞争路线:半参数有效估计(如 One-step / TMLE / DML)。本文用筛 MLE(参数+样条),本质是半参数模型下的 MLE,但未讨论其是否达到半参数效率界,也未与基于影响函数的估计方法做理论或模拟对比。另一被回避的路线是工具变量(IV)中介分析——当顺序可忽略性不成立时,本文方法失效,但作者未提及 IV 或 proximal causal inference 作为替代。 - 明显该被引 / 该存在却未出现的:半参数效率理论的核心文献(如 Bickel et al. 1993 的半参数效率界、van der Laan & Robins 2003 的 TMLE、或近期 DML 中介分析如 Tchetgen Tchetgen 的系列工作)未在 intro 出现。这值得研究者去查:是因筛 MLE 在此设定下已自动有效,还是作者未触及效率问题?

张力: 未见明显对立引用。各被引工作在不同设定(右删失 vs 区间删失、风险比 vs RMST)下给出不同结论,但彼此不矛盾——只是覆盖范围不同。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • \(A\):暴露(处理),本文实证中为 APOE-4 等位基因(二值:携带 vs 不携带)。
  • \(M\):中介变量向量,本文实证中为脑区体积(连续)与认知评分(连续),可有多维。
  • \(T\):感兴趣的生存时间(failure time),本文为阿尔茨海默症发病时间。
  • \(L\):基线协变量(如年龄、性别),用于调整混杂。
  • \(C\):删失时间(右删失时间),但本文核心是区间删失,所以观测的不是 \(C\) 本身,而是检查时间点。
  • \((U_L, U_M, U_T)\):潜在(反事实)变量。\(U_L(a)\) 为在暴露 \(A=a\) 下基线协变量的反事实值(本文假设 \(L\) 不受 \(A\) 影响,故 \(U_L=L\));\(U_M(a)\) 为在 \(A=a\) 下中介的反事实值;\(U_T(a, m)\) 为在 \(A=a\) 且中介设为 \(M=m\) 下生存时间的反事实值。
  • 可观测数据:对每个个体 \(i\),观测到 \((L_i, A_i, M_i)\),以及区间删失的生存信息——个体在检查时间点 \(K_{i1} < K_{i2} < \cdots\) 被检查,观测到的是"事件发生在哪个检查区间",即 \((K_{i,j-1}, K_{i,j})\) 内,或"到最后检查仍未发生事件"。没有观测到精确的 \(T_i\)。这是区间删失的核心:\(T_i\) 被部分观测。
  • 不可观测、靠假设识别的量:反事实生存时间 \(U_T(a, m)\) 与反事实中介 \(U_M(a)\)——它们通过顺序可忽略性假设与可观测分布建立联系。

模型(数据生成机制): 1. 基线协变量 \(L\) 的分布:非参数,或参数模型(本文实证用逻辑回归)。 2. 暴露 \(A\) 给定 \(L\) 的分布:参数模型(逻辑回归)。 3. 中介 \(M\) 给定 \(A, L\) 的分布:参数模型(多元正态或广义线性模型)。 4. 生存时间 \(T\) 给定 \(A, M, L\) 的风险函数:样条比例风险模型\(\lambda(t | A, M, L) = \lambda_0(t) \exp(\beta_A A + \beta_M M + \beta_L L)\),其中 \(\lambda_0(t)\) 用样条逼近(筛方法)。 5. 检查时间点 \((K_1, K_2, \ldots)\):假设与 \((L, A, M, T)\) 独立(独立区间删失假设)。

第二步:讲最小内核

剥掉多中介、多维协变量与样条逼近的一般性,取最简特例: - 暴露 \(A\) 为二值(0/1)。 - 单个中介 \(M\) 为连续。 - 无基线协变量 \(L\)(或 \(L\) 为空)。 - 生存时间 \(T\) 的风险函数为参数比例风险(不用样条,\(\lambda_0(t)\) 为已知参数形式,如 Weibull)。 - 区间删失:每个个体只有两个检查时间点 \((K_1, K_2)\),观测到 \(T \in (K_1, K_2)\)\(T > K_2\)\(T < K_1\)

在这个最简特例下,本文要做的事退化成什么?

  1. PSE 的定义(基于生存概率)
  2. 自然直接效应(NDE):\(P(U_T(1, U_M(0)) > t) - P(U_T(0, U_M(0)) > t)\),即"把暴露从 0 变到 1,但保持中介在自然值 \(U_M(0)\) 下,生存概率的变化"。
  3. 自然间接效应(NIE):\(P(U_T(0, U_M(1)) > t) - P(U_T(0, U_M(0)) > t)\),即"暴露保持 0,但中介从自然值 \(U_M(0)\) 变到 \(U_M(1)\) 下,生存概率的变化"。

  4. 识别(在顺序可忽略性下): 顺序可忽略性假设(无 \(L\) 时简化为):\((U_T(a', m), U_M(a)) \perp\!\!\!\perp A\),且 \(U_T(a', m) \perp\!\!\!\perp M | A\)。 在此假设下,NDE 与 NIE 可被可观测分布写出:

  5. \(P(U_T(a', U_M(a)) > t) = \int P(T > t | A=a', M=m) f_{M|A}(m | A=a) dm\)
  6. 这就是最简特例下的识别公式——把反事实期望拆成"条件生存概率对中介分布的积分"。

  7. 估计(筛 MLE 退化成参数 MLE)

  8. 在参数比例风险下,\(\lambda_0(t)\) 有参数形式,无需样条。
  9. 区间删失的似然:对个体 \(i\),若观测 \(T_i \in (K_{i1}, K_{i2})\),似然贡献为 \(P(T_i > K_{i1} | A_i, M_i) - P(T_i > K_{i2} | A_i, M_i)\);若观测 \(T_i > K_{i2}\),贡献为 \(P(T_i > K_{i2} | A_i, M_i)\);若 \(T_i < K_{i1}\),贡献为 \(P(T_i \leq K_{i1} | A_i, M_i)\)
  10. 把中介模型 \(f_{M|A}\) 与风险模型的参数合在一起,做全局 MLE(同时估中介与风险参数)。
  11. 估出参数后,代入识别公式,算出 NDE 与 NIE。

为什么成立(直觉): - 识别成立,因顺序可忽略性把反事实量拆解成可观测的条件分布的积分。 - 估计成立,因区间删失的似然结构(基于检查时间点的生存概率差)恰好与比例风险模型的生存概率公式 \(P(T > t | A, M) = \exp(-\int_0^t \lambda_0(s) e^{\beta_A A + \beta_M M} ds)\) 对接——只要能估出 \(\lambda_0\)\(\beta\),就能算出任意 \(t\) 的生存概率,进而算出 PSE。

一般情形只是"加壳": - 多中介:识别公式变成多重积分(路径特定效应需指定中介路径的顺序)。 - 样条 \(\lambda_0(t)\):把参数 MLE 变成筛 MLE(在样条空间上优化),渐近理论需用 Wellner & Zhan 的筛理论。 - 基线协变量 \(L\):所有条件分布与识别公式都加 \(L\) 的调整,积分多一重。 - RMST 定义:PSE 定义从 \(P(T > t)\) 变成 \(\int_0^\tau P(T > t) dt\)(RMST 是生存概率的积分),识别公式相应变成积分的积分,但核心拆解逻辑不变。


三、这篇论文做了什么

三句话: ① 研究了区间删失生存数据下暴露对生存时间的直接与间接(中介)效应的识别与估计问题。 ② 核心工具是反事实框架下的顺序可忽略性假设、基于生存概率与 RMST 的 PSE 定义、以及筛极大似然估计(sieve MLE)。 ③ 主要结论是:在顺序可忽略性与独立区间删失下,PSE 可被可观测分布识别;筛 MLE 可同时估计中介与风险模型的全部参数(含样条基准风险),且估计量具有渐近正态性与收敛率保证;模拟与实证支持方法的可行性。

关键设定与假设: 在第二节最小记号基础上补全: - 顺序可忽略性(Sequential Ignorability)\((U_T(a', m), U_M(a)) \perp\!\!\!\perp A | L\),且 \(U_T(a', m) \perp\!\!\!\perp M | A, L\)。统计含义:暴露 \(A\) 的分配与中介 \(M\) 的取值,在给定基线协变量 \(L\) 下,都无未测混杂。相比 VanderWeele (2011) 与右删失中介文献,本文的顺序可忽略性未做放宽——仍是标准假设,但本文明确指出此假设在区间删失下仍需成立。 - 独立区间删失(Independent Interval Censoring):检查时间点 \((K_1, K_2, \ldots)\)\((L, A, M, T)\) 独立。统计含义:删失机制不引入额外混杂。相比右删失文献(假设 \(C \perp T | L, A, M\)),本文假设更强——检查过程完全独立,而非条件独立。这是为简化似然结构(检查时间点不进入风险模型)。 - 比例风险模型(PH)\(\lambda(t | A, M, L) = \lambda_0(t) \exp(\beta_A A + \beta_M^\top M + \beta_L^\top L)\)。统计含义:暴露、中介、协变量对风险的对数线性效应,且基准风险 \(\lambda_0(t)\) 非参数(用样条逼近)。相比纯生存分析的筛 MLE 文献(Wellner & Zhan 1997),本文的 PH 模型加入了中介 \(M\)——似然函数更复杂(需同时建模 \(M\) 的分布)。 - 中介模型\(M | A, L\) 服从广义线性模型(如多元正态)。统计含义:中介的分布参数化,以便在似然中联合估计。 - 暴露与基线模型\(A | L\)\(L\) 的分布参数化(逻辑回归等)。

主要结果

  1. 识别定理(Theorem 1 类,文中核心识别结果)
  2. 陈述:在顺序可忽略性下,基于生存概率的 PSE(如 NDE、NIE、路径特定效应)可被可观测分布 \((L, A, M, T)\) 的条件分布与边际分布写出——具体为反事实生存概率 \(P(U_T(a', U_M(a)) > t)\) 等于 \(\int P(T > t | A=a', M=m, L) f_{M|A,L}(m | A=a, L) f_{A|L}(a | L) f_L(L) dm da dL\) 的积分形式。
  3. 直觉:顺序可忽略性把反事实量拆成条件分布的积分;区间删失不改变识别公式(因识别公式只涉及 \(T\) 的条件生存概率,而区间删失只影响 \(T\) 的观测方式,不影响 \(T\) 的潜在分布)。
  4. 必要条件:顺序可忽略性 + 独立区间删失。
  5. 解决的技术难点:在区间删失下,识别公式中的 \(P(T > t | A, M, L)\) 无法直接从数据算出(因 \(T\) 被区间删失),需通过模型(PH)与估计(筛 MLE)间接获得。

  6. 筛 MLE 的渐近性质(Theorem 2-3 类,文中核心估计结果)

  7. 陈述:在 PH 模型下(\(\lambda_0\) 用样条逼近,样条空间随样本量 \(n\) 增大而变细),筛 MLE 估计量 \((\hat{\beta}_A, \hat{\beta}_M, \hat{\beta}_L, \hat{\lambda}_0)\) 具有渐近正态性(参数部分 \(\hat{\beta}\) 的收敛率为 \(n^{-1/2}\),样条基准风险 \(\hat{\lambda}_0\) 的收敛率为 \(n^{-r}\)\(r\) 取决于样条阶数与光滑度),且 PSE 的估计量(代入筛 MLE 后算出的积分)也具有渐近正态性与收敛率保证。
  8. 直觉:筛 MLE 把非参数基准风险限制在样条空间(有限维但随 \(n\) 增大),使得似然优化可行;参数部分的收敛率不受样条逼近影响(仍为 \(n^{-1/2}\)),因参数与基准风险的"信息正交"性质(类似部分似然中的信息矩阵分块)。
  9. 必要条件:样条空间的阶数与节点数需随 \(n\) 适当增长(满足 Wellner & Zhan 的筛条件),且真实基准风险 \(\lambda_0(t)\) 需足够光滑(属于 Sobolev 空间)。
  10. 解决的技术难点:区间删失的似然不是标准部分似然(没有精确事件时间),而是基于检查时间点的生存概率差——这使得信息矩阵的结构更复杂,需专门验证参数与基准风险的可估性与收敛率分离。

  11. 基于 RMST 的 PSE 定义与识别

  12. 陈述:PSE 也可基于 RMST 定义,如 \(\text{RMST}(a', a) = \int_0^\tau P(U_T(a', U_M(a)) > t) dt\),识别公式为对生存概率识别公式的积分。
  13. 直觉:RMST 是生存概率的积分,故识别只需对生存概率的识别公式再积分一次;RMST 不依赖罕见结局假设(因它不涉及风险比),且对非比例风险情况更稳健。
  14. 必要条件:需指定积分上限 \(\tau\)(限制平均生存时间的"限制")。

证明路线与技术技巧

  • 整体路线
  • 在反事实框架下定义 PSE(基于生存概率或 RMST)。
  • 在顺序可忽略性假设下,推导 PSE 的识别公式——把反事实量写成可观测条件分布的积分。
  • 对可观测分布的各条件成分(\(f_L, f_{A|L}, f_{M|A,L}, P(T > t | A, M, L)\))建立参数或半参数模型(PH + 样条)。
  • 构造区间删失下的全似然函数(基于检查时间点的生存概率差),在样条空间上做筛 MLE,同时估计所有参数。
  • 用筛 MLE 的渐近理论(Wellner & Zhan 型)证明参数部分的 \(n^{-1/2}\) 收敛与渐近正态性,以及样条基准风险的收敛率。
  • 用 Delta 方法(或函数 Delta 方法)证明代入筛 MLE 后 PSE 估计量的渐近正态性。

  • 关键跳跃点

  • 区间删失似然的构造与信息矩阵的性质:区间删失的似然不是 \(f(T_i | A_i, M_i, L_i)\) 的简单乘积,而是 \([P(T_i > K_{i,j-1}) - P(T_i > K_{i,j})]\) 等生存概率差的乘积。这导致信息矩阵的参数部分与基准风险部分的"正交性"需专门验证——这是证明参数部分 \(n^{-1/2}\) 收敛的关键跳跃点。作者用 Wellner & Zhan (1997) 的筛 MLE 理论框架,验证了在此似然结构下,参数部分的信息矩阵仍可分块(参数与基准风险不互相干扰收敛率)。

  • 技术技巧点名

  • 筛极大似然(Sieve MLE):用样条空间逼近非参数基准风险 \(\lambda_0(t)\),使似然优化在有限维空间上进行,但随 \(n\) 增大逼近真实空间。起的作用:让区间删失下的半参数 PH 模型有可行估计量,且保证收敛率。
  • Delta 方法(函数 Delta 方法):从筛 MLE 估计量的渐近正态性,推导 PSE 估计量(PSE 是参数与基准风险的函数)的渐近正态性。起的作用:把参数估计的渐近性质传递到因果效应估计。
  • 反事实框架与顺序可忽略性:把 PSE 从反事实定义转化为可观测分布的积分。起的作用:解决识别问题。
  • RMST 定义:用 \(\int_0^\tau P(T > t) dt\) 替代风险比定义 PSE。起的作用:绕过罕见结局假设,且对非比例风险更稳健。

真实例子与应用

  • 用的什么数据 / 场景:阿尔茨海默症(AD)进展数据(来自 Alzheimer's Disease Neuroimaging Initiative, ADNI)。场景:携带 APOE-4 等位基因(暴露 \(A\))如何通过脑区体积(中介 \(M_1\))与认知评分(中介 \(M_2\))影响 AD 发病时间(生存时间 \(T\))。
  • 怎么把本文方法用上去
  • 定义 PSE:APOE-4 对 AD 发病的直接效应(NDE)、通过脑区体积的间接效应(NIE1)、通过认知评分的间接效应(NIE2)、通过脑区体积再到认知评分的路径特定效应(PSE12)。
  • 建立模型:基线协变量 \(L\)(年龄、性别等)用逻辑回归;暴露 \(A\)(APOE-4)用逻辑回归;中介 \(M\)(脑区体积与认知评分)用多元正态;生存时间 \(T\) 用样条 PH 模型。
  • 区间删失:AD 发病时间不是精确观测,而是在每次随访时检查是否发病——观测到的是"发病发生在哪两次随访之间"。
  • 用筛 MLE 估计所有参数,代入识别公式算出各 PSE。
  • 得到什么结果:量化了 APOE-4 对 AD 发病的直接效应与通过脑区体积 / 认知评分的间接效应的具体数值(如 NDE 使生存概率下降 X%,NIE1 使生存概率下降 Y% 等)。具体数值需看原文表 / 图。
  • 这个例子想说明什么:展示方法在真实区间删失生存数据上的可行性,且量化了有科学意义的中介路径(APOE-4 → 脑区体积 → AD 发病等)。

🔎 结论是否比证明窄: - 本文在 PSE 的渐近正态性证明中,假设了中介模型与暴露 / 基线模型都是参数模型(正确指定)。若这些模型误指定,筛 MLE 的 PH 参数部分可能仍有一致性(因 PH 模型是半参数的,基准风险用样条逼近可吸收部分误指定),但中介模型的误指定会直接影响 PSE 的识别公式(因识别公式依赖 \(f_{M|A,L}\) 的正确指定)。本文在理论部分未讨论中介模型误指定的稳健性——这是一个"证明窄但 claim 宽"的地方:作者在方法描述中未强调中介模型必须正确指定,但证明隐含了此条件。 - RMST 定义下的 PSE 识别公式,文中 claim 可用于非比例风险情况,但证明路线依赖 PH 模型(比例风险假设)——若真实风险不是比例风险,筛 MLE 的 PH 估计量将不一致,RMST 的 PSE 估计也将不一致。这是一个"claim 比 proof 宽"的具体点。


四、开放问题(点到为止,扎根具体语句)

  1. 半参数效率界与有效估计:本文用筛 MLE,但未讨论此估计量是否达到半参数效率界(在区间删失 + 中介分析的设定下)。扎根点:文中渐近正态性定理只给出收敛率与方差,未与效率界比较——这指向"能否构造 One-step / TMLE / DML 估计量达到效率界"的 gap。要确认是否真 gap,需查近期半参数中介分析文献(如 Tchetgen Tchetgen 系列)是否已给出区间删失下的效率界。

  2. 中介模型误指定的稳健性:本文证明隐含中介模型 \(f_{M|A,L}\) 正确指定,但未讨论误指定的影响或构造稳健估计量。扎根点:识别公式中 \(\int P(T > t | A=a', M=m, L) f_{M|A,L}(m | A=a, L) dm\) 依赖 \(f_{M|A,L}\) 的正确形式——若用非参数或机器学习估计 \(f_{M|A,L}\),能否保持渐近性质?这指向"双机器学习(DML)中介分析"的路线。

  3. 独立区间删失假设的放宽:本文假设检查时间点与 \((L, A, M, T)\) 完全独立,但实际中检查时间点可能与基线协变量 \(L\) 相关(如高龄患者检查更频繁)。扎根点:文中似然构造依赖独立删失假设(检查时间点不进入似然),若放宽为条件独立(\(K \perp T | L\)),似然需重新构造,筛 MLE 的渐近理论需相应修改。

  4. 非比例风险下的 PSE 估计:文中 claim RMST 定义可用于非比例风险,但证明依赖 PH 模型。扎根点:若真实风险为非比例风险(如加性风险或加速失效模型),筛 MLE 的 PH 估计量不一致,需构造非比例风险模型下的筛 MLE 或其他半参数估计量——这指向"非比例风险中介分析"的 gap。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论