跳转至

Correcting for bias due to mismeasured exposure in mediation analysis with a survival outcome

作者: Chao Cheng, Donna Spiegelman, Fan Li
来源: Journal of the Royal Statistical Society Series C
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在因果中介分析中,当暴露变量存在测量误差时,如何量化并校正其对自然直接效应(NDE)与自然间接效应(NIE)估计造成的偏倚。当前该方向的成熟度处于“偏倚公式推导已完成、校正方法刚从连续/二值结局迁移至生存结局、但非参数与高维设定尚未触及”的阶段。

发展脉络(history): 1. 奠基工作(生存结局中介分析的因果定义):VanderWeele (2011) 与 Lange & Hansen (2011) 在反事实框架下,为生存结局定义了基于生存函数、风险比与平均生存时间的中介效应度量。VanderWeele 明确指出:在比例风险模型下,乘积系数法仅在结局稀有时等价于反事实定义的 NIE,且暴露-中介交互的引入会改变效应尺度。这一工作留下了“当结局不稀有或存在交互时,如何估计与校正”的口子。 2. 主要进展(测量误差校正的迁移):Cheng, Spiegelman & Li (2023) 针对连续与二值结局,推导了暴露测量误差下 NIE 与中介比例的偏倚公式,并提出了基于主研究/验证研究设计的回归校准与似然校准方法。该文证明了偏倚方向不确定,但中介比例在特定条件下偏倚较小。这一工作将测量误差校正从中介分析的外围推到了核心,但留下了“生存结局下偏倚公式与校正方法如何适配 Cox 模型”的口子。 3. 当前 frontier(生存结局测量误差校正):Liao et al. (2011, 2018) 开发了风险集回归校准(RRC)方法,用于校正 Cox 模型中时变暴露测量误差,但仅针对总效应估计,未触及中介分析的结构(直接/间接效应分解)。Wang & Albert (2017) 改进了 Cox 模型下中介效应的估计(平滑基线风险),但假设暴露无误差。 4. 本文的位置:本文填补了“Cox 回归中介分析 + 暴露测量误差”的交汇空白——先在稀有结局且无交互下推导偏倚公式(与 Cheng et al. 2023 的二值结局公式惊人一致),再开发校准方法(回归校准 RRC 与似然校准),并推广至常见结局与有交互情形。

子线索聚类: - 子线索 A:生存结局中介分析的因果定义与估计。核心文献:VanderWeele (2011), Wang & Albert (2017)。这一簇在反事实框架下定义 NDE/NIE,并解决 Cox 模型下乘积系数法的适用条件(稀有结局)与基线风险估计问题。 - 子线索 B:Cox 回归中暴露测量误差校正。核心文献:Liao et al. (2011, 2018), Yi et al. (2015)。这一簇开发 RRC 与似然方法,校正 Cox 模型风险比估计的测量误差偏倚,但仅针对总效应,未做中介分解。 - 子线索 C:非生存结局中介分析的测量误差偏倚与校正。核心文献:Cheng et al. (2023)。这一簇推导偏倚公式、提出校准方法,为本文提供了直接的方法论前身。

这个方向在追问的核心问题: 1. 偏倚的量化:暴露测量误差在中介分解(NDE vs NIE)下,偏倚的方向与大小是什么?是否与总效应偏倚不同? 2. 校正的可操作性:在只有主研究/外部验证研究设计下,如何利用验证数据校正 Cox 模型中介效应的偏倚?校正后估计量的渐近性质如何? 3. 设定推广的边界:当结局不稀有(Cox 乘积系数法不再等价于反事实 NIE)或存在暴露-中介交互时,偏倚公式与校正方法如何适配?是否需要新的识别假设?

⚠️ 作者的 framing: - 作者把缺口 frame 成“生存结局中介分析中的测量误差偏倚尚未被量化与校正”,好让本文成为 Cheng et al. (2023) 在生存数据上的“显然推广”。 - 作者淡化了半参数/非参数中介估计路线(如基于影响函数的估计、targeted minimum loss estimation),完全在参数 Cox 回归 + 参数测量误差模型的框架内推导。这意味着本文的偏倚公式与校正方法严重依赖模型正确设定,未触及模型误设下的稳健性。 - 作者回避了内部验证研究设计(主研究内嵌验证子集)下的校正方法,只考虑外部验证研究。 - 明显该被引却未出现的:Tsiatis (2006) 的半参数生存分析理论、Robins & Rotnitzky 的因果推断影响函数方法、Vansteelandt & VanderWeele 关于中介分析半参数估计的工作。这些是中介分析与测量误差在半参数层面的核心文献,缺失暗示本文有意限缩在参数设定内。

张力: - 未见明显对立引用。各子线索在不同设定下得出一致结论:测量误差导致偏倚、偏倚方向不确定、校准方法有效。但存在一个隐性张力:VanderWeele (2011) 证明 Cox 模型下乘积系数法仅在稀有结局时等价于反事实 NIE,而本文的偏倚公式推导也依赖稀有结局假设——当结局不稀有时,本文的偏倚公式是否仍然成立?作者承认不成立,并转而开发数值校准方法(RRC),这暗示了“解析偏倚公式”与“数值校准”之间的方法断裂。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(A\):真实暴露变量(连续,如真实身体活动水平),不可观测。
  • \(A^*\):误差暴露变量(连续,如问卷报告的身体活动水平),可观测。假设 \(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\),其中 \(\epsilon_A\)\(A, M, T\) 独立,均值为 0(经典测量误差模型)。
  • \(M\):中介变量(连续,如 BMI),可观测。
  • \(T\):生存时间(连续,如心血管疾病发生时间),可观测但可能被右删失。
  • \(W\):协变量向量(可观测,如年龄、吸烟状态)。
  • \(C\):删失时间(可观测)。
  • \(\beta_A, \beta_M\):Cox 模型中暴露与中介的回归系数(对数风险比尺度),是要估的参数。
  • \(\alpha_A\):中介模型(线性回归 \(M\) on \(A, W\))中暴露的回归系数,是要估的参数。
  • NIE:自然间接效应,在 Cox 稀有结局下定义为 \(\exp(\alpha_A \beta_M)\)(乘积系数法)。
  • NDE:自然直接效应,在 Cox 稀有结局下定义为 \(\exp(\beta_A)\)
  • 可观测数据:在主研究中,观测到 \((A^*, M, T, C, W)\);在验证研究中,观测到 \((A, A^*, M, T, C, W)\)(即真实暴露 \(A\) 可被观测)。验证研究用于估计测量误差模型参数 \((\gamma_0, \gamma_1, \sigma_\epsilon^2)\)

第二步:最小内核——稀有结局且无交互下的偏倚公式

剥掉所有时变暴露、常见结局、交互项的复杂性,最小内核是:在 Cox 模型下,稀有结局且无暴露-中介交互时,用误差暴露 \(A^*\) 替代真实暴露 \(A\) 估计 NIE 与 NDE,偏倚是什么?

  • 模型设定
  • 中介模型:\(M = \alpha_0 + \alpha_A A + \alpha_W W + \epsilon_M\)
  • 结局模型(Cox):\(h(t | A, M, W) = h_0(t) \exp(\beta_A A + \beta_M M + \beta_W W)\)(无交互项 \(\beta_{AM}\)
  • 测量误差:\(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\)

  • 要证的命题(偏倚公式): 用 \(A^*\) 替代 \(A\) 拟合中介模型与 Cox 模型,得到 \(\hat{\alpha}_A^*\)\(\hat{\beta}_M^*\)。它们的渐近极限是什么?偏倚如何表达?

  • 证明怎么走(直觉)

  • 中介模型中用 \(A^*\) 替代 \(A\):由于 \(A^* = \gamma_1 A + \text{noise}\),经典测量误差下,\(\hat{\alpha}_A^*\) 的渐近极限为 \(\alpha_A / \gamma_1\)(衰减偏倚,attenuation bias)。
  • Cox 模型中用 \(A^*\) 替代 \(A\) 且包含 \(M\):由于 \(M\) 依赖 \(A\)\(A^*\)\(M\) 在条件于 \(W\) 下不独立。\(A^*\)\(T\) 的效应被 \(M\) 部分捕获,导致 \(\hat{\beta}_M^*\) 的渐近极限偏离 \(\beta_M\)。作者证明:在稀有结局下,\(\hat{\beta}_M^*\) 的渐近极限为 \(\beta_M \gamma_1 + \beta_A \alpha_A (1 - \gamma_1) / \gamma_1\)(偏倚包含直接效应 \(\beta_A\) 的污染)。
  • NIE 估计 \(\exp(\hat{\alpha}_A^* \hat{\beta}_M^*)\) 的渐近极限:乘积 \(\hat{\alpha}_A^* \hat{\beta}_M^*\) 的极限为 \(\alpha_A \beta_M + \alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\)。偏倚项为 \(\alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\),方向取决于 \(\gamma_1\)(若 \(\gamma_1 < 1\),偏倚为正,NIE 被高估)。
  • NDE 估计 \(\exp(\hat{\beta}_A^*)\) 的渐近极限:\(\hat{\beta}_A^*\) 的极限为 \(\beta_A / \gamma_1\)(衰减偏倚)。

  • 为什么成立: 稀有结局假设使得 Cox 模型的风险比近似于 logistic 回归的 odds ratio,从而可以利用 Cheng et al. (2023) 二值结局的偏倚公式结果(作者在文中明确指出:Theorem 1 的偏倚公式与 Cheng et al. 2023 的二值结局公式完全一致)。无交互假设使得偏倚公式可解析推导;有交互时,偏倚公式变得复杂,作者转而依赖数值校准。


三、这篇论文做了什么

三句话: ①研究了 Cox 回归中介分析中暴露测量误差对 NIE 与 NDE 估计的偏倚影响与校正方法。 ②核心工具是解析偏倚公式推导(稀有结局下)与风险集回归校准(RRC)/似然校准(常见结局与有交互下)。 ③主要结论是:未校正测量误差会低估中介效应(在 HPFS 实例中),而 RRC 与似然校准能有效校正偏倚并恢复真实效应。

关键设定与假设: - 主研究/外部验证研究设计:主研究观测 \((A^*, M, T, C, W)\),外部验证研究观测 \((A, A^*, M, T, C, W)\)。假设验证研究的参数可运输至主研究(transportability assumption,引用 Yi et al. 2015:\(P(A, M, T, C | A^*, W)\) 在验证与主研究中相同)。 - 经典测量误差模型\(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\)\(\epsilon_A\)\(A, M, T\) 独立。相比已有文献(如 Liao et al. 2018 允许时变测量误差),本文限缩在时不变暴露。 - 稀有结局假设(用于偏倚公式):结局发生率低,使得 Cox 风险比近似 odds ratio。相比 VanderWeele (2011) 的同一假设,本文进一步利用它推导偏倚公式。 - 无暴露-中介交互假设(用于偏倚公式):Cox 模型中 \(\beta_{AM} = 0\)。在推广情形中放松此假设。 - 比例风险假设:Cox 模型标准假设,未放松。

主要结果: - Theorem 1(偏倚公式):在稀有结局且无交互下,用 \(A^*\) 替代 \(A\) 估计 NIE 与 NDE 的渐近偏倚为: - NIE 对数尺度偏倚:\(\alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\) - NDE 对数尺度偏倚:\(\beta_A (1 - \gamma_1) / \gamma_1\) - 直觉:NIE 偏倚包含直接效应 \(\beta_A\) 的污染,因为误差暴露 \(A^*\) 无法完全分离直接与间接路径;NDE 偏倚为经典衰减偏倚。 - 必要条件:稀有结局、无交互、经典测量误差、线性中介模型。 - 解决的技术难点:在 Cox 模型下推导包含中介的测量误差偏倚,需处理 \(A^*\)\(M\) 的相关性导致的“路径污染”。

  • 校正方法(RRC 与似然校准)
  • 回归校准(RC):用验证研究估计的 \(\hat{\gamma}_0, \hat{\gamma}_1\) 计算 \(E[A | A^*, W]\),替代 \(A\) 进入中介与 Cox 模型。在稀有结局下有效,但在常见结局下偏倚较大。
  • 风险集回归校准(RRC):在每个风险集内重新校准 \(E[A | A^*, W, T > t]\),适配时变风险结构。引用 Liao et al. (2011, 2018) 的思路,但扩展至中介模型。在常见结局下有效。
  • 似然校准:基于测量误差模型的完整似然,联合估计中介参数与 Cox 参数。理论上更优,但计算复杂。

  • 推广至有交互与常见结局:偏倚公式不再解析可推,作者转而依赖 RRC 与似然校准的数值校正,并通过模拟验证。

证明路线与技术技巧: - 整体路线: 1. 建立中介模型 + Cox 模型 + 测量误差模型的联合结构。 2. 在稀有结局且无交互下,利用 Cox 近似 logistic 的性质,将生存结局偏倚问题转化为二值结局偏倚问题(直接调用 Cheng et al. 2023 的结果)。 3. 推导 \(\hat{\alpha}_A^*, \hat{\beta}_M^*, \hat{\beta}_A^*\) 的渐近极限,得到偏倚公式。 4. 开发 RRC 方法:在每个风险集内,用验证数据估计 \(E[A | A^*, W, T > t]\),替代 \(A\) 进入 Cox 模型。 5. 开发似然校准方法:写出 \(P(T, M, A^* | W)\) 的似然,积分掉 \(A\),联合估计所有参数。 6. 用 sandwich 估计量计算 RRC 估计量的方差,考虑验证数据参数的不确定性。

  • 关键跳跃点
  • 从生存结局偏倚推导跳跃至二值结局偏倚公式的直接借用(稀有结局假设下的近似)。这是本文最省力的一步,但也最依赖稀有假设。
  • RRC 方法中,条件期望 \(E[A | A^*, W, T > t]\) 的估计:由于 \(T > t\) 条件改变了 \(A\) 的分布(选择偏倚),需在风险集内重新拟合测量误差模型。这是 Liao et al. 2011 的核心技巧,本文将其迁移至中介设定。

  • 技术技巧点名

  • 风险集回归校准(RRC):用于校正 Cox 模型中时变暴露测量误差,在每个风险集内重新校准,解决选择偏倚。
  • Sandwich 方差估计:用于计算 RRC 估计量的方差,考虑验证数据参数的抽样不确定性,引用 Liao et al. 2011 的推导框架。
  • 似然积分:在似然校准中,将真实暴露 \(A\) 从联合似然中积分掉,得到 \(P(T, M, A^* | W)\) 的边际似然。
  • Transportability 假设:确保验证研究的测量误差模型参数可运输至主研究,引用 Yi et al. 2015。

真实例子与应用: - 数据:Health Professionals Follow-up Study (HPFS), 1986-2016,约 44,000 名男性健康专业人员。 - 场景:评估身体活动(VPA, 暴露 \(A\))通过降低 BMI(中介 \(M\))对心血管疾病(CVD, 结局 \(T\))的中介效应。VPA 通过问卷测量(误差暴露 \(A^*\)),BMI 为客观测量(无误差),CVD 为生存结局。 - 怎么用上去: - 主研究:用问卷 VPA (\(A^*\))、BMI (\(M\))、CVD 时间 (\(T\)) 拟合中介与 Cox 模型。 - 验证研究:引用 Chomistek et al. 2012 的子研究,其中 VPA 有客观测量(加速度计),用于估计测量误差模型参数 \(\gamma_1\)。 - 分别用未校正、RC、RRC、似然校准方法估计 NIE 与 NDE。 - 得到什么结果: - 未校正时,NIE 的对数尺度估计偏小(衰减偏倚),中介比例被低估。 - RRC 与似然校准后,NIE 估计增大,中介比例恢复至约 30-40%(与无误差理论值一致)。 - 想说明什么:验证 RRC 与似然校准在真实数据中能有效校正测量误差偏倚,且未校正会导致实质性结论错误(中介效应被低估)。

🔎 结论是否比证明窄: - 作者在 Theorem 1 中严格证明了稀有结局且无交互下的偏倚公式,但在推广至常见结局与有交互时,仅通过模拟验证 RRC 与似然校准的有效性,未给出渐近理论证明。文中明确写:"We generalize our methods to accommodate a common outcome and an exposure–mediator interaction",但未给出对应的定理陈述与证明。这是一个证明窄于声明的地方。 - 作者声称 RRC 在常见结局下有效,但仅基于模拟,未给出偏倚的渐近阶或收敛速率。


四、开放问题(点到为止,扎根具体语句)

  1. 常见结局与有交互下 RRC/似然校准的渐近理论:要证什么?——RRC 估计量在常见结局且存在暴露-中介交互下的渐近偏倚阶与收敛速率。扎根在本文 Section 4 "We generalize our methods to accommodate a common outcome and an exposure–mediator interaction" 但未给出定理证明的缺口。
  2. 内部验证研究设计下的校正方法:要估什么?——当验证数据嵌套在主研究内(internal validation),如何利用子集的 \((A, A^*)\) 信息构造半参数有效估计量?扎根在本文仅考虑外部验证研究(transportability assumption from Yi et al. 2015),未触及内部验证。
  3. 非参数/半参数中介估计下的测量误差偏倚与校正:要证什么?——当中介模型与结局模型不假设参数形式(如半参数影响函数估计),暴露测量误差对 NIE 估计的偏倚是否仍可解析表达?扎根在本文完全依赖参数 Cox + 线性中介模型,且 intro 中未引用 Robins/Vansteelandt 的半参数中介文献。
  4. 时变暴露与时变中介的测量误差校正:要估什么?——当暴露与中介随时间变化且均有测量误差时,如何在纵向生存数据中校正中介效应偏倚?扎根在本文限缩在时不变暴露,且 Liao et al. 2018 的 RRC 仅针对时变暴露总效应,未触及时变中介分解。

要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论