Correcting for bias due to mismeasured exposure in mediation analysis with a survival outcome¶

作者: Chao Cheng, Donna Spiegelman, Fan Li
来源: Journal of the Royal Statistical Society Series C
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在因果中介分析中，当暴露变量存在测量误差时，如何量化并校正其对自然直接效应（NDE）与自然间接效应（NIE）估计造成的偏倚。当前该方向的成熟度处于“偏倚公式推导已完成、校正方法刚从连续/二值结局迁移至生存结局、但非参数与高维设定尚未触及”的阶段。

发展脉络（history）： 1. 奠基工作（生存结局中介分析的因果定义）：VanderWeele (2011) 与 Lange & Hansen (2011) 在反事实框架下，为生存结局定义了基于生存函数、风险比与平均生存时间的中介效应度量。VanderWeele 明确指出：在比例风险模型下，乘积系数法仅在结局稀有时等价于反事实定义的 NIE，且暴露-中介交互的引入会改变效应尺度。这一工作留下了“当结局不稀有或存在交互时，如何估计与校正”的口子。 2. 主要进展（测量误差校正的迁移）：Cheng, Spiegelman & Li (2023) 针对连续与二值结局，推导了暴露测量误差下 NIE 与中介比例的偏倚公式，并提出了基于主研究/验证研究设计的回归校准与似然校准方法。该文证明了偏倚方向不确定，但中介比例在特定条件下偏倚较小。这一工作将测量误差校正从中介分析的外围推到了核心，但留下了“生存结局下偏倚公式与校正方法如何适配 Cox 模型”的口子。 3. 当前 frontier（生存结局测量误差校正）：Liao et al. (2011, 2018) 开发了风险集回归校准（RRC）方法，用于校正 Cox 模型中时变暴露测量误差，但仅针对总效应估计，未触及中介分析的结构（直接/间接效应分解）。Wang & Albert (2017) 改进了 Cox 模型下中介效应的估计（平滑基线风险），但假设暴露无误差。 4. 本文的位置：本文填补了“Cox 回归中介分析 + 暴露测量误差”的交汇空白——先在稀有结局且无交互下推导偏倚公式（与 Cheng et al. 2023 的二值结局公式惊人一致），再开发校准方法（回归校准 RRC 与似然校准），并推广至常见结局与有交互情形。

子线索聚类： - 子线索 A：生存结局中介分析的因果定义与估计。核心文献：VanderWeele (2011), Wang & Albert (2017)。这一簇在反事实框架下定义 NDE/NIE，并解决 Cox 模型下乘积系数法的适用条件（稀有结局）与基线风险估计问题。 - 子线索 B：Cox 回归中暴露测量误差校正。核心文献：Liao et al. (2011, 2018), Yi et al. (2015)。这一簇开发 RRC 与似然方法，校正 Cox 模型风险比估计的测量误差偏倚，但仅针对总效应，未做中介分解。 - 子线索 C：非生存结局中介分析的测量误差偏倚与校正。核心文献：Cheng et al. (2023)。这一簇推导偏倚公式、提出校准方法，为本文提供了直接的方法论前身。

这个方向在追问的核心问题： 1. 偏倚的量化：暴露测量误差在中介分解（NDE vs NIE）下，偏倚的方向与大小是什么？是否与总效应偏倚不同？ 2. 校正的可操作性：在只有主研究/外部验证研究设计下，如何利用验证数据校正 Cox 模型中介效应的偏倚？校正后估计量的渐近性质如何？ 3. 设定推广的边界：当结局不稀有（Cox 乘积系数法不再等价于反事实 NIE）或存在暴露-中介交互时，偏倚公式与校正方法如何适配？是否需要新的识别假设？

⚠️ 作者的 framing： - 作者把缺口 frame 成“生存结局中介分析中的测量误差偏倚尚未被量化与校正”，好让本文成为 Cheng et al. (2023) 在生存数据上的“显然推广”。 - 作者淡化了半参数/非参数中介估计路线（如基于影响函数的估计、targeted minimum loss estimation），完全在参数 Cox 回归 + 参数测量误差模型的框架内推导。这意味着本文的偏倚公式与校正方法严重依赖模型正确设定，未触及模型误设下的稳健性。 - 作者回避了内部验证研究设计（主研究内嵌验证子集）下的校正方法，只考虑外部验证研究。 - 明显该被引却未出现的：Tsiatis (2006) 的半参数生存分析理论、Robins & Rotnitzky 的因果推断影响函数方法、Vansteelandt & VanderWeele 关于中介分析半参数估计的工作。这些是中介分析与测量误差在半参数层面的核心文献，缺失暗示本文有意限缩在参数设定内。

张力： - 未见明显对立引用。各子线索在不同设定下得出一致结论：测量误差导致偏倚、偏倚方向不确定、校准方法有效。但存在一个隐性张力：VanderWeele (2011) 证明 Cox 模型下乘积系数法仅在稀有结局时等价于反事实 NIE，而本文的偏倚公式推导也依赖稀有结局假设——当结局不稀有时，本文的偏倚公式是否仍然成立？作者承认不成立，并转而开发数值校准方法（RRC），这暗示了“解析偏倚公式”与“数值校准”之间的方法断裂。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：真实暴露变量（连续，如真实身体活动水平），不可观测。
\(A^*\)：误差暴露变量（连续，如问卷报告的身体活动水平），可观测。假设 \(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\)，其中 \(\epsilon_A\) 与 \(A, M, T\) 独立，均值为 0（经典测量误差模型）。
\(M\)：中介变量（连续，如 BMI），可观测。
\(T\)：生存时间（连续，如心血管疾病发生时间），可观测但可能被右删失。
\(W\)：协变量向量（可观测，如年龄、吸烟状态）。
\(C\)：删失时间（可观测）。
\(\beta_A, \beta_M\)：Cox 模型中暴露与中介的回归系数（对数风险比尺度），是要估的参数。
\(\alpha_A\)：中介模型（线性回归 \(M\) on \(A, W\)）中暴露的回归系数，是要估的参数。
NIE：自然间接效应，在 Cox 稀有结局下定义为 \(\exp(\alpha_A \beta_M)\)（乘积系数法）。
NDE：自然直接效应，在 Cox 稀有结局下定义为 \(\exp(\beta_A)\)。
可观测数据：在主研究中，观测到 \((A^*, M, T, C, W)\)；在验证研究中，观测到 \((A, A^*, M, T, C, W)\)（即真实暴露 \(A\) 可被观测）。验证研究用于估计测量误差模型参数 \((\gamma_0, \gamma_1, \sigma_\epsilon^2)\)。

第二步：最小内核——稀有结局且无交互下的偏倚公式

剥掉所有时变暴露、常见结局、交互项的复杂性，最小内核是：在 Cox 模型下，稀有结局且无暴露-中介交互时，用误差暴露 \(A^*\) 替代真实暴露 \(A\) 估计 NIE 与 NDE，偏倚是什么？

模型设定：
中介模型：\(M = \alpha_0 + \alpha_A A + \alpha_W W + \epsilon_M\)
结局模型（Cox）：\(h(t | A, M, W) = h_0(t) \exp(\beta_A A + \beta_M M + \beta_W W)\)（无交互项 \(\beta_{AM}\)）
测量误差：\(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\)
要证的命题（偏倚公式）：用 \(A^*\) 替代 \(A\) 拟合中介模型与 Cox 模型，得到 \(\hat{\alpha}_A^*\) 与 \(\hat{\beta}_M^*\)。它们的渐近极限是什么？偏倚如何表达？
证明怎么走（直觉）：
中介模型中用 \(A^*\) 替代 \(A\)：由于 \(A^* = \gamma_1 A + \text{noise}\)，经典测量误差下，\(\hat{\alpha}_A^*\) 的渐近极限为 \(\alpha_A / \gamma_1\)（衰减偏倚，attenuation bias）。
Cox 模型中用 \(A^*\) 替代 \(A\) 且包含 \(M\)：由于 \(M\) 依赖 \(A\)，\(A^*\) 与 \(M\) 在条件于 \(W\) 下不独立。\(A^*\) 对 \(T\) 的效应被 \(M\) 部分捕获，导致 \(\hat{\beta}_M^*\) 的渐近极限偏离 \(\beta_M\)。作者证明：在稀有结局下，\(\hat{\beta}_M^*\) 的渐近极限为 \(\beta_M \gamma_1 + \beta_A \alpha_A (1 - \gamma_1) / \gamma_1\)（偏倚包含直接效应 \(\beta_A\) 的污染）。
NIE 估计 \(\exp(\hat{\alpha}_A^* \hat{\beta}_M^*)\) 的渐近极限：乘积 \(\hat{\alpha}_A^* \hat{\beta}_M^*\) 的极限为 \(\alpha_A \beta_M + \alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\)。偏倚项为 \(\alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\)，方向取决于 \(\gamma_1\)（若 \(\gamma_1 < 1\)，偏倚为正，NIE 被高估）。
NDE 估计 \(\exp(\hat{\beta}_A^*)\) 的渐近极限：\(\hat{\beta}_A^*\) 的极限为 \(\beta_A / \gamma_1\)（衰减偏倚）。
为什么成立：稀有结局假设使得 Cox 模型的风险比近似于 logistic 回归的 odds ratio，从而可以利用 Cheng et al. (2023) 二值结局的偏倚公式结果（作者在文中明确指出：Theorem 1 的偏倚公式与 Cheng et al. 2023 的二值结局公式完全一致）。无交互假设使得偏倚公式可解析推导；有交互时，偏倚公式变得复杂，作者转而依赖数值校准。

三、这篇论文做了什么¶

三句话： ①研究了 Cox 回归中介分析中暴露测量误差对 NIE 与 NDE 估计的偏倚影响与校正方法。 ②核心工具是解析偏倚公式推导（稀有结局下）与风险集回归校准（RRC）/似然校准（常见结局与有交互下）。 ③主要结论是：未校正测量误差会低估中介效应（在 HPFS 实例中），而 RRC 与似然校准能有效校正偏倚并恢复真实效应。

关键设定与假设： - 主研究/外部验证研究设计：主研究观测 \((A^*, M, T, C, W)\)，外部验证研究观测 \((A, A^*, M, T, C, W)\)。假设验证研究的参数可运输至主研究（transportability assumption，引用 Yi et al. 2015：\(P(A, M, T, C | A^*, W)\) 在验证与主研究中相同）。 - 经典测量误差模型：\(A^* = \gamma_0 + \gamma_1 A + \epsilon_A\)，\(\epsilon_A\) 与 \(A, M, T\) 独立。相比已有文献（如 Liao et al. 2018 允许时变测量误差），本文限缩在时不变暴露。 - 稀有结局假设（用于偏倚公式）：结局发生率低，使得 Cox 风险比近似 odds ratio。相比 VanderWeele (2011) 的同一假设，本文进一步利用它推导偏倚公式。 - 无暴露-中介交互假设（用于偏倚公式）：Cox 模型中 \(\beta_{AM} = 0\)。在推广情形中放松此假设。 - 比例风险假设：Cox 模型标准假设，未放松。

主要结果： - Theorem 1（偏倚公式）：在稀有结局且无交互下，用 \(A^*\) 替代 \(A\) 估计 NIE 与 NDE 的渐近偏倚为： - NIE 对数尺度偏倚：\(\alpha_A \beta_A (1 - \gamma_1) / \gamma_1^2\) - NDE 对数尺度偏倚：\(\beta_A (1 - \gamma_1) / \gamma_1\) - 直觉：NIE 偏倚包含直接效应 \(\beta_A\) 的污染，因为误差暴露 \(A^*\) 无法完全分离直接与间接路径；NDE 偏倚为经典衰减偏倚。 - 必要条件：稀有结局、无交互、经典测量误差、线性中介模型。 - 解决的技术难点：在 Cox 模型下推导包含中介的测量误差偏倚，需处理 \(A^*\) 与 \(M\) 的相关性导致的“路径污染”。

校正方法（RRC 与似然校准）：
回归校准（RC）：用验证研究估计的 \(\hat{\gamma}_0, \hat{\gamma}_1\) 计算 \(E[A | A^*, W]\)，替代 \(A\) 进入中介与 Cox 模型。在稀有结局下有效，但在常见结局下偏倚较大。
风险集回归校准（RRC）：在每个风险集内重新校准 \(E[A | A^*, W, T > t]\)，适配时变风险结构。引用 Liao et al. (2011, 2018) 的思路，但扩展至中介模型。在常见结局下有效。
似然校准：基于测量误差模型的完整似然，联合估计中介参数与 Cox 参数。理论上更优，但计算复杂。
推广至有交互与常见结局：偏倚公式不再解析可推，作者转而依赖 RRC 与似然校准的数值校正，并通过模拟验证。

证明路线与技术技巧： - 整体路线： 1. 建立中介模型 + Cox 模型 + 测量误差模型的联合结构。 2. 在稀有结局且无交互下，利用 Cox 近似 logistic 的性质，将生存结局偏倚问题转化为二值结局偏倚问题（直接调用 Cheng et al. 2023 的结果）。 3. 推导 \(\hat{\alpha}_A^*, \hat{\beta}_M^*, \hat{\beta}_A^*\) 的渐近极限，得到偏倚公式。 4. 开发 RRC 方法：在每个风险集内，用验证数据估计 \(E[A | A^*, W, T > t]\)，替代 \(A\) 进入 Cox 模型。 5. 开发似然校准方法：写出 \(P(T, M, A^* | W)\) 的似然，积分掉 \(A\)，联合估计所有参数。 6. 用 sandwich 估计量计算 RRC 估计量的方差，考虑验证数据参数的不确定性。

关键跳跃点：
从生存结局偏倚推导跳跃至二值结局偏倚公式的直接借用（稀有结局假设下的近似）。这是本文最省力的一步，但也最依赖稀有假设。
RRC 方法中，条件期望 \(E[A | A^*, W, T > t]\) 的估计：由于 \(T > t\) 条件改变了 \(A\) 的分布（选择偏倚），需在风险集内重新拟合测量误差模型。这是 Liao et al. 2011 的核心技巧，本文将其迁移至中介设定。
技术技巧点名：
风险集回归校准（RRC）：用于校正 Cox 模型中时变暴露测量误差，在每个风险集内重新校准，解决选择偏倚。
Sandwich 方差估计：用于计算 RRC 估计量的方差，考虑验证数据参数的抽样不确定性，引用 Liao et al. 2011 的推导框架。
似然积分：在似然校准中，将真实暴露 \(A\) 从联合似然中积分掉，得到 \(P(T, M, A^* | W)\) 的边际似然。
Transportability 假设：确保验证研究的测量误差模型参数可运输至主研究，引用 Yi et al. 2015。

真实例子与应用： - 数据：Health Professionals Follow-up Study (HPFS), 1986-2016，约 44,000 名男性健康专业人员。 - 场景：评估身体活动（VPA, 暴露 \(A\)）通过降低 BMI（中介 \(M\)）对心血管疾病（CVD, 结局 \(T\)）的中介效应。VPA 通过问卷测量（误差暴露 \(A^*\)），BMI 为客观测量（无误差），CVD 为生存结局。 - 怎么用上去： - 主研究：用问卷 VPA (\(A^*\))、BMI (\(M\))、CVD 时间 (\(T\)) 拟合中介与 Cox 模型。 - 验证研究：引用 Chomistek et al. 2012 的子研究，其中 VPA 有客观测量（加速度计），用于估计测量误差模型参数 \(\gamma_1\)。 - 分别用未校正、RC、RRC、似然校准方法估计 NIE 与 NDE。 - 得到什么结果： - 未校正时，NIE 的对数尺度估计偏小（衰减偏倚），中介比例被低估。 - RRC 与似然校准后，NIE 估计增大，中介比例恢复至约 30-40%（与无误差理论值一致）。 - 想说明什么：验证 RRC 与似然校准在真实数据中能有效校正测量误差偏倚，且未校正会导致实质性结论错误（中介效应被低估）。

🔎 结论是否比证明窄： - 作者在 Theorem 1 中严格证明了稀有结局且无交互下的偏倚公式，但在推广至常见结局与有交互时，仅通过模拟验证 RRC 与似然校准的有效性，未给出渐近理论证明。文中明确写："We generalize our methods to accommodate a common outcome and an exposure–mediator interaction"，但未给出对应的定理陈述与证明。这是一个证明窄于声明的地方。 - 作者声称 RRC 在常见结局下有效，但仅基于模拟，未给出偏倚的渐近阶或收敛速率。

四、开放问题（点到为止，扎根具体语句）¶

常见结局与有交互下 RRC/似然校准的渐近理论：要证什么？——RRC 估计量在常见结局且存在暴露-中介交互下的渐近偏倚阶与收敛速率。扎根在本文 Section 4 "We generalize our methods to accommodate a common outcome and an exposure–mediator interaction" 但未给出定理证明的缺口。
内部验证研究设计下的校正方法：要估什么？——当验证数据嵌套在主研究内（internal validation），如何利用子集的 \((A, A^*)\) 信息构造半参数有效估计量？扎根在本文仅考虑外部验证研究（transportability assumption from Yi et al. 2015），未触及内部验证。
非参数/半参数中介估计下的测量误差偏倚与校正：要证什么？——当中介模型与结局模型不假设参数形式（如半参数影响函数估计），暴露测量误差对 NIE 估计的偏倚是否仍可解析表达？扎根在本文完全依赖参数 Cox + 线性中介模型，且 intro 中未引用 Robins/Vansteelandt 的半参数中介文献。
时变暴露与时变中介的测量误差校正：要估什么？——当暴露与中介随时间变化且均有测量误差时，如何在纵向生存数据中校正中介效应偏倚？扎根在本文限缩在时不变暴露，且 Liao et al. 2018 的 RRC 仅针对时变暴露总效应，未触及时变中介分解。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Correcting for bias due to mismeasured exposure in mediation analysis with a survival outcome¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论