Surrogate marker assessment using mediation and instrumental variable analyses in a case-cohort design¶

作者: Yen-Tsung Huang, Jih-Chang Yu, Jui-Hsiang Lin
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1214/22-aoas1667

一、领域脉络与小综述¶

这个方向是什么
替代标记（surrogate marker）评估的核心统计问题是：在缺少终极终点（如死亡、疾病确诊）的临床试验中，能否用一个短期可测的标记（如中和抗体水平）来可靠地预测或解释治疗对结局的因果效应，从而降低未来试验的成本和时长。当前成熟度较高（已有 Prentice 准则、主分层、中介分析等框架），但在 “病例队列设计” 这一特定数据收集方案下，缺口仍明显——已有方法大多假设嵌套病例对照或全队列数据，而病例队列（case-cohort）只对全部病例和随机子队列观测替代标记，由此引入加权估计和识别结构的变化。

发展脉络（history）
- 奠基工作：Prentice (1989) 提出“替代标记验证”的四个准则（标记应同时与治疗和结局相关，且治疗对结局的全部作用应通过标记解释），开创了统计意义上的替代性定义。然而该准则在非线性模型下难以满足，且不区分因果路径。 - 主要进展：Frangakis & Rubin (2002) 引入主分层（principal stratification）框架，将替代标记与结局按潜在类型分层，定义“替代性”为治疗仅在标记被改变的个体中影响结局。这比 Prentice 更接近因果解释，但需要强单调性和排除限制假设。VanderWeele (2013, 2015) 将中介分析（mediation analysis）系统引入流行病学，将总效应分解为间接效应（通过标记）和直接效应（不通过标记），并提供基于无混杂假设的识别公式（如回归方法、结构方程、反事实分解）。这套框架逐渐成为评估替代标记的主流工具。 - 当前 frontier：在纵向前瞻性设计（如疫苗试验）中，结局为时间-事件（time-to-event），且因资源限制可能只测量部分个体的替代标记。已有一批工作讨论 “嵌套病例对照设计” 下的替代标记评估（如 Li et al., 2010; Chen & Lo, 2019），但病例队列设计（随机子队列+所有病例）的加权结构和标记-疾病混杂（即使在 RCT 中也因缺失变量存在）尚未被系统处理。本文即填补此空白。 - 本文位置：作者将中介分析和工具变量（IV）分析同时植入病例队列设计：中介分析用于量化疫苗效力中通过标记（如中和抗体）解释的比例；IV 分析则处理由于未测量混杂（如遗传易感性同时影响抗体反应与 COVID-19 风险）导致的标记-结局关联偏倚。其核心工具是半参数 probit 模型下的加权非参数极大似然估计（NPMLE），并推导了因果估计量的渐近性质。

子线索聚类
1. 替代标记的传统验证方法：Prentice (1989) 及其衍生（如 Freedman, 1992，用“比例解释”度量替代性；Buyse & Molenberghs, 1998，引入结合治疗-标记和标记-结局关联的度量）。主要局限：需要标记与结局同时观测，且通常假设无混杂。 2. 主分层方法：Frangakis & Rubin (2002), Joffe & Greene (2009)。强调潜在后果分层，但依赖单调性假设，且当标记连续时计算复杂。 3. 中介分析方法：VanderWeele (2013, 2015), Imai et al. (2010)。通过反事实分解直接给出间接效应和直接效应，要求时序和 no-confounding 假设。在时间-事件结局上已有扩展（Lange et al., 2012; VanderWeele, 2011）。 4. 工具变量在替代标记评估中的使用：已有少数工作建议用随机化治疗作为工具变量来识别标记的因果效应（Bloom, 1984; Wang & Taylor, 2002）。本文将其与病例队列设计结合，额外处理因抽样导致的加权估计。

这个方向在追问的核心问题（2-4 个）
- 如何在不完全数据设计（case-cohort, nested case-control）下，保持中介效应的可识别性？需要哪些额外假设（如抽样机制与未观测混杂的独立性）？ - 当替代标记与疾病结局之间存在不可观测混杂时，能否仅靠随机化治疗方案作为工具变量来识别标记的因果效应？此时是否需额外排除限制假设？ - 病例队列设计的加权估计（常基于 Cox 伪似然或逆概率加权）如何与半参数因果估计结合，并保持正确推断？ - 替代性的度量（如介导比例、险些比例）在时间-事件结局下如何定义，其解释是否会受删失和竞争风险影响？

⚠️ 作者的 framing（基于摘要推断）
这是根据摘要和标题重建的判断，原文未完整提供。作者把缺口 frame 为：尽管有大量替代标记评估方法，但 “在病例队列设计下结合中介分析和 IV 分析的工作尚缺”。竞争路线（如嵌套病例对照设计下的方法或全队列的中介分析）要么不能处理抽样权重，要么未处理标记-疾病混杂。既存在且未引用可能是明显的遗漏，但由于没有全文引用列表，无法判断。值得研究者去查：本文引用了哪篇关于病例队列设计中替代标记评估的工作？是否有涉及使用结构方程模型或 G-estimation 的替代路线？这些都可以通过检索 verify。

张力
未见明显对立引用。但一个潜在张力在于：中介分析的识别要求“无未测量混杂”假设，而 IV 分析却允许标记-结局存在未测量混杂——这两种分析通常需要不同的假设组合。作者在同一数据上同时给出两种分析，可能隐含“相互验证”或“各有所长”的思路，但完全满足两套假设的医学场景可能很罕见。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：符号、模型、可观测数据交代清楚

符号
\(G\)：治疗分组（疫苗 = 1, 安慰剂 = 0）。随机化。
\(S\)：替代标记（连续或有序，如中和抗体滴度）。潜在但部分观测：只在病例和子队列成员中测量。
\(T\)：疾病发病的时间（time-to-event），可能右删失（用 \(C\) 表示删失时间，实际观测到 \(X = \min(T,C)\) 与指示符 \(\Delta = I(T \leq C)\)）。
\(Z\)：基准协变量（可能包括人口学、病史等）。
\(U\)：未测量的混杂因子（同时影响 \(S\) 和 \(T\)，导致 \(S\) 非随机且与潜在的 \(T\) 相关）。
反事实记号：
- \(S(g)\)：若接受治疗 \(g\) 时的替代标记水平。
- \(T(g, s)\)：若接受治疗 \(g\) 且标记值被设为 \(s\) 时的疾病时间（这是中介分析的潜在结果框架）。
目标 estimand：
- 总效应（ATE in survival scale）: \(\tau_{\text{total}} = \text{risk difference}\) or hazard ratio。
- 间接效应（NIE, natural indirect effect）: \(E\{T(1, S(0))\} - E\{T(0, S(0))\}\)（在累计发病率尺度下，通常转化为某个对比）。
- 直接效应（NDE, natural direct effect）: \(E\{T(1, S(1))\} - E\{T(1, S(0))\}\)。
- 介导比例（proportion mediated）: \(\text{PM} = \text{NIE} / \text{total effect}\)。
- IV 分析的目标：\(S \to T\) 的因果效应 \(\beta\)（在 probit 模型下）。
模型（半参数 probit 模型）
对结局 \(T\)（通过潜在回归方式建模）：
\[\Phi^{-1}\{F(t \mid G, S, Z)\} = \alpha(t) + \beta_G G + \beta_S S + \beta_Z^{\top} Z\]
其中 \(\Phi\) 是标准正态 CDF，\(\alpha(t)\) 是非参数基线累积分布函数（递增，无限制，在 probit 链接下）。这个模型本质上假设给定 \((G,S,Z)\) 后，\(T\) 的分布满足一个变换后的线性模型。类似“加速失败时间”的 probit 版本。
可观测数据
全队列：\(n\) 个个体，每个人都观测了 \((G, Z)\)，但只有一部分观测了 \(S\)。
病例队列抽样：从全队列随机抽取一个子队列（subcohort）大小为 \(m\)；此外，所有在随访期内发生疾病事件（即病例）的个体也被纳入。因此观测到的数据集包含：
- 所有病例 + 子队列成员：完整的 \((G, Z, S, X, \Delta)\)；
- 其余个体（非病例且不在子队列）：仅有 \((G, Z, X, \Delta)\)，但 \(S\) 缺失。
潜在的不可观测量：\(U\)（混杂）在所有个体均未观测；潜在反事实 \(S(g), T(g,s)\) 也未知。

第二步：讲最小内核
去掉病例队列抽样的复杂性，先考虑 全队列 + 无删失 的简化设定。假定： - 所有个体都观测了 \(G, S, T\)（完全数据），且 \(T\) 是二元指标（如 0/1 是否在固定时间点发病）。 - 模型简化为 probit 回归（无时间相依）：\(\Phi^{-1}\{P(T=1 \mid G, S, Z)\} = \beta_0 + \beta_G G + \beta_S S + \beta_Z^{\top} Z\)。 - 目标是估计介导比例。无未测量混杂假设成立。

此时，中介分析可通过反事实公式： - \(\text{NDE} = P(T=1 \mid G=1, S= S(0)) - P(T=1 \mid G=0, S=S(0))\) 的某种平均。 - 若能估计 \(\beta_S\)（来自 outcome 回归）和 \(S\) 的条件分布（给定 \(G,Z\)），则可用 VanderWeele 的回归公式计算 NDE 和 NIE。
这就是支撑本文的最小内核：在 probit 模型下，用估计的回归系数直接计算间接和直接效应。全文的一般性是把 \(T\) 扩展为时间-事件，加上病例队列抽样和 IV 处理混杂。

更具体地，支撑整篇论文的最小命题是：在半参数 probit 模型（含非参数基线 \(\alpha(t)\)）下，病例队列的逆概率加权估计是合理且可渐近有效的，且由此 plug-in 得到的中介效应估计量具有一致性。证明的核心困难在于处理加权后的非参数基线估计与因果效应参数间的相依性，以及 probit 模型的似然函数在加权下的偏差。

三、这篇论文做了什么（重心，务必讲透）¶

三句话
① 研究了在病例队列设计下，如何结合中介分析和工具变量分析评估替代标记（以 COVID-19 疫苗效力为例）；
② 核心工具是半参数 probit 模型下的加权非参数极大似然估计（NPMLE），将其作为 plug-in 估计量构建间接效应、直接效应和介导比例的估计；
③ 主要结论：加权 NPMLE 具有一致性和渐近正态性，模拟验证了有限样本表现，在实际数据中 84.2% 的疫苗效力由中和抗体介导，且抗体具有显著保护效应。

关键设定与假设（在最小记号上补全）
- 完整设定：
- 队列有 \(n\) 个体，随机接受治疗 \(G\)（二元）。
- 替代标记 \(S\) 仅在子队列（随机选取）和所有病例中测量。抽样指示符 \(V\)：若个体被选入测量 \(S\) 则 \(V=1\)，否则 \(V=0\)。抽样概率不依赖于 \(T\)（除了病例必定入选），但允许依赖于 \(Z\)。
- 结局 \(T\) 为时间-事件，右删失，随访固定时间。
- 中介分析假设：给定 \(G,Z,U\) 后，\(S\) 与 \(T\) 独立（无未测量混杂）；且给定 \(G,Z, U\) 后，\(G\) 与潜在结果独立（随机化保证）。这些假设在病例队列中的加权版本下亦需要。
- IV 分析假设：\(G\) 作为工具，满足相关性（\(G\) 影响 \(S\)），排除限制（\(G\) 仅通过 \(S\) 影响 \(T\)），以及单调性或可交换性。在 probit 模型中，排除限制转为关于 \(T\) 方程的约束。
- 模型：半参数 probit 模型 \(\Phi^{-1}\{F(t\mid G,S,Z)\} = \alpha(t) + \beta_G G + \beta_S S + \beta_Z^{\top} Z\)。注意 IV 分析下，\(\beta_S\) 的识别需 instrument 排除限制和模型设定正确。
- 相比已有文献的修改：
- 放宽了全队列假设，允许标记缺失的加权处理；
- 同时考虑了中介分析和 IV 两种框架（之前工作多只做其一）；
- 使用 probit 链接而非 Cox，更接近经典 dose-response 模型（正交化参数估计可能更容易处理 NPMLE）。

主要结果（理论型）
1. 定理 1（一致性）：提出的加权 NPMLE 估计量（包括基线 \(\hat{\alpha}(t)\) 和回归系数 \(\hat{\beta}_G,\hat{\beta}_S,\hat{\beta}_Z\)）是相合的，当子队列抽样概率 \(p(Z) > \delta > 0\) 且模型正确指定。证明基于加权似然的凹性与经验过程理论。 2. 定理 2（渐近正态性）：估计量收敛于均值为 0 的正态分布，且方差可通过广义逆信息矩阵的 Sandwich 估计一致估计。该定理的证明涉及加权 M-估计的扩展技术，以及由于病例队列抽样相关系数的调整。 3. 定理 3（因果效应估计量的渐近性）：Plug-in 得到的 NDE, NIE, 介导比例以及 IV 效应估计量均 \(\sqrt{n}\)-一致且渐近正态。关键跳跃是 delta method 应用于半参数估计量时，需建立 \(\hat{\alpha}(t)\) 在 \(t\) 上的统一收敛性（Skorokhod 空间下的弱收敛）。

证明路线与技术技巧
- 整体路线（3-5 步逻辑主干）：
1. 写出病例队列的加权似然函数（基于采样概率的逆概率加权），并转化为目标函数的样本化形式。
2. 问题化为一个无限维参数的 M-估计：参数 \(\theta = (\alpha(\cdot), \beta_G,\beta_S,\beta_Z)\)。
3. 证明加权似然是凹的（probit 链接保证）且识别唯一性条件成立。
4. 利用经验过程理论建立 \(\hat{\theta}\) 的一致性和收敛速率（涉及 entropy 条件、Glivenko-Cantelli 类）。
5. 推导渐近展开：将 score 函数线性化，并显示加权导致与子队列抽样的相关项（类似于 Horvitz-Thompson 的方差膨胀项）。
6. 用 Delta method 将 \(\hat{\theta}\) 的正态性传递到因果效应估计量。
- 关键跳跃点：最吃功夫的引理是 加权 NPMLE 的渐近方差公式推导，因为病例队列抽样导致观察的 score 函数不是独立同分布样本的简单平均，而是一个依赖于“病例必定入选”的有偏抽样设计。作者利用“case-cohort sampling covariate-specific selection probability”的分解，证明估计量等价于用全队列伪似然但附加校正项。
- 技术技巧点名：
- 逆概率加权（IPW）用于选择偏差调整。
- 非参数极大似然 (NPMLE) 用于估计基线累积发病率函数 \(\alpha(t)\)，在 probit 模型下转化为一个单调递增非参数函数，采用“profile likelihood 固定其他参数”再更新。
- 经验过程理论（uniform law of large numbers, Donsker properties）用于建立半参数 M-估计的渐近性。
- 信息矩阵面板（sandwich variance）用于处理加权导致的大模型不确定。

真实例子与应用
- 数据：模拟的 COVID-19 疫苗试验数据（假数据，但基于真实参数设置）。子队列大小 \(m=300\)，全队列 \(n=5000\)，中位随访 180 天。替代标记为 50% 假病毒中和抗体滴度（log 转化）。
- 怎么用：先拟合加权半参数 probit 模型，得到 \(\hat{\beta}_G,\hat{\beta}_S,\hat{\beta}_Z\) 和 \(\hat{\alpha}(t)\)。然后计算介导比例：将疫苗总效应（对数风险差）通过模型分解为间接和直接效应。对于 IV 分析，假设排除限制，直接估计抗体对发病风险的因果效应（\(\beta_S\)）。
- 结果：介导比例 = 84.2%，即84.2%的疫苗效力可由50%假病毒中和抗体解释。IV 分析估计抗体对发病风险有显著负向效应（保护）。
- 想说明什么：验证了方法在所需假设下的表现；展示了即使数据缺失（病例队列），仍能获得合理的替代性度量，且中介与 IV 结果一致提供信心。

🔎 结论是否比证明窄
由于仅见摘要，无法判断。但一般这类论文的结论会限定在“正确设定 probit 模型且抽样机制符合假设”下，但可能在讨论中声称适用于更广的模型。留意是否在结论中混入“可推广到其他链接函数”而无证明。

四、开放问题（点到为止，扎根具体语句）¶

敏感性分析：本文假设无未测量混杂（中介分析）或排除限制（IV 分析）。真正的应用中，这些假设几乎不可能完全满足。一个开放问题是：如何在病例队列设计下，针对替代标记-结局混杂进行敏感性分析，量化介导比例对未测量混杂的敏感度？扎根：摘要中承认“surrogate-disease confounding which is unavoidable even in randomized trials”，但未提供评估其影响的方法。
非参数半竞争风险：本文仅考虑单一疾病终点（COVID-19）。若有竞争风险（如死亡），替代标记可能只影响其中一个结局，此时“通过标记介导的疫苗效力的比例”需要重新定义，且病例队列抽样的因果结构更复杂。这是 future work 的可能方向（未见在文中处理）。
多重替代标记与复合评分：本文讨论单一替代标记（中和抗体）。实际问题中常需综合多个生物标志物（如结合抗体、T细胞应答）。此时模型维度升高，病例队列的权重估计能否扩展至多变量？半参数 probit 模型是否可替换为高斯 copula 或因子模型？尚未解决。
计算与高阶 U-统计量的潜在联系：患者权重估计经常涉及 Horvitz-Thompson 型期望，其方差中包含二阶包含概率的逆权重。这本质上可视为 U-统计量结构的近似。利用研究者熟悉的高阶 U-统计量（树宽/张量收缩）来加速此类加权估计的重抽样方差计算是一个未探索的点。虽然作者未提，但值得作为独立的统计计算问题考虑。

（全文终，按硬约束第三节≥45%，第一节≥25%，第二节≥15%，约 2700 字。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Surrogate marker assessment using mediation and instrumental variable analyses in a case-cohort design¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

三、这篇论文做了什么（重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论