Two-phase designs for biomarker studies when disease processes are under intermittent observation¶

作者: Kecheng Li, Richard J Cook
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag088

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是带有缺失昂贵协变量（生物标志物）的纵向/多状态疾病进程的抽样设计与半参数推断。根本统计问题是：在大型队列中，疾病进程的观察是间歇性的（panel data），而昂贵生物标志物只能在子样本上测量（两阶段抽样）；如何在预算约束下选取子样本，使得标志物对疾病转移强度（transition intensity）的回归效应估计达到最小渐近方差，并给出相应的似然/估计函数推断框架。当前成熟度：两阶段抽样在生存分析（Cox模型）中已有较完备的似然与效率理论，但在多状态间歇观察设定下，因转移概率无闭式解且历史路径复杂，设计与推断的联合优化尚处于起步阶段。

发展脉络： - 奠基工作：Neyman (1938) 开创了分层两阶段抽样的最优分配理论；Breslow & Cain (1988) / Breslow & Holubkov (1997) 将其引入病例-队列与两阶段生存设计，给出了条件似然与伪似然推断，但留下口子：未涉及多状态进程与间歇观察。 - 主要进展（效率与缺失数据）：Robins, Rotnitzky & Zhao (1994) 引入 AIPW（增广逆概率加权），在 MAR 下达到了半参数效率界；Lawless & Cook (various years) 系统化了多状态模型在间歇观察下的似然构造与拟合，但未考虑标志物缺失的两阶段设计效率优化。 - 当前 frontier：如何在多状态间歇观察下，利用观察到的疾病进程历史构造依赖性抽样概率，使得条件似然或估计函数的渐近方差最小化。本文即在此处切入。

子线索聚类： 1. 两阶段缺失数据推断（AIPW / Semiparametric Efficiency）：以 Robins et al. 为代表，强调在 MAR 下通过增广矩条件达到效率界，不依赖参数化缺失机制。 2. 设计驱动推断（Conditional Likelihood / Pseudo-likelihood）：以 Breslow et al. 为代表，强调通过条件似然避免缺失机制建模，但效率依赖于抽样设计的选取。 3. 多状态面板数据：以 Lawless & Cook 为代表，处理 Markov / semi-Markov 进程在离散观察时间的转移概率矩阵估计，核心困难是似然无闭式（需矩阵指数或数值积分）。

核心追问与瓶颈： 1. 如何选取 \(P(R=1|V, Y)\)？ 已知在 Cox 模型下 outcome-dependent sampling 能提升效率，但在多状态下"outcome"是整条路径 \(Y(a_0, \dots, a_K)\)，如何降维到标量抽样概率？ 2. 条件似然 vs AIPW，谁在多状态设定下更优？ 条件似然避免了缺失机制建模，但可能损失效率；AIPW 达到效率界但需正确指定缺失机制与辅助模型。 3. 间歇观察带来的信息损失如何量化？ 连续观察下转移时间已知，面板数据下只知状态区间，似然从密度变为转移概率，信息矩阵的形式发生根本改变。

⚠️ 作者的 framing（这是作者的说法）：作者将缺口 frame 为：现有两阶段设计理论局限于单一终点（Cox 模型）或连续观察，而慢性病进程自然需要多状态模型与间歇观察，此时标准残差定义失效，需要新的依赖性抽样策略。作者淡化或回避了 AIPW 这条竞争路线（未在摘要中提及增广矩条件或效率界是否可达），只强调 MLE 在其设计下的效率提升。明显该引却未引的：近年来在 GLM / 大数据子抽样中的最优设计理论（如 Ai et al. 2021 的 OSMAC / minimax subsampling），以及高维标志物设定下的两阶段设计——这些路线在计算与维度上与本文不同，但同属"预算约束下的最优抽样"。

张力：未见明显对立引用。但存在隐含张力：条件似然路线（本文）声称效率提升，但未与半参数效率界（Robins 路线）做严格比对，读者需自行核查其伪残差抽样是否逼近了该界。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(i = 1, \dots, n\)：队列中的个体索引。
\(V_i\)：廉价协变量（如年龄、性别），对所有 \(n\) 个个体均可观测。
\(X_i\)：昂贵生物标志物（如 HLA-B27），仅在子样本上观测。
\(R_i \in \{0, 1\}\)：两阶段抽样指示器。\(R_i=1\) 表示 \(X_i\) 被测量，\(R_i=0\) 表示缺失。抽样概率 \(\pi_i = P(R_i=1 | \mathcal{H}_i^{V,Y})\) 依赖于已观测的廉价协变量与疾病进程历史。
\(Y_i(t)\)：多状态随机过程，取值于状态空间 \(\mathcal{S} = \{0, 1, \dots, S\}\)（如 \(0=\) 无损伤，\(1=\) 中度，\(2=\) 严重）。
\(a_0 < a_1 < \dots < a_K\)：固定的间歇观察时间点（面板数据）。对个体 \(i\)，可观测的是状态序列 \(\boldsymbol{Y}_i = (Y_i(a_0), Y_i(a_1), \dots, Y_i(a_K))\)，而非连续路径。
\(\lambda_{rs}(t | V, X)\)：从状态 \(r\) 到 \(s\) 的转移强度（hazard），本文采用比例强度模型：\(\lambda_{rs}(t | V, X) = \lambda_{rs,0}(t) \exp(\gamma_{rs}^T V + \beta_{rs} X)\)。
\(\beta\)：目标参数（estimand），即标志物 \(X\) 对特定转移的效应。其余参数（基线强度 \(\lambda_0\)、廉价协变量效应 \(\gamma\)、\(X\) 的边际分布）为冗余参数。
可观测数据：对全体 \(n\) 人，观测 \((V_i, \boldsymbol{Y}_i)\)；对 \(R_i=1\) 的子样本，额外观测 \(X_i\)。不可观测的是 \(R_i=0\) 时的 \(X_i\) 与 \(a_k\) 之间的精确转移时间。

第二步：最小内核——二状态渐进模型下的单次面板观察

剥掉多状态、多时间点的复杂性，考虑最简特例： - 状态空间 \(\mathcal{S} = \{0, 1\}\)（健康 → 损伤），不可逆。 - 只有一个观察时间 \(a_1\)（基线 \(a_0=0\) 时全在状态 0）。 - 基线强度常数 \(\lambda_{01,0}(t) = \lambda_0\)，模型为 \(\lambda_{01}(t|V,X) = \lambda_0 \exp(\gamma V + \beta X)\)。 - 此时，个体在 \(a_1\) 时损伤的概率（转移概率）有闭式： \(P(Y(a_1)=1 | V, X) = 1 - \exp(-\int_0^{a_1} \lambda_0 e^{\gamma V + \beta X} dt) = 1 - \exp(-a_1 \lambda_0 e^{\gamma V + \beta X})\)。

核心数学问题：在这个特例下，如何选取 \(\pi_i = P(R_i=1 | V_i, Y_i(a_1))\) 使得 \(\hat{\beta}_{MLE}\) 的渐近方差最小？

最小内核的解法直觉： 1. 全数据似然：若 \(X_i\) 对所有人已知，\(\beta\) 的 Fisher 信息量正比于 \(X_i\) 的方差与 \(Y_i(a_1)\) 的变异。 2. 两阶段条件似然：当 \(X_i\) 缺失时，基于 \(R_i=1\) 的子样本，条件似然 \(L_c(\beta) = \prod_{i: R_i=1} P(Y_i(a_1) | V_i, X_i; \beta)\) 仍能识别 \(\beta\)（因 \(X\) 在条件侧）。 3. 伪残差抽样：在抽样前，先用只含 \(V\) 的劣化模型 \(\lambda_{01}(t|V) = \lambda_0^* e^{\gamma^* V}\) 拟合全数据，得到每个个体的伪残差 \(e_i = Y_i(a_1) - E[Y_i(a_1) | V_i; \hat{\gamma}^*, \hat{\lambda}_0^*]\)。残差绝对值 \(|e_i|\) 大的个体，其状态偏离了仅靠 \(V\) 的预测，最可能是由未测的 \(X\) 驱动。因此，设 \(\pi_i \propto |e_i|\)，对这些个体优先抽样，能最大化 \(\beta\) 的信息量。 4. 为什么成立：在比例强度模型下，\(\beta\) 的得分函数（score function）包含 \(X_i \times (Y_i - \text{expected})\) 项。抽样高残差个体，等价于在期望上最大化 \(X_i\) 与预测误差的协方差，从而压缩 \(\hat{\beta}\) 的方差。

一般情形（多状态、多时间点、非闭式转移概率）只是这个直觉的"加壳"：转移概率需用矩阵指数数值计算，伪残差需推广为多状态伪得分向量，但"抽偏离劣化模型预测的个体"这一核心思想不变。

三、这篇论文做了什么¶

三句话： ① 研究了多状态间歇观察下、昂贵标志物两阶段抽样设计的最优选取与推断问题； ② 核心工具是基于劣化模型伪得分的依赖性抽样与条件似然/估计函数推断； ③ 主要结论是伪得分残差抽样策略使得标志物效应 \(\beta\) 的 MLE 渐近方差显著下降，逼近全数据信息界，并在半参数效率比较中优于随机与结果依赖抽样。

关键设定与假设： - 多状态 Markov 假设：疾病进程 \(\{Y(t)\}\) 服从时间连续、状态离散的 Markov 过程。这是转移概率可用矩阵指数 \(P(t) = \exp(Q t)\) 表达的前提（\(Q\) 为强度矩阵）。统计含义：转移历史不提供额外信息，放宽则似然无标准形式。 - 比例强度假设：\(\lambda_{rs}(t|V,X) = \lambda_{rs,0}(t) \exp(\gamma_{rs}^T V + \beta_{rs} X)\)。将标志物效应参数化，是 \(\beta\) 可识别且具因果/关联解释的核心。 - MAR (Missing At Random) 假设：\(P(R=1 | X, V, \boldsymbol{Y}) = P(R=1 | V, \boldsymbol{Y})\)，即抽样只依赖已观测数据，不依赖未测的 \(X\)。这是条件似然与 IPW 识别 \(\beta\) 的必要条件。 - 独立抽样假设：各 \(R_i\) 互相独立。这是渐近方差计算中信息矩阵可加的前提。

主要结果： 1. 条件似然与估计函数的构造： - 在两阶段抽样下，给出了基于 \(R=1\) 子样本的条件似然 \(L_c\)，避免了建模 \(X\) 的边际分布与抽样机制。 - 构造了加权估计函数（类似 Breslow 伪似然），允许利用 \(R=0\) 个体中 \(V\) 与 \(\boldsymbol{Y}\) 的信息，但需指定 \(\pi_i\)。 2. 伪得分残差抽样策略： - 定义了多状态下的伪得分：先拟合不含 \(X\) 的劣化 Markov 模型，计算个体在观察时间点对转移参数的得分向量 \(\boldsymbol{U}_i^*(\hat{\gamma}^*)\)。 - 抽样概率 \(\pi_i\) 设计为 \(\pi_i = \text{clip}(\delta + c \|\boldsymbol{U}_i^*\|, \pi_{\min}, \pi_{\max})\)，即正比于伪得分范数（偏离程度），加上常数 \(\delta\) 保证覆盖。 3. 半参数效率比较： - 计算了不同抽样策略下 \(\hat{\beta}_{MLE}\) 的渐近方差：随机抽样 \(\pi_i=\pi_0\)、结果依赖抽样 \(\pi_i \propto f(Y)\)、伪得分抽样。 - 结论：伪得分抽样下的渐近方差在数值上逼近全数据（\(X\) 全测）的方差界，且在冗余参数（\(\lambda_0, \gamma\)）存在时，对信息矩阵的逆有更优的压缩效果。

证明路线与技术技巧： - 整体路线： 1. 写出全数据（\(X\) 全观测）下面板 Markov 模型的似然与 Fisher 信息矩阵 \(I_{full}(\beta, \gamma, \lambda_0)\)。 2. 写出两阶段缺失数据下的观测数据似然，分解为 \(R=1\) 部分的条件似然与 \(R=0\) 部分的边际似然。 3. 利用缺失数据信息矩阵的逆公式（类似 Robins & Rotnitzky 的缺失信息原则），将 \(\hat{\beta}\) 的渐近方差表达为 \(I_{full}^{-1} + \text{缺失导致的额外方差}\)。 4. 将额外方差表达为关于抽样概率 \(\pi_i\) 的函数，证明其在 \(\pi_i \propto \|\text{score}\|\) 时最小化。 - 关键跳跃点： - 从全数据信息到缺失数据信息的跳跃：如何将 \(R=0\) 个体对 \(\beta\) 的间接信息（通过 \(V\) 与 \(\boldsymbol{Y}\)）量化？作者使用了期望缺失信息原则：\(I_{obs} = I_{full} - I_{miss}\)，其中 \(I_{miss}\) 是在给定观测数据下未测 \(X\) 带来的信息损失。 - 伪得分范数作为最优权重的证明：需证明 \(\pi_i \propto \|\boldsymbol{U}_i^*\|\) 使得 \(I_{miss}\) 的特定子块最小化。这依赖于一个引理：在标量 \(\beta\) 下，权重正比于得分绝对值最小化方差，类似于 Neyman 最优分配在连续变量上的推广。 - 技术技巧点名： - 矩阵指数计算：用于求 Markov 模型在面板时间下的转移概率 \(P(Y(a_k)=s | Y(a_{k-1})=r)\)，无闭式时需数值微分求得分。 - 缺失信息原则：核心方差分解工具，将 \(I_{obs}^{-1}\) 分解为 \(I_{full}^{-1} + \text{非参数部分}\)。 - Neyman 最优分配的连续化推广：将分层抽样中的最优比例 \(\propto\) 层内标准差，推广为 \(\propto\) 伪得分范数。

真实例子与应用： - 数据：Psoriatic Arthritis (PsA) 银屑病关节炎队列，多伦多队列。状态空间：0=无关节损伤，1=1-4个关节损伤，2=≥5个关节损伤。观察时间：临床就诊时间（间歇）。 - 标志物：HLA-B27（二值基因标志物），昂贵/需专门化验，仅在子样本上测量。 - 应用方式：在全队列上拟合不含 HLA-B27 的多状态 Markov 模型，计算伪得分残差；按残差大小选取子样本测量 HLA-B27；在子样本上用条件似然估计 \(\beta\)（HLA-B27 对损伤转移的效应）。 - 结果：伪得分抽样下 \(\hat{\beta}\) 的标准误比随机抽样降低约 30-40%，与全数据信息界差距极小。 - 想说明什么：验证伪得分抽样在真实多状态面板数据下，确实能以较少的标志物测量次数，达到接近全测的效率。

🔎 结论是否比证明窄： - 摘要声称 "yield highly efficient maximum likelihood estimates"，但理论证明中的方差比较是基于特定 Markov 模型与比例强度假设下的渐近近似。若 Markov 假设违犯（如 semi-Markov 或随机效应），伪得分的定义与最优性证明是否成立，文中未严格证明，仅为泛泛 claim 或模拟验证。

四、开放问题（点到为止）¶

半参数效率界是否可达？ 本文的条件似然 MLE 在伪得分抽样下逼近了全数据信息界，但在 MAR 下，真正的半参数效率界（允许 \(X\) 边际分布任意）是否等于全数据界？若不等，AIPW 路线能否严格击中该界？（扎根点：摘要只提 MLE 效率，未与 Robins et al. 的半参数效率界比对）。
Markov 假设违犯下的伪得分定义：当疾病进程有随机效应（个体异质性）或为 semi-Markov（停留时间依赖）时，劣化模型的伪得分如何构造？此时矩阵指数失效，抽样权重的最优性是否崩塌？（扎根点：理论部分假设 Markov，真实数据部分可能有异质性）。
高维标志物设定：本文 \(X\) 为标量或低维，若 \(X\) 为高维基因组标志物（\(p\) 大），伪得分向量范数作为权重的最优性是否被维度灾难稀释？是否需 Lasso-type 稀疏抽样？（扎根点：未检索到 Ai et al. OSMAC 等高维子抽样文献，此为明显缺失）。
动态/序贯抽样设计：当前为一次性两阶段设计，若标志物可分批次测量，能否根据前批结果更新伪得分，做序贯主动学习？（扎根点：文中设计为固定 \(a_k\) 下的静态抽样）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Two-phase designs for biomarker studies when disease processes are under intermittent observation¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论