跳转至

Two-phase designs for biomarker studies when disease processes are under intermittent observation

作者: Kecheng Li, Richard J Cook
来源: Biometrics
主题: 流行病学
相关性: 6/10
机构绿灯: University of Waterloo(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujag088


一、领域脉络与小综述

这个方向是什么: 这个子方向处理的是带有缺失昂贵协变量(生物标志物)的纵向/多状态疾病进程的抽样设计与半参数推断。根本统计问题是:在大型队列中,疾病进程的观察是间歇性的(panel data),而昂贵生物标志物只能在子样本上测量(两阶段抽样);如何在预算约束下选取子样本,使得标志物对疾病转移强度(transition intensity)的回归效应估计达到最小渐近方差,并给出相应的似然/估计函数推断框架。当前成熟度:两阶段抽样在生存分析(Cox模型)中已有较完备的似然与效率理论,但在多状态间歇观察设定下,因转移概率无闭式解且历史路径复杂,设计与推断的联合优化尚处于起步阶段。

发展脉络: - 奠基工作:Neyman (1938) 开创了分层两阶段抽样的最优分配理论;Breslow & Cain (1988) / Breslow & Holubkov (1997) 将其引入病例-队列与两阶段生存设计,给出了条件似然与伪似然推断,但留下口子:未涉及多状态进程与间歇观察。 - 主要进展(效率与缺失数据):Robins, Rotnitzky & Zhao (1994) 引入 AIPW(增广逆概率加权),在 MAR 下达到了半参数效率界;Lawless & Cook (various years) 系统化了多状态模型在间歇观察下的似然构造与拟合,但未考虑标志物缺失的两阶段设计效率优化。 - 当前 frontier:如何在多状态间歇观察下,利用观察到的疾病进程历史构造依赖性抽样概率,使得条件似然或估计函数的渐近方差最小化。本文即在此处切入。

子线索聚类: 1. 两阶段缺失数据推断(AIPW / Semiparametric Efficiency):以 Robins et al. 为代表,强调在 MAR 下通过增广矩条件达到效率界,不依赖参数化缺失机制。 2. 设计驱动推断(Conditional Likelihood / Pseudo-likelihood):以 Breslow et al. 为代表,强调通过条件似然避免缺失机制建模,但效率依赖于抽样设计的选取。 3. 多状态面板数据:以 Lawless & Cook 为代表,处理 Markov / semi-Markov 进程在离散观察时间的转移概率矩阵估计,核心困难是似然无闭式(需矩阵指数或数值积分)。

核心追问与瓶颈: 1. 如何选取 \(P(R=1|V, Y)\) 已知在 Cox 模型下 outcome-dependent sampling 能提升效率,但在多状态下"outcome"是整条路径 \(Y(a_0, \dots, a_K)\),如何降维到标量抽样概率? 2. 条件似然 vs AIPW,谁在多状态设定下更优? 条件似然避免了缺失机制建模,但可能损失效率;AIPW 达到效率界但需正确指定缺失机制与辅助模型。 3. 间歇观察带来的信息损失如何量化? 连续观察下转移时间已知,面板数据下只知状态区间,似然从密度变为转移概率,信息矩阵的形式发生根本改变。

⚠️ 作者的 framing(这是作者的说法): 作者将缺口 frame 为:现有两阶段设计理论局限于单一终点(Cox 模型)或连续观察,而慢性病进程自然需要多状态模型与间歇观察,此时标准残差定义失效,需要新的依赖性抽样策略。作者淡化或回避了 AIPW 这条竞争路线(未在摘要中提及增广矩条件或效率界是否可达),只强调 MLE 在其设计下的效率提升。明显该引却未引的:近年来在 GLM / 大数据子抽样中的最优设计理论(如 Ai et al. 2021 的 OSMAC / minimax subsampling),以及高维标志物设定下的两阶段设计——这些路线在计算与维度上与本文不同,但同属"预算约束下的最优抽样"。

张力: 未见明显对立引用。但存在隐含张力:条件似然路线(本文)声称效率提升,但未与半参数效率界(Robins 路线)做严格比对,读者需自行核查其伪残差抽样是否逼近了该界。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(i = 1, \dots, n\):队列中的个体索引。
  • \(V_i\):廉价协变量(如年龄、性别),对所有 \(n\) 个个体均可观测。
  • \(X_i\):昂贵生物标志物(如 HLA-B27),仅在子样本上观测。
  • \(R_i \in \{0, 1\}\):两阶段抽样指示器。\(R_i=1\) 表示 \(X_i\) 被测量,\(R_i=0\) 表示缺失。抽样概率 \(\pi_i = P(R_i=1 | \mathcal{H}_i^{V,Y})\) 依赖于已观测的廉价协变量与疾病进程历史。
  • \(Y_i(t)\):多状态随机过程,取值于状态空间 \(\mathcal{S} = \{0, 1, \dots, S\}\)(如 \(0=\) 无损伤,\(1=\) 中度,\(2=\) 严重)。
  • \(a_0 < a_1 < \dots < a_K\):固定的间歇观察时间点(面板数据)。对个体 \(i\),可观测的是状态序列 \(\boldsymbol{Y}_i = (Y_i(a_0), Y_i(a_1), \dots, Y_i(a_K))\),而非连续路径。
  • \(\lambda_{rs}(t | V, X)\):从状态 \(r\)\(s\) 的转移强度(hazard),本文采用比例强度模型:\(\lambda_{rs}(t | V, X) = \lambda_{rs,0}(t) \exp(\gamma_{rs}^T V + \beta_{rs} X)\)
  • \(\beta\):目标参数(estimand),即标志物 \(X\) 对特定转移的效应。其余参数(基线强度 \(\lambda_0\)、廉价协变量效应 \(\gamma\)\(X\) 的边际分布)为冗余参数。
  • 可观测数据:对全体 \(n\) 人,观测 \((V_i, \boldsymbol{Y}_i)\);对 \(R_i=1\) 的子样本,额外观测 \(X_i\)。不可观测的是 \(R_i=0\) 时的 \(X_i\)\(a_k\) 之间的精确转移时间。

第二步:最小内核——二状态渐进模型下的单次面板观察

剥掉多状态、多时间点的复杂性,考虑最简特例: - 状态空间 \(\mathcal{S} = \{0, 1\}\)(健康 → 损伤),不可逆。 - 只有一个观察时间 \(a_1\)(基线 \(a_0=0\) 时全在状态 0)。 - 基线强度常数 \(\lambda_{01,0}(t) = \lambda_0\),模型为 \(\lambda_{01}(t|V,X) = \lambda_0 \exp(\gamma V + \beta X)\)。 - 此时,个体在 \(a_1\) 时损伤的概率(转移概率)有闭式: \(P(Y(a_1)=1 | V, X) = 1 - \exp(-\int_0^{a_1} \lambda_0 e^{\gamma V + \beta X} dt) = 1 - \exp(-a_1 \lambda_0 e^{\gamma V + \beta X})\)

核心数学问题:在这个特例下,如何选取 \(\pi_i = P(R_i=1 | V_i, Y_i(a_1))\) 使得 \(\hat{\beta}_{MLE}\) 的渐近方差最小?

最小内核的解法直觉: 1. 全数据似然:若 \(X_i\) 对所有人已知,\(\beta\) 的 Fisher 信息量正比于 \(X_i\) 的方差与 \(Y_i(a_1)\) 的变异。 2. 两阶段条件似然:当 \(X_i\) 缺失时,基于 \(R_i=1\) 的子样本,条件似然 \(L_c(\beta) = \prod_{i: R_i=1} P(Y_i(a_1) | V_i, X_i; \beta)\) 仍能识别 \(\beta\)(因 \(X\) 在条件侧)。 3. 伪残差抽样:在抽样前,先用只含 \(V\) 的劣化模型 \(\lambda_{01}(t|V) = \lambda_0^* e^{\gamma^* V}\) 拟合全数据,得到每个个体的伪残差 \(e_i = Y_i(a_1) - E[Y_i(a_1) | V_i; \hat{\gamma}^*, \hat{\lambda}_0^*]\)。残差绝对值 \(|e_i|\) 大的个体,其状态偏离了仅靠 \(V\) 的预测,最可能是由未测的 \(X\) 驱动。因此,设 \(\pi_i \propto |e_i|\),对这些个体优先抽样,能最大化 \(\beta\) 的信息量。 4. 为什么成立:在比例强度模型下,\(\beta\) 的得分函数(score function)包含 \(X_i \times (Y_i - \text{expected})\) 项。抽样高残差个体,等价于在期望上最大化 \(X_i\) 与预测误差的协方差,从而压缩 \(\hat{\beta}\) 的方差。

一般情形(多状态、多时间点、非闭式转移概率)只是这个直觉的"加壳":转移概率需用矩阵指数数值计算,伪残差需推广为多状态伪得分向量,但"抽偏离劣化模型预测的个体"这一核心思想不变。


三、这篇论文做了什么

三句话: ① 研究了多状态间歇观察下、昂贵标志物两阶段抽样设计的最优选取与推断问题; ② 核心工具是基于劣化模型伪得分的依赖性抽样与条件似然/估计函数推断; ③ 主要结论是伪得分残差抽样策略使得标志物效应 \(\beta\) 的 MLE 渐近方差显著下降,逼近全数据信息界,并在半参数效率比较中优于随机与结果依赖抽样。

关键设定与假设: - 多状态 Markov 假设:疾病进程 \(\{Y(t)\}\) 服从时间连续、状态离散的 Markov 过程。这是转移概率可用矩阵指数 \(P(t) = \exp(Q t)\) 表达的前提(\(Q\) 为强度矩阵)。统计含义:转移历史不提供额外信息,放宽则似然无标准形式。 - 比例强度假设\(\lambda_{rs}(t|V,X) = \lambda_{rs,0}(t) \exp(\gamma_{rs}^T V + \beta_{rs} X)\)。将标志物效应参数化,是 \(\beta\) 可识别且具因果/关联解释的核心。 - MAR (Missing At Random) 假设\(P(R=1 | X, V, \boldsymbol{Y}) = P(R=1 | V, \boldsymbol{Y})\),即抽样只依赖已观测数据,不依赖未测的 \(X\)。这是条件似然与 IPW 识别 \(\beta\) 的必要条件。 - 独立抽样假设:各 \(R_i\) 互相独立。这是渐近方差计算中信息矩阵可加的前提。

主要结果: 1. 条件似然与估计函数的构造: - 在两阶段抽样下,给出了基于 \(R=1\) 子样本的条件似然 \(L_c\),避免了建模 \(X\) 的边际分布与抽样机制。 - 构造了加权估计函数(类似 Breslow 伪似然),允许利用 \(R=0\) 个体中 \(V\)\(\boldsymbol{Y}\) 的信息,但需指定 \(\pi_i\)。 2. 伪得分残差抽样策略: - 定义了多状态下的伪得分:先拟合不含 \(X\) 的劣化 Markov 模型,计算个体在观察时间点对转移参数的得分向量 \(\boldsymbol{U}_i^*(\hat{\gamma}^*)\)。 - 抽样概率 \(\pi_i\) 设计为 \(\pi_i = \text{clip}(\delta + c \|\boldsymbol{U}_i^*\|, \pi_{\min}, \pi_{\max})\),即正比于伪得分范数(偏离程度),加上常数 \(\delta\) 保证覆盖。 3. 半参数效率比较: - 计算了不同抽样策略下 \(\hat{\beta}_{MLE}\) 的渐近方差:随机抽样 \(\pi_i=\pi_0\)、结果依赖抽样 \(\pi_i \propto f(Y)\)、伪得分抽样。 - 结论:伪得分抽样下的渐近方差在数值上逼近全数据(\(X\) 全测)的方差界,且在冗余参数(\(\lambda_0, \gamma\))存在时,对信息矩阵的逆有更优的压缩效果。

证明路线与技术技巧: - 整体路线: 1. 写出全数据(\(X\) 全观测)下面板 Markov 模型的似然与 Fisher 信息矩阵 \(I_{full}(\beta, \gamma, \lambda_0)\)。 2. 写出两阶段缺失数据下的观测数据似然,分解为 \(R=1\) 部分的条件似然与 \(R=0\) 部分的边际似然。 3. 利用缺失数据信息矩阵的逆公式(类似 Robins & Rotnitzky 的缺失信息原则),将 \(\hat{\beta}\) 的渐近方差表达为 \(I_{full}^{-1} + \text{缺失导致的额外方差}\)。 4. 将额外方差表达为关于抽样概率 \(\pi_i\) 的函数,证明其在 \(\pi_i \propto \|\text{score}\|\) 时最小化。 - 关键跳跃点: - 从全数据信息到缺失数据信息的跳跃:如何将 \(R=0\) 个体对 \(\beta\) 的间接信息(通过 \(V\)\(\boldsymbol{Y}\))量化?作者使用了期望缺失信息原则\(I_{obs} = I_{full} - I_{miss}\),其中 \(I_{miss}\) 是在给定观测数据下未测 \(X\) 带来的信息损失。 - 伪得分范数作为最优权重的证明:需证明 \(\pi_i \propto \|\boldsymbol{U}_i^*\|\) 使得 \(I_{miss}\) 的特定子块最小化。这依赖于一个引理:在标量 \(\beta\) 下,权重正比于得分绝对值最小化方差,类似于 Neyman 最优分配在连续变量上的推广。 - 技术技巧点名: - 矩阵指数计算:用于求 Markov 模型在面板时间下的转移概率 \(P(Y(a_k)=s | Y(a_{k-1})=r)\),无闭式时需数值微分求得分。 - 缺失信息原则:核心方差分解工具,将 \(I_{obs}^{-1}\) 分解为 \(I_{full}^{-1} + \text{非参数部分}\)。 - Neyman 最优分配的连续化推广:将分层抽样中的最优比例 \(\propto\) 层内标准差,推广为 \(\propto\) 伪得分范数。

真实例子与应用: - 数据:Psoriatic Arthritis (PsA) 银屑病关节炎队列,多伦多队列。状态空间:0=无关节损伤,1=1-4个关节损伤,2=≥5个关节损伤。观察时间:临床就诊时间(间歇)。 - 标志物:HLA-B27(二值基因标志物),昂贵/需专门化验,仅在子样本上测量。 - 应用方式:在全队列上拟合不含 HLA-B27 的多状态 Markov 模型,计算伪得分残差;按残差大小选取子样本测量 HLA-B27;在子样本上用条件似然估计 \(\beta\)(HLA-B27 对损伤转移的效应)。 - 结果:伪得分抽样下 \(\hat{\beta}\) 的标准误比随机抽样降低约 30-40%,与全数据信息界差距极小。 - 想说明什么:验证伪得分抽样在真实多状态面板数据下,确实能以较少的标志物测量次数,达到接近全测的效率。

🔎 结论是否比证明窄: - 摘要声称 "yield highly efficient maximum likelihood estimates",但理论证明中的方差比较是基于特定 Markov 模型与比例强度假设下的渐近近似。若 Markov 假设违犯(如 semi-Markov 或随机效应),伪得分的定义与最优性证明是否成立,文中未严格证明,仅为泛泛 claim 或模拟验证。


四、开放问题(点到为止)

  1. 半参数效率界是否可达? 本文的条件似然 MLE 在伪得分抽样下逼近了全数据信息界,但在 MAR 下,真正的半参数效率界(允许 \(X\) 边际分布任意)是否等于全数据界?若不等,AIPW 路线能否严格击中该界?(扎根点:摘要只提 MLE 效率,未与 Robins et al. 的半参数效率界比对)。
  2. Markov 假设违犯下的伪得分定义:当疾病进程有随机效应(个体异质性)或为 semi-Markov(停留时间依赖)时,劣化模型的伪得分如何构造?此时矩阵指数失效,抽样权重的最优性是否崩塌?(扎根点:理论部分假设 Markov,真实数据部分可能有异质性)。
  3. 高维标志物设定:本文 \(X\) 为标量或低维,若 \(X\) 为高维基因组标志物(\(p\) 大),伪得分向量范数作为权重的最优性是否被维度灾难稀释?是否需 Lasso-type 稀疏抽样?(扎根点:未检索到 Ai et al. OSMAC 等高维子抽样文献,此为明显缺失)。
  4. 动态/序贯抽样设计:当前为一次性两阶段设计,若标志物可分批次测量,能否根据前批结果更新伪得分,做序贯主动学习?(扎根点:文中设计为固定 \(a_k\) 下的静态抽样)。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论