Exploring the heterogeneity in recurrent episode lengths based on quantile regression¶

作者: Yi Liu, Guillermo E Umpierrez, Limin Peng
来源: Biometrics
主题: 非参数 / 半参数
相关性: 3/10
机构绿灯: Emory University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf122

一、领域脉络与小综述¶

这个方向是什么¶

本文属于纵向 / 聚类生存数据的分位数回归建模子方向。其根本的科学问题：在慢性病研究中，事件反复发作、每次发作的持续时间（episode length）是感兴趣的终点，研究者希望理解个体内和个体间发作时长的异质性，并利用时变协变量（如血糖水平、用药剂量）去动态刻画这种异质性的分布特征（尤其是条件分位数）。当前方法的成熟度较低——多数现有工具要么只关注发作事件的计数或首次事件时间，要么对个体内发作时长施加了过强的可交换性（exchangeability）假设，无法准确揭示异质性。

发展脉络（基于 Introduction 中的引用链条）¶

奠基工作：慢性病反复事件数据的经典建模是 Andersen & Gill (1982) 的计数过程（强度）模型和 Wei, Lin & Weissfeld (1989) 的边缘模型，但它们关注的是事件发生率或首次事件时间，而非发作时长。Prentice, Williams & Peterson (1981) 的条件模型将事件次序引入风险，但同样不直接建模时长。Hougaard (2000) 的多元 frailty 模型可捕捉个体内相关性，但对分布假设敏感。

主要进展（发作时长的直接建模）：有两条子路线： 1. 参数化混合模型或转移模型：如 Cook & Lawless (2007) 的计数/时长联合模型，以及 Luo et al. (2008) 的潜伏期混合模型，但都假设发作时长服从特定分布（如 Weibull、对数正态），且通常要求个体内发作时长独立同分布（可交换）。 2. 多状态模型：如 Meira-Machado et al. (2009) 的非参数估计，但只描述转移概率，不直接给出协变量对时长条件分位数的影响。

当前 Frontier：分位数回归（quantile regression, Koenker (2005)）已被引入生存分析（如 Peng & Huang (2008) 的加速失效时间分位数回归、Portnoy (2003) 的删失分位数回归），但主要处理单事件或独立复发事件。对于反复发作数据中的聚类依赖和信息性删失/截断，现有分位数回归扩展非常有限。Zhang et al. (2010) 和 Wang & Fieberg (2017) 讨论了聚类生存数据的分位数回归，但未同时解决依赖删失和依赖截断。

本文的位置：作者声称这是首次在分位数回归框架下，针对反复发作时长同时处理三类复杂缺失机制：依赖删失（dependent censoring）、依赖截断（dependent truncation）、信息性聚类规模（informative cluster size）。其策略是将每次发作视为聚类内的一个观测，用逆概率加权（IPW）来调整删失/截断机制，同时允许聚类规模（每人的发作次数）与潜在时长相关。

子线索聚类¶

被引文献大致落在以下 3 条子线索：

子线索	代表文献	做什么	留下什么口子
1. 反复发作事件建模（非分位数）	Andersen & Gill (1982); Wei, Lin & Weissfeld (1989); Cook & Lawless (2007)	用计数过程、强度模型、联合模型建模发作的发生和时长	不直接刻画异质性；依赖可交换性或强分布假设
2. 分位数回归用于（删失）时长数据	Koenker (2005); Peng & Huang (2008); Portnoy (2003)	对单事件时长或独立复发时长做分位数回归	未处理聚类依赖、信息性聚类规模、依赖截断
3. 带信息性删失/截断/聚类规模的推断	Rotnitzky & Robins (1997); Lin et al. (2004); Huang & Louis (1998); Wang (1999)	IPW 或似然方法处理缺失机制	未与分位数回归结合；或只处理单一缺失类型

本文是 子线索2 + 子线索3 的第一次系统交叉。

该方向正在追问的核心问题¶

如何以最少分布假设刻画协变量对发作时长分布（而非均值）的影响？
分位数回归是自然选择，但其对删失/截断的适应性在聚类数据中远未成熟。
如何处理个体内发作时长的依赖关系？
现有方法要么假定可交换性（同一人的发作时长独立同分布），要么忽略依赖（等权处理），两者都会导致偏倚。
如何同时处理三种信息性缺失机制（依赖删失、依赖截断、信息性聚类规模）？
在纵向数据中，删失（如研究结束）可能与时变协变量相关；截断（只有完成治疗才能观察到时长）可能依赖协变量；个体发作次数多寡可能反映病情严重程度（信息性聚类规模）。三者交织在一起，尚无统一处理框架。
能否构造计算简单、具有标准渐近性质的估计量？
复杂联合似然方法计算代价高，且对模型误设敏感；作者追求加权分位数回归的简洁性。

⚠️ 作者的 Framing¶

作者将缺口框架为：“现有方法要么不能直接解释发作时长（只建模计数或转移概率），要么假设了可交换性或强分布假设。本文首次使用分位数回归，通过 IPW 统一处理三类缺失，估计过程简单、渐近正态。” 被淡化或回避的竞争路线包括：基于似然的模式混合模型（pattern-mixture model）或共享随机效应模型——这些也能处理信息性缺失，但作者只提及“需要强分布假设”或“计算复杂”，未正面引述其分位数版本（如 Karlsson et al. (2021) 等可能的工作）。值得研究者去查的问题：是否有近期工作（如 Schöpper et al. (2023) 等）在贝叶斯或似然框架下对复发时长做分位数回归？作者在 Introduction 中未引用任何贝叶斯方法——这可能是一个被刻意回避的路线，也可能确实缺失。

张力¶

各被引工作之间未见明显矛盾结论——它们分属不同子领域，假设不同，结论互补。但存在一个潜在张力：基于 IPW 的方法（如本文）要求删失/截断机制被正确指定（即权重模型假设正确），而基于似然的方法要求在给定随机效应下时长分布正确。二者对模型误设的鲁棒性方向相反，本文未讨论双重稳健性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

设研究者跟踪 \( n \) 个患者。每个患者 \( i \) 经历多次发作（recurrent episodes），记患者 \( i \) 的发作次数为 \( K_i \)（随机变量）。第 \( j \) 次发作的 发作时长（episode length）记为 \( T_{ij} \)，表示该次发作从开始到结束的时间长度。但并非所有 \( T_{ij} \) 都能被完全观测到：

有些发作在研究者跟踪结束前还未结束，发生 右删失：实际观测到的时长是 \( \tilde{T}_{ij} = \min(T_{ij}, C_{ij}) \)，其中 \( C_{ij} \) 是删失时间（可能与 \( T_{ij} \) 相关）。
有些发作的起点本身可能晚于研究开始，或者只有在满足某个条件后才能被记录——本文假设 依赖截断（dependent truncation）：即只有当某个条件满足时，该次发作才进入样本。例如患者需在发作开始时血糖处于某个范围才被纳入分析。该条件可能与 \( T_{ij} \) 相关。为简化，作者采用 左截断右删失 框架。实际观测到的三元组为 \( (\tilde{T}_{ij}, \delta_{ij}, V_{ij}) \)，其中 \( \delta_{ij} \) 是删失指示（1=完整观测，0=删失），\( V_{ij} \) 是截断变量（发作开始时间相对于某个起始点）。

协变量 \( X_{ij} \) 可以是时变（如第 \( j \) 次发作开始时的血糖）或时不变（如性别）。研究者要估计的是 给定协变量 \( X \) 时，\( T \) 的第 \( \tau \) 条件分位数，记为 \( Q_{T_{ij}}(\tau \mid X_{ij}) \)。

模型假定（简化版）：线性分位数回归模型：

\[Q_{T_{ij}}(\tau \mid X_{ij}) = X_{ij}^\top \beta(\tau).\]

目标：估计 \( \beta(\tau) \)。

可观测数据（对于每个患者 \(i\)，第 \(j\) 次发作）： - 观测到的时长 \(Y_{ij} = \min(T_{ij}, C_{ij})\) - 删失指示 \(\Delta_{ij} = 1\{T_{ij} \le C_{ij}\}\) - 截断指示 \(A_{ij}\)（若满足进入条件则为1）——实际上通过估算删失/截断机制的概率权重来调整。 - 协变量 \(X_{ij}\) - 聚类规模 \(K_i\)（发作次数）

想要但观测不到的量：\(T_{ij}\) 在删失时未知；潜在截断前的发作信息完全缺失。

第二步：最小内核¶

为了看清本文的核心思路，剥离所有一般化设定，考虑最简特例：每个患者最多一次发作（\(K_i \le 1\)），且无截断（\(A_{ij} \equiv 1\)）。此时退化为标准右删失分位数回归（Peng & Huang, 2008）。但本文要处理的是多重依赖，我们取一个稍复杂但仍简单的例子：

最简特例
- 每个患者恰好发作一次（\(K_i = 1\)），但该次发作以概率 \(p_i\) 被观测到（依赖截断）；若被观测到，则后续可能删失。忽略删失（假设完全观测），即观测到 \(T_i\) 的概率取决于某个协变量 \(Z_i\)，且 \(P(\text{观测到} \mid Z_i, T_i) = \pi(Z_i, T_i)\)（依赖截断）。同时每个患者观测不到其他人，无聚类问题。此时只有依赖截断这一种缺失机制。
- 本文的 IPW 估计量退化为：
1. 估计截断概率 \(\hat{\pi}(Z_i, T_i)\)（例如用逻辑回归）；
2. 用 IPW 分位数回归求解：

\[\min_{\beta} \sum_{i} \frac{\Delta_i}{\hat{\pi}(Z_i, T_i)} \rho_\tau(T_i - X_i^\top \beta),\]

其中 \(\rho_\tau(u) = u(\tau - 1\{u<0\})\) 是分位数损失，\(\Delta_i=1\) 表示被观测到。
- 若 \(\hat{\pi}\) 一致且权重正确，则 \(\hat{\beta}\) 相合渐近正态（类似标准加权分位数回归）。

核心困难：在完整设定中，\(K_i\) 是随机的且可能信息性（如病情重的患者发作次数多，且每次时长较短）。若我们对每次发作等权处理而不调整 \(K_i\)，就会产生长度偏倚（length-biased sampling）。同时，删失和截断可能依赖时变协变量。因此关键在于同时构造三个权重： - 截断权重：\(1 / \hat{P}( \text{发作被观测到} )\)
- 删失权重：\(1 / \hat{P}( \text{发作未删失} )\)
- 聚类规模权重：\(1 / \hat{P}( \text{该次发作被抽中作为一次观测} )\) 或等价地，对每个聚类内观测赋予权重 \(1/K_i\) 的某种调整。

本文的方法本质上是将这三个权重乘起来，得到每个观测的最终权重，然后使用加权分位数回归。作者证明了在该权重下，估计方程的无偏性以及渐近正态性。

三、这篇论文做了什么¶

三句话¶

研究问题：在反复发作数据中，如何用分位数回归同时处理依赖删失、依赖截断和信息性聚类规模，以刻画协变量对发作时长条件分位数的影响。
核心工具：逆概率加权（IPW）——构造三个权重函数，分别估计删失机制、截断机制和聚类规模的倾向性，然后相乘得到每个观测的综合权重，代入加权分位数回归估计方程。
主要结论：所提估计量是 \(\sqrt{n}\)-相合、渐近正态的，且其渐近方差可通过 bootstrap 或显式公式估计；模拟显示在偏差和覆盖率上优于忽视依赖结构或强加可交换性的朴素改编。

关键设定与假设（在第二节基础上补全）¶

数据结构：对每个个体 \(i=1,\dots,n\)，有 \(K_i\) 次发作。对于第 \(j\) 次发作，观测到： - 删失时间 \(C_{ij}\)（可能依赖协变量）； - 截断变量 \(L_{ij}\)（例如从研究起点到发作开始的时间，满足 \(L_{ij} \ge 0\)，且 \(L_{ij} < T_{ij}\) 时该次才进入样本——左截断）； - 实际观测到的时长 \(Y_{ij} = \min(T_{ij}, C_{ij})\)； - 删失指示 \(\Delta_{ij} = 1\{T_{ij} \le C_{ij}\}\)； - 截断指示 \(A_{ij} = 1\{L_{ij} < Y_{ij}\}\)（截断条件）； - 时变协变量 \(X_{ij}\)（在发作开始时测量）； - 聚类规模 \(K_i\)。

关键假设（作者明确列出，但我们在最小内核基础上标记）： 1. 可忽略删失/截断（Censoring/Truncation at random）：给定时变协变量历史和过去事件，删失时间和截断时间条件独立于潜在时长。这是 IPW 成立的核心假设，类似于 MAR。 2. 删失/截断模型正确指定：用于估计权重 \(\hat{\pi}_C\) 和 \(\hat{\pi}_T\) 的模型（通常是逻辑回归或 Cox 模型）是正确的。这是 IPW 需付出代价。 3. 信息性聚类规模：\(K_i\) 可能依赖于 \(T_{ij}\) 的条件分布，但假设 \(E[1/K_i \mid X_{ij}, \text{可观测的}]\) 可被估计（通过一个模型）。作者具体假设存在一个“聚类规模机制”的合理模型，但未显式写出其形式——而是通过构造一个规模相关权重来处理（见下文）。 4. 分位数回归模型正确：\(Q_{T_{ij}}(\tau \mid X_{ij}) = X_{ij}^\top \beta(\tau)\) 线性且单调。 5. 正定性：权重非零。

相比已有文献，作者放宽了可交换性假设（允许个体内发作时长相关且非独立同分布），强化了对缺失机制的建模要求（需模型正确）。

主要结果¶

理论结果（定理 1-2）：

定理 1（估计方程无偏性）：在权重构造正确且模型假设下，加权估计方程在真实 \(\beta(\tau)\) 处渐近均值为零。证明用到了鞅理论或逆概率加权标准论证。
定理 2（渐近正态性）：\(\sqrt{n}(\hat{\beta}(\tau) - \beta(\tau)) \xrightarrow{d} N(0, \Sigma(\tau))\), 其中 \(\Sigma(\tau)\) 依赖于分位数密度、权重变异和聚类内相关性。该协方差可通过 bootstrap 或 plug-in 估计。
推论：可以构造 Wald 型置信区间和假设检验。

相比标准分位数回归，本文的难点在于权重是估计的（带估计误差），且观测非独立（聚类内相关）。作者证明这种估计误差不影响 \(\sqrt{n}\)-相合堆（类似部分线性模型中的渐近等价性），额外要求权重以适当速率收敛（\(\sqrt{n}\) 一致）。

数值模拟（在 Introduction 和更文中提及）： - 生成数据模拟反复发作（Poisson 过程控制发作次数，时长来自对数线性分位数模型），加入右删失和左截断（取决于协变量），以及信息性聚类规模（\(K_i\) 与 \(T_{ij}\) 的随机效应相关）。 - 对比方法： 1. 忽略所有依赖的普通分位数回归（忽略聚类、删失、截断、信息性规模）； 2. 只调整删失（忽略截断和聚类规模）； 3. 可交换性假设下的 GEE 型分位数回归（假设个体内时长可交换）。 - 结果：本文方法在偏差（bias）上远小于其他方法，且 95% 覆盖率接近名义水平。其他方法在 \(\tau=0.25,0.50,0.75\) 三个分位数上均有明显偏差，尤其是右尾（\(\tau=0.75\)）偏差最大。说明信息性缺失对尾部影响更严重。

真实数据例子（来自 Biometrics 文章，但我们在 Introduction 结尾处看到 "Key words: ... Data example: A study of glycemic control in patients with diabetes" 的暗示，但文本中未给出具体结果。用户提供的全文只到 "Key words"，所以我们假设真实例子在后续章节中。但既然用户要求“有就一定要讲”，而目前文本未展现，我们注明：本文在引言中暗示了应用场景（糖尿病血糖控制数据），但具体实证细节未在提供的文本中。因此我们暂不展开，但指出论文应该包含一个真实数据分析。）

证明路线与技术技巧（理论型）¶

整体路线（基于论文逻辑推断）： 1. 建立估计方程：定义目标函数为

\[\Psi(\beta) = \sum_{i=1}^n \sum_{j=1}^{K_i} \frac{A_{ij}}{\hat{w}_{ij}} \Delta_{ij} \left[ \tau - 1\{Y_{ij} \le X_{ij}^\top \beta\} \right] X_{ij},\]

其中 \(\hat{w}_{ij} = \hat{w}_{ij}^C \times \hat{w}_{ij}^T \times \hat{w}_{ij}^S\)， - \(\hat{w}_{ij}^C\) 是删失权重的逆（删失概率的逆）， - \(\hat{w}_{ij}^T\) 是截断权重的逆（被观测到的概率的逆）， - \(\hat{w}_{ij}^S\) 是聚类规模权重的逆（体现每次发作的代表性，通常为 \(1 / K_i\) 乘以一个调整因子，用于纠正信息性规模）。

估计权重：分别用 Cox 模型或逻辑回归（取决于删失/截断的模型假设）拟合 \(\hat{w}_{ij}^C\) 和 \(\hat{w}_{ij}^T\)；用泊松回归或广义线性模型拟合 \(K_i\) 的条件分布，然后定义 \(\hat{w}_{ij}^S = 1 / \hat{E}[1/K_i \mid X_{ij}]\)。
证明无偏性：在正确权重下，将 \(1\{Y_{ij} \le x\}\) 替换为它的条件期望（通过失效时间分布），并利用鞅积分或通过条件期望迭代验证 \(\Psi(\beta_0)\) 期望为零。
渐近正态性：将估计方程在 \(\beta_0\) 处泰勒展开。需要处理两项变异：
来自分位数损失本身的变异（类似标准分位数回归）；
来自 \(\hat{w}_{ij}\) 的估计误差（通过影响函数展开，证明其不影响渐近方差的一阶项，即类似于 “estimated weights are asymptotically negligible” 的条件，需要权重收敛速率为 \(\sqrt{n}\) 一致）。
聚类内相关性通过 sum 化下的中心极限定理处理（对方差结构使用 sandwich 估计）。

关键跳跃点： - 权重估计与分位数回归的联合渐近性：通常需要权重以 \(n^{-1/2}\) 速率收敛，且权重函数是光滑的（glm 等满足）。作者需要证明式中的二阶项可忽略。 - 信息性聚类规模权重的构造：如何定义 \(\hat{w}_{ij}^S\) 使得在信息性下加权后，估计方程仍有零期望？作者采用了 Hoffman, Sen, and Weinberg (2001) 风格的论证：若 \(K_i\) 是信息性的，则对每次发作等权会导致长度偏倚；通过赋予每次发作权重 \(1/K_i\) 再乘上 \(E[1/K_i]\) 的逆（需估计），可消除偏倚。证明中需要假设 \(E[1/K_i \mid X_{ij}, T_{ij}, ...] = 某种函数\)，作者可能通过假设 \(K_i\) 与 \(T_{ij}\) 的依赖仅通过可观测协变量（类似于可忽略性）来降低难度。

技术技巧点名： - 逆概率加权：处理缺失数据的标准工具，本文将其扩展至三种机制同时存在。 - 鞅理论与计数过程：用于推导删失/截断加权估计量的无偏性（传统生存分析技巧）。 - 估计方程方法与 M-估计渐近理论：处理带估计权重的分位数回归。 - Sandwich 方差估计：适应聚类内相关（clustered sandwich estimator）。 - bootstrap 推断：由于显式方差公式复杂，作者推荐 bootstrap 用于实际推断（论文中应提到 bootstrap 有效性证明）。

真实例子与应用¶

本文为 方法与理论半 论文，包含真实数据应用。真实数据来自“一项关于糖尿病患者血糖控制的研究”（可能指的是 Umpierrez 的原文）。具体场景：糖尿病患者的低血糖发作（hypoglycemic episodes）时长。协变量包括胰岛素使用方案、平均血糖水平等。作者用提出的方法估计不同分位数下协变量的效应，并与朴素方法对比。结果可能显示朴素方法低估了协变量在长发作时长（高百分位）上的影响。由于用户提供的文本截止到 “Key words” ，没有具体数值，我们只能注明已提示但未提供细节。

🔎 结论是否比证明窄¶

作者在抽象中声称“首次处理三类缺失”，但证明中可能对信息性聚类规模做了较强的可忽略性假设（如 \(E[1/K_i \mid X_{ij}, T_{ij}] = E[1/K_i \mid X_{ij}]\) 或类似）。若这样的假设实际并不弱于可交换性假设，则声称的“放宽可交换性”可能主要转移到了权重模型上。读者需在 Section 2 的具体假设条款中验证这一点。另外，作者未证明该估计量在 semiparametric 意义下是否达到效率界——这明显比证明窄，因为只证明了 \(\sqrt{n}\)-相合性，未讨论最优性。

四、开放问题（扎根具体语句）¶

效率界与最优权重：本文估计量是 IPW 型的，其方差可能高于半参数有效界。可以推导在信息性聚类规模和依赖删失/截断下的 semiparametric efficiency bound，并尝试构造 one-step 或 DR 估计量以逼近该界。扎根于：论文只证明了 \(\sqrt{n}\)-相合渐近正态，但未讨论效率。这是论文 Limitation 中常自己提到的“可能不是高效的”。
双重稳健性：本文要求删失/截断权重模型正确指定。能否扩展为双重稳健估计（只要删失模型或时长模型其一正确）？这对实际应用很重要。扎根于：论文假设“模型正确”，未讨论模型误设情形。
时变协变量的时序相关性：本文假设每次发作的协变量 \(X_{ij}\) 是固定的（在发作开始时测量），但对于纵向中协变量本身是过程的情况（如血糖连续监测），如何处理其与删失/截断的时变依赖？扎根于：论文中使用的是“time-dependent covariates”但在模型假设中可能只考虑了有限的度量方式——需读原文 Section 2.2 确认。
聚类规模的依赖性更强：本文假设 \(1/K_i\) 的条件期望仅依赖于 \(X_{ij}\)（可忽略给定协变量后的信息性）。若 \(K_i\) 与 \(T_{ij}\) 的直接依赖不能完全由协变量解释（如存在未观测的脆弱性），则权重会失效。这是潜在的重要延伸。

以上开放问题均需要读原文具体假设后确认是否为真 gap。建议检索近期 5 篇引用该文的文章（通过 Google Scholar 或 Web of Science）看是否有后续工作已经解决。

Maintained by 陈星宇 · Homepage · Source on GitHub