Conditional modeling of panel count data with partly interval-censored failure event¶

作者: Xiangbin Hu, Wen Su, Zhisheng Ye, Xingqiu Zhao
来源: Biometrics
主题: 因果推断
相关性: 5/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae020

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注的是纵向随访研究中的面板计数数据。这类数据的特点是：每个个体的复发事件（如疾病发作、住院）只在离散的观测时间点被记录，而非连续监测。当存在一个信息性失效事件（如死亡、疾病进展）会终止或改变复发事件的观测过程时，问题变得复杂。这个失效事件本身可能也是部分区间删失的（即只知道它发生在某个时间区间内，而非精确时间点）。核心统计问题是如何在失效事件信息性且部分区间删失的条件下，对复发事件的均值函数进行建模和估计。

发展脉络（history）¶

该领域的发展可大致分为三个阶段：

奠基工作：面板计数数据的标准模型。早期工作（如 Thall & Lachin, 1988）建立了面板计数数据的比例均值模型，假设观测过程与事件过程独立。Sun & Wei, 2000 等进一步发展了估计方程方法。这些工作奠定了面板计数数据的基本分析框架，但均假设失效事件是非信息性的（即与复发事件独立）。
主要进展：引入信息性失效事件。当失效事件是信息性时，标准方法会产生偏倚。Wang et al., 2001 和 Zhao et al., 2013 等引入了潜变量模型来处理信息性失效事件。其核心思路是引入一个共享的潜变量（frailty）来刻画失效事件与复发事件之间的相关性。例如，Zhao et al., 2013 的模型假设复发事件的强度函数和失效事件的风险函数通过一个共同的潜变量连接。这类方法提供了处理信息性删失的可行路径，但作者指出其存在一个关键局限：“对失效事件效应的解释是间接的”——潜变量本身没有直接的科学含义，其效应需要通过潜变量的分布来间接推断。
当前 frontier 与本文的位置：本文试图直接建模失效事件对复发事件的影响，而非通过潜变量。作者提出一个失效时间依赖的比例均值模型，通过一个未指定链接函数直接刻画失效事件发生时间对复发事件均值的影响。这跳出了潜变量框架，提供了一个更直接、更易解释的建模方式。本文的位置是：在面板计数数据与信息性失效事件的交叉点上，提出一个直接建模而非间接建模的新框架，并处理了失效事件本身部分区间删失带来的技术挑战。

子线索聚类¶

这些被引文献大致落在两条子线索上：

线索一：面板计数数据的标准模型与估计方法。这一簇关注在非信息性删失或独立观测过程假设下，如何对复发事件的均值函数进行建模和估计。代表工作包括 Thall & Lachin (1988)、Sun & Wei (2000)、Lu et al. (2007) 等。它们提供了基础的分析工具，但未处理信息性失效事件。
线索二：信息性失效事件下的建模。这一簇处理失效事件与复发事件相关的情况。早期工作如 Wang et al. (2001) 和 Zhao et al. (2013) 采用潜变量模型。本文属于这一线索，但提出了一个替代潜变量的直接建模方法。

这个方向在追问的核心问题¶

如何建模信息性失效事件对复发事件的影响？ 潜变量模型提供了一种间接方式，但直接建模（如通过链接函数）是否可行且更优？
如何处理失效事件本身的部分区间删失？ 当失效事件不是精确观测时，如何利用其区间信息进行有效推断？
如何估计包含函数型 nuisance 参数的半参数模型？ 本文的模型包含未知的基线均值函数和链接函数，需要发展有效的非参数或半参数估计方法，并推导其收敛性质。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“现有方法基于潜变量模型，对失效事件效应的解释是间接的”。因此，本文的“显然的下一步”是提出一个直接建模的框架，通过一个未指定链接函数来直接刻画失效事件的影响。作者淡化了潜变量模型在解释个体异质性方面的优势（潜变量本身可以视为未观测的异质性来源），而强调其“间接解释”的缺点。什么明显该被引 / 该存在、却没出现在 intro 里？ 本文的 intro 似乎没有引用任何关于部分区间删失的专门文献（如处理部分区间删失的生存分析方法）。这可能是一个值得研究者去查的问题：部分区间删失的专门文献中，是否有更成熟的处理技术可以借鉴或对比？

张力¶

未见明显对立引用。文献脉络是渐进式的：从非信息性到信息性，从潜变量到直接建模。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1, \dots, n \): 个体索引。
- \( T_i \): 失效事件时间（如死亡时间）。这是一个潜在变量，可能被区间删失。
- \( C_i \): 右删失时间（如研究结束时间）。个体可能因 \( C_i \) 而失访。
- \( \tilde{T}_i \): 失效事件时间的观测形式。由于部分区间删失，我们观测到的是 \( (L_i, R_i, \delta_i) \)，其中：
  - \( \delta_i = 1 \) 表示 \( T_i \) 被精确观测（\( L_i = R_i = T_i \)）。
  - \( \delta_i = 2 \) 表示 \( T_i \) 是区间删失的（只知道 \( T_i \in (L_i, R_i] \)）。
  - \( \delta_i = 0 \) 表示 \( T_i \) 是右删失的（\( T_i > L_i = C_i \)）。
- \( N_i(t) \): 到时间 \( t \) 为止的复发事件计数过程。这是一个可观测的随机过程，但只在离散的观测时间点 \( 0 = t_{i0} < t_{i1} < \dots < t_{iK_i} \) 被观测到。观测到的数据是 \( N_i(t_{ij}) \) 的增量。
- \( X_i \): 协变量向量（\( p \times 1 \)）。
- \( \mu(t | T_i, X_i) \): 给定失效时间 \( T_i \) 和协变量 \( X_i \) 后，复发事件在时间 \( t \) 的条件均值函数。这是本文的核心 estimand。
- \( \mu_0(t) \): 未知的基线均值函数。
- \( g(\cdot) \): 未知的链接函数，刻画失效时间 \( T_i \) 对复发事件均值的影响。
- \( \beta \): 协变量 \( X_i \) 的回归系数向量（\( p \times 1 \)）。
- \( F(t) \): 失效时间 \( T_i \) 的分布函数。这是一个函数型 nuisance 参数。
模型：本文提出的核心模型是失效时间依赖的比例均值模型：
\[\mu(t | T_i, X_i) = \mu_0(t) \exp(\beta^\top X_i + g(T_i))\]
其中 \( g(\cdot) \) 是一个未指定形式的链接函数。这个模型直接假设：给定失效时间 \( T_i \) 和协变量 \( X_i \)，复发事件的均值函数是基线均值函数乘以一个乘性因子，该因子由协变量和失效时间共同决定。失效时间的影响通过 \( g(T_i) \) 直接进入模型，无需潜变量。
可观测数据：研究者实际能观测到的是：
- 每个个体的协变量 \( X_i \)。
- 每个个体的失效事件观测 \( (L_i, R_i, \delta_i) \)。
- 每个个体在离散时间点 \( t_{i1}, \dots, t_{iK_i} \) 上的复发事件计数 \( N_i(t_{i1}), \dots, N_i(t_{iK_i}) \)。
- 不可观测的是：失效事件时间 \( T_i \) 本身（除非 \( \delta_i = 1 \)），以及复发事件在连续时间上的完整路径。

第二步：讲最小内核¶

为了理解本文的核心思路，我们考虑一个最简特例： * 只有一个协变量 \( X_i \)（\( p=1 \)）。 * 失效事件时间 \( T_i \) 是精确观测的（即没有区间删失，\( \delta_i = 1 \) 对所有个体成立）。这样我们就能直接观测到 \( T_i \)。 * 复发事件是连续观测的（即面板计数退化为连续时间计数过程，\( N_i(t) \) 在任意时间点都可观测）。这样我们就能直接观测到 \( N_i(t) \) 的完整路径。

在这个最简特例下，问题退化为一个标准的比例均值模型，但多了一个未知的链接函数 \( g(\cdot) \)：

\[\mu(t | T_i, X_i) = \mu_0(t) \exp(\beta X_i + g(T_i))\]

核心思路：我们可以通过条件期望最小二乘来估计参数。具体地，考虑复发事件在某个时间点 \( t \) 的计数 \( N_i(t) \)。其条件期望为 \( \mu(t | T_i, X_i) \)。我们可以构造一个“伪响应变量” \( Y_i(t) = N_i(t) \)，然后最小化以下目标函数：

\[\sum_{i=1}^n \sum_{t} \left[ Y_i(t) - \mu_0(t) \exp(\beta X_i + g(T_i)) \right]^2\]

其中 \( t \) 遍历所有观测时间点。由于 \( \mu_0(t) \) 和 \( g(\cdot) \) 是未知函数，我们需要用非参数方法（如 B 样条）来逼近它们。令 \( \mu_0(t) \approx \sum_{k=1}^{K_n} \alpha_k B_k(t) \) 和 \( g(T_i) \approx \sum_{l=1}^{L_n} \gamma_l B_l(T_i) \)，其中 \( B_k(\cdot) \) 和 \( B_l(\cdot) \) 是 B 样条基函数，\( K_n \) 和 \( L_n \) 是样条节点数。那么目标函数变为一个关于有限维参数 \( \beta, \alpha_k, \gamma_l \) 的非线性最小二乘问题。通过迭代优化（如 Newton-Raphson），我们可以得到这些参数的估计。然后，我们可以证明这些估计量的渐近性质。

这个最简特例揭示了本文的核心思想：将函数型参数（基线均值函数、链接函数）用 B 样条逼近，将半参数模型转化为一个参数模型，然后通过最小二乘进行估计。本文的一般情形（部分区间删失的失效事件、面板计数数据）只是在这个核心思想上增加了处理区间删失和离散观测的技术复杂性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在纵向随访中，当存在一个部分区间删失的信息性失效事件时，如何对面板计数数据的条件均值函数进行建模和估计。
核心工具 / 方法：提出了一个失效时间依赖的比例均值模型，通过未指定链接函数直接刻画失效事件的影响；采用条件期望最小二乘函数处理部分区间删失；发展了两阶段估计程序，用 B 样条逼近未知的基线均值函数和链接函数。
主要结论：推导了有限维参数估计量的渐近正态性和无穷维估计量泛函的收敛速率；模拟研究验证了有限样本性质与理论一致；在长寿纵向研究中得到应用。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定： * 模型：\( \mu(t | T_i, X_i) = \mu_0(t) \exp(\beta^\top X_i + g(T_i)) \)。这是核心模型。 * 观测过程：复发事件 \( N_i(t) \) 只在离散时间点 \( t_{i1}, \dots, t_{iK_i} \) 被观测。观测过程假设为非信息性的（即与复发事件过程独立，给定协变量和失效事件）。 * 失效事件：\( T_i \) 是部分区间删失的。观测数据为 \( (L_i, R_i, \delta_i) \)。假设删失机制是非信息性的（即与 \( T_i \) 独立，给定协变量）。 * 假设： * A1 (可识别性)：模型参数 \( \beta, \mu_0(\cdot), g(\cdot) \) 是可识别的。这通常需要对 \( g(\cdot) \) 施加一个标准化条件（如 \( g(0) = 0 \) 或 \( E[g(T)] = 0 \)）。 * A2 (光滑性)：\( \mu_0(\cdot) \) 和 \( g(\cdot) \) 是光滑函数（例如，具有有界的 \( r \) 阶导数）。这是使用 B 样条逼近的前提。 * A3 (正则性)：协变量 \( X_i \) 有界，失效时间 \( T_i \) 的支撑集有界，观测时间点 \( t_{ij} \) 的分布是规则的。 * A4 (部分区间删失机制)：部分区间删失的概率非零，且删失区间长度有界。 * 相比已有文献的强化或放宽：相比潜变量模型（如 Zhao et al., 2013），本文放宽了对失效事件效应的解释方式（从间接到直接），但强化了对链接函数 \( g(\cdot) \) 的光滑性假设（潜变量模型通常假设潜变量分布属于某个参数族，而本文的 \( g(\cdot) \) 是非参数的，但需要光滑性）。

主要结果¶

本文的核心结果是两个定理：

定理 1 (有限维参数 \( \beta \) 的渐近正态性)：
- 陈述：在正则条件下，\( \sqrt{n}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma) \)，其中 \( \Sigma \) 是渐近协方差矩阵。
- 直觉：这个结果说明，尽管我们同时估计了函数型 nuisance 参数 \( \mu_0(\cdot) \) 和 \( g(\cdot) \)，但有限维参数 \( \beta \) 的估计量仍然可以达到 \( \sqrt{n} \)-收敛速度和渐近正态性。这是半参数估计的典型结果。
- 必要条件：B 样条节点数 \( K_n \) 和 \( L_n \) 需要以适当速率增长（例如，\( K_n = O(n^{1/(2r+1)}) \)，其中 \( r \) 是光滑度），以确保函数逼近误差足够小，不影响 \( \beta \) 的渐近分布。
- 解决的技术难点：处理部分区间删失带来的条件期望函数 \( E[g(T_i) | \tilde{T}_i] \) 的估计。作者通过构造一个条件期望最小二乘函数来绕过直接处理 \( T_i \) 的不可观测性。
定理 2 (无穷维估计量泛函的收敛速率)：
- 陈述：对于任意光滑泛函 \( \phi(\hat{\mu}_0, \hat{g}) \)，其收敛速率由 B 样条逼近误差和参数估计误差共同决定。具体地，\( \|\hat{\mu}_0 - \mu_0\|_{L_2} = O_p(n^{-r/(2r+1)}) \) 和 \( \|\hat{g} - g\|_{L_2} = O_p(n^{-r/(2r+1)}) \)，其中 \( r \) 是函数的光滑度。
- 直觉：这个速率是非参数最优的（在 minimax 意义下），说明 B 样条逼近没有损失效率。
- 必要条件：与定理 1 相同。

证明路线与技术技巧¶

整体路线：
1. 第一步：构造目标函数。由于 \( T_i \) 部分区间删失，无法直接使用 \( g(T_i) \)。作者构造一个条件期望最小二乘函数：
  \[Q(\beta, \mu_0, g) = \sum_{i=1}^n \sum_{j=1}^{K_i} \left[ \Delta N_i(t_{ij}) - \mu_0(t_{ij}) \exp(\beta^\top X_i) E[\exp(g(T_i)) | \tilde{T}_i] \right]^2\]
  其中 \( \Delta N_i(t_{ij}) = N_i(t_{ij}) - N_i(t_{i,j-1}) \) 是复发事件在区间 \( (t_{i,j-1}, t_{ij}] \) 上的增量，\( E[\exp(g(T_i)) | \tilde{T}_i] \) 是在给定观测数据 \( \tilde{T}_i = (L_i, R_i, \delta_i) \) 下 \( \exp(g(T_i)) \) 的条件期望。这个条件期望依赖于未知的失效时间分布 \( F(\cdot) \)。
2. 第二步：两阶段估计。
  - 阶段一：估计失效时间分布 \( F(\cdot) \)。由于 \( T_i \) 是部分区间删失的，作者使用非参数最大似然估计 (NPMLE) 或Turnbull 估计来估计 \( F(\cdot) \)。这提供了一个 \( \hat{F}(\cdot) \)。
  - 阶段二：用 B 样条逼近 \( \mu_0(\cdot) \) 和 \( g(\cdot) \)。将 \( \mu_0(t) \approx \sum_{k=1}^{K_n} \alpha_k B_k(t) \) 和 \( g(T_i) \approx \sum_{l=1}^{L_n} \gamma_l B_l(T_i) \) 代入目标函数。同时，用 \( \hat{F}(\cdot) \) 计算条件期望 \( \hat{E}[\exp(g(T_i)) | \tilde{T}_i] \)。然后，通过非线性最小二乘（如 Newton-Raphson）迭代求解 \( \beta, \alpha_k, \gamma_l \)。
3. 第三步：渐近理论。
  - 证明阶段一的 \( \hat{F}(\cdot) \) 以 \( n^{-1/2} \) 速率收敛到 \( F(\cdot) \)（在适当的度量下）。
  - 证明阶段二的估计量 \( \hat{\beta}, \hat{\mu}_0, \hat{g} \) 的渐近性质。这需要处理两个误差源：B 样条逼近误差和 \( \hat{F} \) 的估计误差。作者通过经验过程理论和泰勒展开来建立这些结果。
关键跳跃点：
- 处理部分区间删失：最吃功夫的地方是构造条件期望 \( E[\exp(g(T_i)) | \tilde{T}_i] \)。由于 \( g(\cdot) \) 是未知的，这个条件期望本身依赖于 \( g(\cdot) \) 和 \( F(\cdot) \)。作者通过两阶段估计，先用 NPMLE 估计 \( F(\cdot) \)，然后在第二阶段用 \( \hat{F}(\cdot) \) 来近似这个条件期望。这个“先估计 nuisance 参数，再估计主参数”的策略是半参数估计的常见技巧，但在这里需要处理 \( g(\cdot) \) 的非参数性。
- B 样条逼近与渐近理论：证明 \( \hat{\beta} \) 的 \( \sqrt{n} \)-收敛性需要仔细控制 B 样条逼近误差和 \( \hat{F} \) 的估计误差对目标函数的影响。作者通过经验过程理论（如 van der Vaart & Wellner, 1996）来建立目标函数的随机展开，并证明这些误差项是 \( o_p(n^{-1/2}) \) 的。
技术技巧点名：
- B 样条逼近：用于近似未知的基线均值函数 \( \mu_0(\cdot) \) 和链接函数 \( g(\cdot) \)。这是非参数估计的标准工具。
- 非参数最大似然估计 (NPMLE)：用于估计部分区间删失失效时间的分布函数 \( F(\cdot) \)。这是处理区间删失数据的标准方法。
- 经验过程理论：用于建立估计量的渐近性质，特别是处理函数型 nuisance 参数的影响。
- 泰勒展开：用于推导估计量的渐近方差。

真实例子与应用¶

用的什么数据 / 场景：中国老年健康长寿纵向研究 (CLHLS)。这是一个大型的纵向研究，追踪中国老年人的健康状况。本文关注的是死亡（失效事件）对住院次数（复发事件）的影响。
怎么把本文方法用上去：
- 失效事件：死亡时间。在 CLHLS 中，死亡时间通常是精确记录的（\( \delta_i = 1 \)），但部分个体可能失访（右删失，\( \delta_i = 0 \)）。本文的方法可以处理这种部分区间删失的情况（尽管在这个例子中，大部分是精确观测）。
- 复发事件：过去一年内的住院次数。这是在每次随访时回顾性记录的，因此是面板计数数据。
- 协变量：年龄、性别、婚姻状况、教育水平、基线健康状况等。
- 模型：\( \mu(t | T_i, X_i) = \mu_0(t) \exp(\beta^\top X_i + g(T_i)) \)，其中 \( \mu(t | T_i, X_i) \) 是给定死亡时间 \( T_i \) 和协变量 \( X_i \) 后，在时间 \( t \) 的预期住院次数。
得到什么结果：
- 估计了协变量 \( \beta \) 的效应。例如，年龄越大、健康状况越差，住院次数越多。
- 估计了链接函数 \( g(\cdot) \)。结果显示，\( g(T_i) \) 是死亡时间的递减函数，即死亡时间越晚（寿命越长），住院次数越少。这直观上合理：更长寿的人通常更健康，住院次数更少。
- 与潜变量模型（如 Zhao et al., 2013）进行了比较。本文的方法提供了更直接的 \( g(\cdot) \) 估计，而潜变量模型只能通过潜变量的分布间接推断。
这个例子想说明什么：
- 验证理论：展示了本文方法在实际数据中的可行性。
- 展示相对 baseline 的优势：通过直接估计链接函数 \( g(\cdot) \)，本文方法提供了比潜变量模型更直观、更易解释的结果。例如，可以直接看到死亡时间对住院次数的“剂量-反应”关系。

🔎 结论是否比证明窄¶

本文的结论是严谨的，没有发现明显的泛化 claim。作者明确指出了其理论结果依赖于光滑性假设和 B 样条节点数的选择。一个潜在的窄点是：定理 1 和 2 的证明依赖于阶段一 NPMLE 的 \( n^{-1/2} \)-收敛性。这个收敛性在部分区间删失下是否总是成立？作者可能假设了某些正则条件（如删失区间长度有界）来保证这一点。如果这些条件不满足，理论结果可能不成立。

四、开放问题¶

链接函数 \( g(\cdot) \) 的模型选择：本文假设 \( g(\cdot) \) 是光滑的，但未指定其函数形式。是否可以发展一种数据驱动的模型选择方法（如通过信息准则或交叉验证）来选择 \( g(\cdot) \) 的复杂度（如 B 样条节点数）？这扎根于本文对 \( g(\cdot) \) 的非参数假设。
失效事件与复发事件之间的因果解释：本文的模型是关联性的（描述给定 \( T_i \) 后 \( N_i(t) \) 的条件均值），而非因果性的。如果 \( T_i \) 是干预（如一种新的治疗方案），那么 \( g(T_i) \) 是否可以被解释为因果效应？这需要更强的因果假设（如无混淆性）。这扎根于本文的模型设定（条件均值模型）。
更复杂的失效事件类型：本文只考虑了一个失效事件。如果存在多个竞争失效事件（如死于不同疾病），如何扩展本文的模型？这扎根于本文的“一个失效事件”设定。
计算效率：本文的两阶段估计涉及非线性最小二乘迭代，计算成本可能较高。是否可以发展更高效的算法（如基于 EM 算法或梯度下降的算法）？这扎根于本文的估计程序描述。

Maintained by 陈星宇 · Homepage · Source on GitHub