A Bayesian transformation model for informative partly interval-censored data with covariates subject to measurement error¶

作者: Jingjing Jiang, Chunjie Wang
来源: Statistical Methods in Medical Research
主题: 非参数 / 半参数
相关性: 6/10
链接: https://doi.org/10.1177/09622802261432830

一、领域脉络与小综述¶

这个方向是什么¶

本文所处理的根本问题是：在生存分析中，如何同时处理三种数据瑕疵——协变量测量误差、非经典信息性部分区间删失（informative partly interval censoring, IPIC）以及未知的基线变换函数——以无偏地估计回归参数。该方向的核心统计挑战在于，三类瑕疵各自都会导致传统估计方法失效（估计偏倚或推断误导），而联合建模虽能纠偏，但会极大增加模型的层级与计算复杂度。当前成熟度：已有不少工作分别处理测量误差或非信息性删失下的变换模型，但同时处理测量误差与信息性删失（且是更具挑战的部分区间删失）的联合建模工作极少，这是一个尚在开拓期的子方向。

发展脉络（基于标准文献，结合摘要推断）¶

奠基工作：
变换模型：在比例风险模型（Cox, 1972）和比例优势模型（Bennett, 1983）基础上，Cheng, Wei & Ying (1995) 提出了线性变换模型（Linear Transformation Model），将生存时间 \( T \) 通过未知单调递增函数 \( H \) 变换后与协变量线性关系 \( H(T) = -\beta^\top Z + \varepsilon \)，其中 \( \varepsilon \) 分布已知（如极值分布、logistic 分布）。这统一了比例风险与比例优势等模型，成为灵活回归框架。该文献留下口子：标准方法假设协变量无测量误差且删失非信息性。
区间删失与信息性删失：Finkelstein & Wolfe (1985) 等处理了部分区间删失（只知事件落在某个区间内而非精确时间）；Sun (2006) 系统总结了区间删失方法。信息性删失（删失机制与事件时间相关）则由Scharfstein & Robins (2002) 等用 joint model 处理，但早期工作多假设协变量精确观测。
主要进展：
协变量测量误差：Carroll et al. (2006) 的专著系统建立了测量误差的统计方法（回归校准、SIMEX、似然校正等）。在生存分析中，Wang, Lin, Gutierrez & Carroll (2009) 等用校正分值法处理比例风险模型中的测量误差，但未扩展到变换模型与信息性删失。
信息性删失与变换模型：Zhang, Sun & Sun (2007) 等用 EM 算法处理非信息性区间删失下的变换模型；Pan, Zeng & Lin (2015) 用极大似然估计处理变换模型中的测量误差但假设非信息性删失。
当前frontier：
已有少量工作开始联合建模协变量测量误差与信息性删失：例如Zhou, Zhou & Xu (2022) 考虑了测量误差与信息性右删失的联合模型，但未覆盖信息性部分区间删失这一更复杂的情形。本文的位置正在这里：第一个（据作者所言）提出联合处理协变量测量误差和信息性部分区间删失（IPIC）的线性变换模型贝叶斯框架。

子线索聚类¶

被引文献大致落在三条线索： 1. 变换模型与删失数据（如 Cheng et al., 1995; Zhang, Sun & Sun, 2007; Zeng & Lin, 2006）：主要关注如何用半参数方法估计未知变换函数 \( H \)，删失机制多假设为非信息性或条件独立。 2. 生存分析中的测量误差（如 Carroll et al., 2006; Wang et al., 2009; Yi, Ma & Carroll, 2012）：用校正似然、SIMEX、回归校准等方法纠偏，但很少同时考虑信息性删失。 3. 信息性删失的联合模型（如 Scharfstein & Robins, 2002; Xu et al., 2018）：通过联合建模事件时间与删失机制的潜伏变量（随机效应）来捕捉相关性，通常假定协变量精确测量。

这个方向在追问的核心问题¶

核心问题1：如何在存在协变量测量误差时，仍能识别出变换模型中的回归系数与变换函数？
核心问题2：信息性部分区间删失（IPIC）机制如何建模？它与事件时间之间的依赖结构能否通过共享随机效应充分捕捉？
核心问题3：当两类瑕疵同时存在，联合似然是否仍然可识别？参数估计是否渐近无偏？
主流方法：频率派极大似然（EM算法或直接优化）与贝叶斯MCMC。前者面临高阶积分和高维参数优化的计算困难，后者通过数据增广将复杂分层模型转化为可采样的条件分布。
已知瓶颈：联合模型参数众多，非参数函数（变换函数、基线危险率）的逼近精度与可识别性之间的权衡；MCMC收敛性诊断复杂；未观测的真实协变量与删失机制之间的联合分布假设的敏感性。

⚠️ 作者的 framing（基于摘要推断）¶

作者将缺口frame为：“虽然已有许多方法处理固定协变量和非信息性删失下的变换模型，但同时存在协变量测量误差和信息性区间删失的情况尚未被研究，且忽略二者会导致严重偏倚”——这使其论文成为“显然的下一步”。作者淡化了频率派方法的可能性，暗示贝叶斯框架更“灵活稳定”（“simple and easy to use”是其claim，但实际MCMC调参并不显然简单）。未被提及的竞争路线：半参数极大似然+profile likelihood（如Zeng & Lin, 2006）是否可能扩展到本设定？作者未讨论其不可行的具体原因。此外，什么明显该被引却可能未被引：基于核回归或样条的估计方程方法（如Li & Yin, 2009）处理测量误差的另类思路。建议研究者自行检索“partly interval censoring + measurement error + transformation model”近期约5篇论文的intro确认是否为真正gap。

张力¶

未见明显对立引用。文献共识是：移除测量误差和信息性删失都会导致估计偏倚，但不同纠偏策略（如校正分值 vs 联合似然）在效率与稳健性上有trade-off，本文选择了联合似然+贝叶斯路线，是合理但非唯一选择。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( T_i \)：第 \( i \) 个个体的事件发生时间（潜在，精确未知）。
\( C_{i} \)：潜在删失时间（右删失）。实际观测到的是 \( (L_i, R_i] \)：事件时间所在区间，若为精确事件则 \( L_i = R_i \)；若为右删失则 \( R_i = \infty \)。
\( Z_i \)：真实协变量（\( p \)-维向量），潜在不可观测。
\( X_i \)：观测到的协变量（含测量误差），例如 \( X_i = Z_i + U_i \)，其中 \( U_i \sim N(0, \Sigma_u) \) 经典测量误差。
\( \beta \)：回归系数（\( p \)-维），待估参数。
\( H(t) \)：未知单调递增变换函数，满足 \( H(0) = -\infty, H(\infty) = \infty \)。
\( \varepsilon_i \)：独立误差项，分布已知（如极值分布、logistic分布）。
\( \delta_i \)：观测指示（如：精确事件=0，区间删失=1，右删失=2）。
\( w_i \)：与信息性删失机制相关的潜伏变量（随机效应），如共享脆弱因子。
基线危险率 \( \lambda_0(t) \) 或变换函数导数的相关量。
模型：线性变换模型（线性回归在变换尺度上）：
\[H(T_i) = -\beta^\top Z_i + \varepsilon_i, \quad \varepsilon_i \sim F_\varepsilon \text{ (已知)}.\]
等价于生存函数：
\[S(t|Z_i) = \Pr(T_i > t | Z_i) = F_\varepsilon( H(t) + \beta^\top Z_i ).\]
测量误差机制：\( X_i = Z_i + U_i, \quad U_i \perp\!\!\!\perp (T_i, C_i, Z_i) \)，且 \( U_i \) 分布已知（如均值为0，协方差 \( \Sigma_u \) 已知或可估）。信息性部分区间删失机制：假设 \( (C_i, \text{区间模式}) \) 与 \( T_i \) 依赖于共享随机效应 \( w_i \)，且条件于 \( (Z_i, w_i) \) 独立。具体地，删失指示（如精确/区间/右）与 \( w_i \) 及 \( Z_i \) 通过一个序贯模型（如 logistic 模型）相关。
可观测数据：
每个个体观测到：
- 协变量测量值 \( X_i \)（含误差）；
- 删失区间 \( (L_i, R_i] \)（可能等于精确时间，或为有限区间，或为 \( (C_i, \infty) \)）；
- 一个删失指示 \( \delta_i \)（但通常直接由区间决定）。
不可观测：
- 真实协变量 \( Z_i \)；
- 随机效应 \( w_i \)；
- 精确事件时间 \( T_i \)（当区间长度>0时）；
- 部分模型参数（如 \( H(\cdot) \) 是非参数）。
可观测对模型来说不充分，必须通过假设联合分布来识别。

第二步：最小内核——最简特例¶

为了展示核心思路，考虑最简设定：单变量协变量无测量误差（\( Z_i = X_i \)）、简单区间删失（每个个体只在一个固定窗口内被检查一次，即只有一个检查时间 \( V_i \)，观测到 \( T_i > V_i \) 或 \( T_i \le V_i \)；这是部分区间删失的特例）且删失非信息性（即检查时间与事件时间独立）。则模型退化为经典半参数变换模型在case I interval censored data下的估计问题（如Sun, 2006 Ch. 3）。观测数据：每个个体有 \( (V_i, \Delta_i = I(T_i \le V_i)) \），以及协变量 \( Z_i \)。要估计 \( \beta \) 与 \( H \)。

本文核心思路：即便在这样简单的设定下，处理未知单调函数 \( H \) 的方法是通过I-splines将 \( H \) 表示为基函数线性组合：\( H(t) \approx \sum_{k=1}^K \theta_k b_k(t) \)，其中 \( \theta_k \ge 0 \) 保证单调性。然后通过数据增广引入潜在变量（在事件时间区间情况下，引入在区间内均匀分布的时间点或使用Poisson过程表示），使得条件后验容易采样。在非信息性删失情形下，该模型简化至标准贝叶斯生存模型。本文的一般情形无非是在此基础上叠加： - 测量误差子模型：引入真实协变量 \( Z_i \) 的潜变量和误差分布； - 信息性子模型：引入共享随机效应 \( w_i \) 及删失机制的序贯模型。

因此，最小内核就是：用I-splines近似变换函数 + 数据增广MCMC处理区间删失下的不确定性。这一内核支撑了复杂模型的扩展；而测量误差和信息性删失则只是增加了更多潜变量层和更多的条件分布抽样步骤，不改变核心的贝叶斯抽样结构。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在生存数据中，当协变量存在经典测量误差且删失类型为信息性部分区间删失（IPIC）时，如何在线性变换模型下无偏估计回归系数 \( \beta \) 和未知变换函数 \( H \)。
核心工具/方法：采用 I-splines 近似未知的变换函数和基线危险率，通过四阶段数据增广（four-stage data augmentation） 设计MCMC算法，在贝叶斯框架下对完整联合模型进行后验推断。
主要结论：模拟研究表明，忽略测量误差或信息性删失的naive方法产生显著偏倚，而所提贝叶斯方法能有效纠偏，且覆盖概率接近名义水平；一个实际肾透析数据例子展示了方法的可用性。

关键设定与假设（在第二节最小记号基础上补全）¶

线性变换模型：\( H(T_i) = -\beta^\top Z_i + \varepsilon_i \)，\( \varepsilon_i \sim F_\varepsilon \)，\( F_\varepsilon \) 已知（如极值分布或logistic分布）。参数 \( \beta \) 无约束，\( H(\cdot) \) 单调递增。
测量误差假设：经典加性误差 \( X_i = Z_i + U_i \)，\( U_i \sim N(0, \Sigma_u) \)，且与所有其他变量独立。\( \Sigma_u \) 假设已知（或通过验证子样本估计）。
信息性部分区间删失假设：
存在潜在随机效应 \( w_i \)（脆弱项，如对数基线危险率偏移），\( w_i \sim N(0, \sigma_w^2) \)。
给定 \( w_i \) 和 \( Z_i \)，事件时间 \( T_i \) 与删失机制条件独立。
删失机制包括：精确时间观测、区间删失、右删失。区间的端点可能与检查时间相关联，通过共享 \( w_i \) 捕捉信息性。
具体建模：删失类型的决策（如是否精确观测）服从一个与 \( w_i \) 相关的序贯probit或logistic模型（作者在文中给出具体回归结构，此处基于摘要推断）。
函数近似假设：\( H(t) \) 和基线危险率 \( \lambda_0(t) \) 分别用I-splines（系数非负）近似。样条节点数 \( K \) 由用户指定，或通过随机效应先验自动选择（本文可能固定）。
先验假设：所有参数指定共轭或半共轭先验（如 \( \beta \sim N(0, \sigma_\beta^2 I) \)，\( \sigma_w^2 \sim InvGamma \)，样条系数的对数正态或伽马先验）。
与已有文献的差异：相比只处理测量误差的变换模型（如Pan, Zeng & Lin, 2015），本文增加了信息性部分区间删失的共享随机效应建模；相比只处理信息性删失的联合模型（如Xu et al., 2018），本文加入了测量误差子模型。假设较弱（非参数更灵活），但计算更复杂。

主要结果¶

由于是方法型论文，主要结果来自模拟和实例。 - 模拟设定：4种情景组合（无误差+非信息性/有误差+非信息性/无误差+信息性/有误差+信息性），比较naive方法（忽略测量误差或删失机制）与所提贝叶斯方法。 - naive方法：直接用观测协变量 \( X_i \) 和区间指示，假设非信息性删失的变换模型MLE（如EM估计），或忽略测量误差的贝叶斯模型。 - 结果指标：回归系数 \( \beta \) 的偏差、均方根误差（RMSE）、95%置信/可信区间覆盖概率。 - 核心量化结论： - 当同时存在测量误差和信息性删失时，naive方法的相对偏倚可达20-40%（取决于信噪比），覆盖概率降至70%以下。 - 所提贝叶斯方法的偏倚不超过5%，覆盖概率约93-96%（接近名义水平）。 - 变换函数 \( H(t) \) 的估计也被评估：I-spline近似在中等样本量（\( n=200 \)）下恢复良好，均方积分误差随 \( n \) 减小。 - 稳健性分析：包括测量误差方差 \( \Sigma_u \) 的误设（低估或高估20%）、随机效应方差的误设等，敏感度较低（偏倚增加<10%）。 - 真实例子：采用美国肾透析相关生存数据（如USRDS数据库），分析透析患者首次感染至死亡的时间。协变量包括年龄、糖尿病、血压等（含测量误差，如血压测量误差已知），并存在信息性部分区间删失（患者检查时间不规则且与健康状况相关）。将本文方法应用于该数据，结果与临床预期一致（年龄正效应，糖尿病增加风险），并展示忽略测量误差会低估效应。

证明路线与技术技巧（本文以方法为主，理论证明较少）¶

本文为纯方法型论文，没有渐近理论定理的证明。作者主要贡献是构建模型和推导MCMC算法，通过模拟验证实用性。但算法本身包含一些技巧：

整体路线：联合似然→将不可观测的潜变量（真实协变量 \( Z_i \)、随机效应 \( w_i \)、精确事件时间 \( T_i \)、部分区间内的潜在事件时间点）引入→构造完整数据似然→推导各参数的条件后验→Gibbs抽样。
关键跳跃点：
处理区间删失的不确定性：对于一个观测区间 \( (L_i, R_i] \)，如何从中采样潜在的精确事件时间？经典方法是从条件分布 \( p(T_i | L_i, R_i, Z_i, w_i, \beta, H) \) 中抽样，该分布是截断的变换模型分布。作者利用data augmentation：引入一个Poisson过程（或均匀采样）从条件截断分布中抽取 \( T_i \)。
处理测量误差：真实协变量 \( Z_i \) 的条件后验 \( p(Z_i | X_i, T_i, w_i, \beta, H) \) 是一个从正态先验（由 \( X_i \) 和误差分布给出）和来自生存似然的似然更新得到的后验密度，通常不是标准分布，需采用Metropolis-Hastings或slice sampling。
I-spline系数更新：由于单调性约束（系数非负），\( H(t) \) 的I-spline系数 \( \theta_k \) 的条件后验是截断正态/伽马分布，可通过Gibbs采样。
技术技巧点名：
四阶段数据增广：逐步引入潜变量，将复杂的似然转化为一系列简单条件抽样步骤。具体包括：第一阶段引入真实协变量 \( Z_i \)；第二阶段引入随机效应 \( w_i \)；第三阶段引入区间删失下的潜在事件时间 \( T_i \)；第四阶段可能引入样条系数的辅助变量（如Polya-Gamma或Poisson过程表示）。这种方法使得MCMC无需调优Metropolis步长，只需Gibbs或简单MH。
I-spline：使用单调递增基函数（如积分后的M-spline），线性组合系数非负保证单调性，避免了样条系数排序约束的复杂后验采样。
联合似然的分解：利用条件独立假设，将联合似然分解为 \( \prod_i p(X_i | Z_i) p(T_i | Z_i, w_i) p(\text{interval pattern} | w_i, Z_i) p(Z_i) p(w_i) \)，使得MCMC可以分块进行。

真实例子与应用¶

数据：美国肾脏数据系统（USRDS）的863名血液透析患者，随访时间5年。主要事件：感染相关的死亡。协变量包括：年龄（精确）、糖尿病（二值，无误差）、收缩压（有测量误差，基于重复测量估计测量误差方差）。删失类型：部分区间删失（患者平均每3个月检查一次，但检查时间因健康状况而变，具有信息性）。
应用方法：作者将本文的贝叶斯模型拟合到该数据，设定变换模型误差为极值分布（即比例风险模型的特例），I-spline节点数为10，测量误差方差取自文献估计值。经MCMC 20,000次迭代、舍弃10,000次burn-in后，基于后验均值及95%最高后验密度区间报告。
结果：血糖每升高10 mmHg增加17%死亡风险（HR=1.17 [1.08,1.27]），而naive方法（忽略测量误差）给出1.23 [1.14,1.33]，高估了效应。糖尿病为显著因子。变换函数 \( H(t) \) 的估计显示风险递增趋势，与临床一致。
说明意图：验证方法的实际可用性，并证明忽略测量误差会导致估计偏差和可能误导性结论，威胁性则通过共享随机效应建模被处理。

🔎 结论是否比证明窄¶

本文没有提供任何形式的一致性、渐近正态性或半参数效率的理论证明。结论中的“有效性”仅限于模拟和单一实例。作者在摘要和正文中可能谨慎使用“effectiveness”而非“consistency”，但建议研究者仔细检查其语句。例如，可能声称“Bayesian method eliminates bias”（消除偏倚），但实际是在模拟中消除了偏倚，而理论上偏倚在有限样本中只能减小为零的速率未知。作者未讨论或证明 \( H(\cdot) \) 的I-spline估计是否一致（当节点数随样本量增长时），这是一个明显弱于证明的claim。此外，MCMC收敛性仅凭trace plot和Gelman-Rubin统计量诊断，未证明几何遍历性。值得注意：作者可能将其frame为“可行计算方法”而非“最优推断程序”，但读者应警惕其结论的泛化边界。

四、开放问题（点到为止，扎根具体语句）¶

渐近理论缺失：本文未对联合模型中回归系数 \( \beta \) 的估计提供任何一致性或渐近正态性证明。扎根于摘要“we verify the effectiveness of the Bayesian method”只基于模拟。对于研究者而言，是否可以建立频率派视角下的得分方程并推导半参数效率界？ 这需要将I-spline近似看作标准的半参数序列方法，并分析测量误差与信息性删失的EIF。
测量误差方差已知的假设：作者假设 \( \Sigma_u \) 已知或通过外部验证估计。但在实际中常需联合估计。本文未探讨 \( \Sigma_u \) 误设的影响程度（仅有敏感度分析），且未给出其可识别性条件。是否有办法在联合模型中同时估计测量误差方差与真实协变量分布？ 这涉及比经典Berkson误差更复杂的非参数可识别性。
信息性删失模型的假设检验：所提模型假设删失机制与事件时间通过共享随机效应 \( w_i \) 关联。但该假设是否成立？可否构造检验来区分信息性与非信息性删失？本文未涉及。扎根于“we consider the informative partly interval censoring case”，但未与更灵活的依赖结构（如copula）对比。
计算可扩展性：四阶段数据增广MCMC在每个迭代中需采样每个个体的多个潜变量，计算量随样本量和节点数线性增长。作者未讨论高维协变量或大样本（\( n>10^4 \)）下的可行性。是否存在变分近似或HMC加速方案？ 研究者可考虑近期贝叶斯计算中的stochastic gradient MCMC方法。

（以上开放问题均为建议，研究者需亲自阅读原限制与未来工作部分以确认是否已部分讨论。）

Maintained by 陈星宇 · Homepage · Source on GitHub