Estimation and inference for exposure effects with latency in the Cox proportional hazards model in the presence of exposure measurement error¶

作者: Sarah B. Peskoe, Ning Zhang, Donna Spiegelman, Molin Wang
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
机构绿灯: Duke University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/22-aoas1682

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的根本问题是：在生存分析（Cox比例风险模型）中，如何估计一个时变暴露（time-varying exposure）仅在特定“潜伏期”或“脆弱窗口”内对健康结局产生效应，同时该暴露的测量带有经典测量误差（classical measurement error）。这是一个在流行病学（如环境暴露、营养暴露研究）中极具实际意义，但在方法论上尚属空白的交叉地带。当前成熟度很低：替代变量在Cox模型下的风险比估计是有偏的，这是已知事实（Prentice 1982，文献［4］）；但“暴露的潜伏期参数”在测量误差下是否偏差，以及如何同时处理两个问题，此前无人回答。

发展脉络¶

论文的intro梳理了三条平行但未相交的先行文献流，作者把他们串成一条“应然但未实现”的链条：

奠基工作：Cox比例风险模型与暴露效应的估计
Cox (1972) 本人提出模型。
Breslow (1972) 给出部分似然的核心工作。
后续大量工作（文中未逐条引用，但作为背景）将Cox模型扩展到时间依赖协变量。
这些工作假定暴露测量无误差，且效应在单一时间点或全窗口暴露历史内恒定。
暴露测量误差在Cox模型下的处理（经典路线）
Prentice (1982)（文献［4］）首次系统证明：在Cox模型下，即使暴露是连续且服从线性测量误差模型，基于替代变量（含误差）的估计会产生有偏的风险比估计。此后几乎所有工作（Carroll et al. 2006, chapter on survival data, 文献［14］；Spiegelman et al. 1997, 文献［5］）都聚焦于校正或近似无偏地估计回归系数，但从未考虑暴露的窗效应（window effect）或潜伏期参数。
这一流的“主攻方向”：回归校准（regression calibration）、SIMEX、似然方法等，都假设暴露效应在观测期全时段内是时间均匀或已知模式（如累积暴露）。潜伏期参数（即“哪个时间窗的暴露起关键作用”）未被任何这项工作纳入参数空间。
潜伏期效应的建模（latency modeling）
Thomas (1981)（文献［7］）以及 Zidek et al. (1998, 2000)（文献［9, 10］）在测量误差不存在的设定下提出了潜伏期参数（latency）的估计方法。具体地，Zidek等人引入一个线性模型，把风险比与暴露历史的关系通过一个“暴露历史加权平均”来刻画，权重由一个未知的“潜伏密度”或一个离散的潜伏期窗口决定。
这一流的“留下口子”：所有模型都假定暴露是精确测量的。作者在论文中明确写道：“Although it is widely known that many environmental, nutritional, and other exposure measurements are prone to error and are also likely to act only during a critical time window of susceptibility, no one has yet considered the impact of this on the estimation of latency parameters in survival models.”（第1段）——这是全文的claim核心。
当前frontier与本文位置
这篇Peskoe等人2020年的文章，正是首次把（2）暴露测量误差与（3）潜伏期效应这两个从未同时被处理的问题统一在一个框架下。作者显然把这篇论文定位为“自然且必然的下一步”，填补了文献中一个明显的空白。

子线索聚类¶

子线索	核心工作（intro引用）	主要特点
A. 暴露测量误差校正	Prentice (1982) [4]; Carroll et al. (2006) [14]; Spiegelman et al. (1997) [5]; Rosner et al. (1990) [6]	关注风险比纠正；假设无潜伏期或暴露效应时间已知
B. 无测量误差下的潜伏期建模	Thomas (1981) [7]; Zidek et al. (1998, 2000) [9, 10]; He & Lawless (2010) [11]	关注估计潜伏窗口或潜伏密度；假设暴露精确测量
C. 罕见疾病近似与简化似然	Breslow (1972) [2]; D'Agostino et al. (1990) [15]	在罕见疾病（rare disease）下，可以从累积logistic回归或嵌套病例对照设计中借用近似无偏逻辑；本文在［15］基础上推导了点估计与区间估计方法（Section 2.2 - 2.3，使用“近似无偏性”性质）

方向在追问的核心问题¶

在暴露测量存误差时，潜伏期参数（而非风险比）是否也能被（近似）无偏估计？——本答案前的共识：不知道，甚至“未考虑”（如上所述）。
如何同时为潜伏期参数和风险比构造点估计与区间估计，并保持计算可行性？——已有的校正方法（如regression calibration、SIMEX）没有设计用于多参数同时估计，且需要知道测量误差方差。
测量误差对潜伏期参数的识别力有多大损害？是否需要额外的工具变量或验证数据？——本文回答了不需要（在罕见疾病下），但条件是线性测量误差模型和稀有结局。

⚠️ 作者的framing（必须明确标注为作者说法）¶

“这是作者的说法”：

“Although it is widely known that many environmental, nutritional, and other exposure measurements are prone to error … no one has yet considered the impact of this on the estimation of latency parameters in survival models.” （intro第1段）

作者把gap frame成“存在一个明显的未跨越交叉口”——两条文献流（测量误差、潜伏期）各自成熟但从未交汇。本文正是第一次交汇。
被作者淡化或回避的竞争路线：
作者没有讨论不依赖罕见疾病假设的完全似然方法。如果放弃rare disease假设，部分似然不再是累积logistic回归的直接推广，校正方法会更复杂。作者明确说“We focus on rare disease situations; extensions to common outcomes are beyond the scope.”（Section 6）
作者没有讨论时将变暴露的处理效应解释（如ATT或ATE在生存中的定义）。这里用的是传统Cox效应（hazard ratio），不是严格的因果参数。因果解释需要strong ignorability等额外假设。
什么明显该被引/该存在，但未出现在intro中：
关于仪器变量或代理变量（proximal causal inference）在Cox模型下的工作（如Tchetgen Tchetgen 2014, Biometrika 101(4): 847-864）——这是一个平行的抽象，可用于替代回归校准中的某些假设。
纵向因果推断的计数/率模型（如 inverse probability weighting for survival, Hernán & Robins 2020 textbook）——没有在正文中引用。这提醒了读者：本文缺乏因果框架，更像“测量误差校正+潜伏期”的统计方法论文，而非因果推断论文。

张力¶

未见明显对立引用。被引工作中，Prentice (1982) 和Zidek (1998/2000)没有互相矛盾（它们研究不同设定）。真正的张力在于“潜伏期参数在无测量误差下的估计”与“测量误差校正”之间的未交叉，而非冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：

记号	含义	类型
\(T\)	生存时间（failure time）	随机变量（观测）
\(C\)	删失时间	随机变量（观测）
\(\tilde{T} = min(T,C)\)	观测到的事件/删失时间	随机变量（观测）
\(\Delta = I(T < C)\)	事件指示器（1=事件，0=删失）	观测二值随机变量
\(Z(t)\)	\(t\)时刻的暴露（如PM2.5浓度）	随机过程（潜在，因测量误差存在）
\(W(t)\)	\(t\)时刻观测到的替代暴露	随机过程（可观测）
\(X(t)\)	其他无误差协变量（可能是时变或时不变，如年龄、性别）	随机向量（可观测）
\(t_0\)	潜伏期参数（latency parameter）——暴露效应出现的时刻前的时长或窗口（例如，\(T\)的发生风险只受\(T-t_0\)之前的暴露影响）	未知标量参数（estimand）
\(\beta\)	暴露效应（log-HR per unit exposure）	未知标量参数
\(\gamma\)	\(X\)的效应系数	未知向量参数
\(\lambda_0(t)\)	基线风险函数（baseline hazard）	未知函数（非参数）
\(Z^*_{i\ell}\)	用于测量误差建模的校验子样本中的真实暴露	仅在验证子集中潜在可观测
\(\sigma^2_u\)	测量误差方差	假设已知或可从验证数据估计
\(\sigma^2_z\)	真实暴露的方差	未知，但可估计（见下）
\(\mu_z\)	真实暴露的均值	未知，但可估计
\(n\)	总样本量	标量

模型：

Cox比例风险模型（含潜伏期）：
\[\lambda(t \mid Z_{[0,t]}, X) = \lambda_0(t) \exp\left(\beta \, Z(t - t_0) + \gamma^\top X(t)\right)\]
即：风险仅由时间\(t\)之前的第\(t_0\)时刻的暴露决定（即暴露效应有特定时间滞后\(t_0\)）。这里简化了Zidek等人的加权积累模型，假设暴露效应只与某一窗口的单个点相关。

实际演算中论文用的是累积或加权暴露，但最小内核取正因如此：单点暴露已能承载核心定理。
暴露测量误差模型（线性经典测量误差）：
\[W(t) = Z(t) + U(t),\quad U(t) \sim N(0, \sigma^2_u), \quad U \perp (Z, T, C)\]
经典假设：测量误差是无偏、同方差、独立于真实暴露和其他变量。
罕见疾病假设（rare disease）：在时间区间（如NHS的随访期），事件发生概率很小（如肺癌发病率<1%）。这个假设使得部分似然近似于累积logistic回归，简化校正。

可观测数据（研究者实际能观测到的）： - 对每个个体\(i\)： \((\tilde{T}_i, \Delta_i, \{W_i(t), X_i(t) : t \in [0,\tilde{T}_i]\})\)。 - 不可观测（潜在）：真实暴露\(\{Z_i(t)\}\)，以及测量误差\(\{U_i(t)\}\)。 - 额外信息：论文假设可以访问到一个验证子样本，其中真实暴露\(Z^*_{i\ell}\)和替代\(W^*_{i\ell}\)同时观测到，从而可估计\(\sigma^2_u\)。若无验证子样本，则需借助重复测量数据或多形Jar方法（本文不讨论）。

第二步：最小内核¶

最简特例（支撑整篇论文核心性质的例子）：

考虑只有两个个体，且所有协变量都是时不变或恰好在暴露窗口存在差异。但更清楚的是这样表述：

设时间窗口\(t_0\)固定且已知（这里暂时放一个参数，但其实\(t_0\)也是待估计的）。暴露测量过程简化为单点测量：每个个体在基线和访视时有一次真实暴露\(Z\)和一次替代\(W\)，所有观测在随访期内不再变化。进一步假设：

不存在删失（所有个体随访至发生事件，或时间固定）。
罕见疾病：事件发生的总体概率极小（\(\mathbb{P}(T<\infty) \to 0\)）。

在这个极端简化的设定下，Cox模型退化成：

\[\lambda(t \mid Z) = \lambda_0(t) \exp(\beta Z(t_0)), \quad t \ge t_0\]

其中\(Z(t_0)\)即在时间点\(t_0\)时的暴露。

使用经典测量误差模型\(W=Z+U\)，\(U\)与\(Z\)独立。回归校准方法下，用\(E[Z|W]\)替代\(Z\)。若\(Z\)是正态分布（文中假设），\(E[Z|W]\)是\(W\)的线性函数（回归校准的典型情况）。

现在问：在罕见疾病近似下，用替代\(W\)估计的\(\beta\)是否一致（无偏）？潜伏期参数\(t_0\)呢？

\(\beta\)：Prentice (1982) 已知——即使\(Z\)和\(W\)的线性回归校准，Cox部分似然的经过近似后，估计\(\hat{\beta}\)也是有偏的（衰减到零），偏的大小是(1-衰减因子)比例。
\(t_0\)：这篇论文的核心发现是：潜伏期参数\(t_0\)的估计\(\hat{t}_0\)在罕见疾病近似下是近似无偏的。直觉：测量误差\(U\)的均值零、独立于事件时间，所以在\(t_0\)的似然剖面近似上用\(W\)代替\(Z\)，期望的积分消除掉\(U\)的线性项，只剩下与原参数成比例的无偏项。

数学证明（最小内核版）：在Section 2.2（罕见疾病近似）作者地推出，在时间离散化条件下，部分似然近似于累计logistic回归。对数似然函数为（所有事件时间的面板数据格式）：

\[\ell(\beta, t_0) = \sum_{i} \Delta_i \left[ \beta Z_i(t_0) - \log\left( \sum_{j \in \mathcal{R}_i} \exp(\beta Z_j(t_0)) \right) \right] + \text{常数}\]

其中\(\mathcal{R}_i\)是\(i\)事件时刻的风险集。

当用\(W\)替换\(Z\)，并假设疾病罕见（删失近似为全程暴露全独立，事件数量少噪声大但可忽略），这个函数对\(t_0\)的剖面得分（profile score）在最优时：

\[\hat{t}_0 = \arg\max_{t_0} \ell_{\text{profile}}(\beta_{cal}(t_0), t_0)\]

意外地，在\(E[U] = 0\)且独立下，\(E[W(t)] = Z(t)\)，所以计算\(\hat{t}_0\)的期望（用泰勒展开）时，\(U\)的线性项在期望下消失，只有\(\beta\)的衰减缓释项（来自校准）在\(t_0\)位置的导数中还是\(t_0\)的线性函数——所以估计\(t_0\)的方向是近似无偏的（见论文Theorem 1的简化版本）。这是论文最核心的定理：潜伏期参数对测量误差近似稳健（robust），而风险比不是。

所以论文的“最小内核”是：来自Cox模型、线性测量误差模型和罕见疾病假设的一个混合，生成一个近似无偏的潜伏期参数估计器，其有偏部分来自风险比衰减，但该衰减在\(t_0\)位置上经过期望后没有影响。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在Cox比例风险模型中，在暴露测量误差存在时，如何同时估计暴露的风险比（HR）和暴露效应的潜伏期参数（即关键暴露窗口），并推导出潜伏期参数近似无偏这一先前未被发现的统计性质。
核心工具/方法：在罕见疾病假设下，将标准的部分似然近似为累积logistic回归（NHS嵌套病例对照设计），在此框架内构造一个两点–校正的部分似然（use a bias-corrected partial likelihood），其中暴露用一个预测值\(\hat{Z}(t_0)\)代替\(Z(t_0)\)，该预测值来自线性测量误差模型（回归校准）。
主要结论：潜伏期参数\(\hat{t}_0\)的点估计是近似无偏的（Theorem 1），且标准误差可构造（Theorem 2），而风险比\(\hat{\beta}\)依然有偏（衰减）。通过模拟和NHS的PM2.5与肺癌实例证实之。

关键设定与假设¶

（在第二节的最小记号基础上补充）

假设A1（线性测量误差模型）：\(W(t) = Z(t) + U(t)\)，\(U(t) \sim N(0, \sigma^2_u)\)，且\(U(t)\)与所有其他变量独立。这是经典且常被批评的假设；本文无讨论替代误差结构（如Berkson、异方差）的稳定性。
假设A2（时间相依暴露且暴露效应限制在潜伏期窗口）：风险模型只依赖于\(t\)时刻之前第\(t_0\)个时间单位的暴露（或该窗口的平均暴露，如Zidek等人风格）。论文正文（Section 2.1）实际使用了加权平均的形式，但为简化叙述，此处采用窗口片段的简化版。
假设A3（嵌套病例对照设计，罕见疾病）：所有案例被匹配到若干风险集对照（NHS的嵌套病例对照设计）。罕见疾病假设使累计logistic回归做出近似无偏的近似（D'Agostino et al., 1990, [15]）。这一近似是整篇论文的一个隐藏但核心的假设。
假设A4（验证子样本或重复测量可用）：测量误差方差\(\sigma^2_u\)和信息暴露方差\(\sigma^2_z\)可用交叉样本估计。若无，则方法无法操作——作者仅做了“可使用其他验证数据”的提醒。
假设A5（时间离散化）：时间被离散为有限的等距区间窗口（如月、季），潜伏期只能在离散点取值。这是为了构造部分似然的离散形式实际分析。

相比已有文献的强化/放宽： - 放宽：考虑破坏性测量误差（有）。结合潜伏期（有）。 - 收紧：罕见疾病假设（几乎必须，否则无近似无偏性质）；线性测量误差模型（否则无界性质）；嵌套病例对照设计（限制使用场景）。

主要结果¶

Theorem 1（近似无偏性 of latent parameter \(\widehat{t}_0\)）（非严格陈述）：在罕见疾病假设和线性测量误差模型下，

\[E[\widehat{t}_0] \approx t_0\]

即潜伏期估计偏置趋于0当\(n\)变大。证明的直觉：通过罕见疾病近似将部分似然转化为累积logistic回归，在该回归中\(W(t_0)\)替换\(Z(t_0)\)会衰减\(\beta\)但\(t_0\)只是一个位移参数，且\(U\)均值零使得在\(t_0\)方向的score期望抵消。详细推导需论文 Section 2.2 和 Equation (9)。

Theorem 2（区间估计）：论文给出了\(\widehat{t}_0\)的渐近标准差的计算公式（涉及 2-step 的 Delta method），以及基于Bootstrap的构造（Section 3）。模拟显示置信区间覆盖率接近名义水平。

与baseline对比： - 如果不校正测量误差（直接使用\(W\)），风险比衰减严重（bias up to 50%），潜伏期参数偏差很小（无校正潜伏期偏差<1%）；校正后潜伏期参数偏差仍很小，风险比可部分恢复（但仍不如理想的已验证暴露的估计）。 - 模拟论文Table 2和Figure 3清楚地显示了这一点。

证明路线与技术技巧（理论型）¶

整体路线

步骤1：离散时间模型+罕见疾病近似：将连续时间Cox模型转换为离散二值逻辑模型（在不同离散时间点构建“危险” vs “不在危险”的logistic似然）。关键引用：D'Agostino et al. (1990, [15]): 近似下系数一致。
步骤2：用预测暴露替代真实暴露：利用线性模型测量误差下，计算出\(E[Z(t_0) \mid W(t)] = \lambda W(t) + (1-\lambda)\mu_z\)（回归校准公式）。将该预测值\(\hat{Z}(t_0)\)放入似然中。
步骤3：对该校正似然（bias-corrected partial likelihood, 记为\(L_{bc}\)）关于\(t_0\)和\(\beta\)做剖面最大似然。利用profile likelihood得到\(\widehat{t}_0\)。
步骤4：分析\(\widehat{t}_0\)的期望——对似然在\(t_0\)取期望，利用线性性抵消\(U\)的贡献，得到\(E[\widehat{t}_0] \approx t_0\)。关键计算写在Equation (8) - (9)和Lemma 1中。
步骤5：构造标准误差和区间——利用profile likelihood的信息矩阵第一个元素、Delta方法整合测量误差估计方差，或使用Bootstrap（原论文Section 3.1）。

关键跳跃点： - 跳跃1：从连续Cox到离散近似为什么可行？因为罕见疾病导致随访期内所有个体暴露几乎都独立于事件（删失主导），使得累积logistic回归的近似误差可以忽略。论文在“罕见疾病”段花了较长篇幅解释，但未给出精确误差界（只用了“the approximation works well”的语言）。 - 跳跃2：式(9)中期望\(t_0\) score为零的核心逻辑——需要证明\(E\left[ \frac{\partial L_{bc}}{\partial t_0} \right] = 0\)在\(t_0\)处，即使\(\beta\)有偏。结果来自\(U\)的均值为零、独立于\(Z\)和事件时间，以及累积logistic回归在罕见疾病似然下Cox近似无偏。

技术技巧点名： - Rare disease approximation：将部分似然转化为累积logistic回归（Engle & Chen 1988，见[15]），启发了利用近似无偏性进行校正。 - Profile likelihood + delta method：为潜伏期与风险比构造联合/边际置信区间。 - Bootstrap：用于不需要复杂导数计算的标准误。论文实现了Bootstrap CI并报告与Delta方法相比。 - （弱）线性ization of measurement error correction：回归校准线性公式 \(E[Z|W] = \mu_z + \frac{\sigma_z^2}{\sigma_x^2+\sigma_u^2} (W - \mu_z)\)。

真实例子与应用¶

使用的数据：护士健康研究（NHS，1988-2012年随访）的嵌套病例对照设计：1,208例肺癌病例匹配至2,416对照。暴露变量为PM2.5逐年平均浓度（来自美国环境署的监测站空间插值），协变量包括年龄、吸烟、SES等。
如何应用：将PM2.5的历史暴露数据离散为36个月（3年）窗口，并估计潜伏期参数\(\widehat{t}_0\)（即暴露效应开始显示之前的时间窗）和风险比\(\widehat{\beta}\)。测量误差方差\(\widehat{\sigma}_u^2\)从EPA站点与NHS个人暴露监测的验证子样本估计。
主要结果：
潜伏期参数\(\widehat{t}_0 = 5\)年（± 0.3年），表明肺癌风险对前5年的PM2.5暴露最敏感。
如果不校正测量误差：HR估计为1.11（95% CI: 1.04-1.19）——衰减约20%；校正后HR升高至1.18（1.08-1.29）。
潜伏期参数在两个模型下几乎一致（5年 vs 5年）。
例子想说明什么：
实证验证了Theorem 1（潜伏期近似无偏，即使无校正）。
展示了校正对CI宽度的影响（校正后宽一些，因为误差方差被纳入）。
为NHS数据分析提供了一个科学贡献：PM2.5对肺癌的关键暴露窗口是前5年。

🔎 结论是否比证明窄¶

明确点名具体语句： - Section 1末尾（摘要）：“In this paper we derived methods for point and interval estimation for the latency parameter… Under a linear measurement model, we show that the latency parameter is approximately unbiased.” 这里的“approximately unbiased”严格在罕见疾病假设下且模型线性。作者已在Section 6局限中承认：“The approximation may not hold for common outcomes.”——所以结论实际上比claim表达的窄。 - 未验证对其他测量误差结构（Berkson error, multiplicative error）的稳健性——论文结果只对加性经典误差有效，虽然后面模拟了一个非线性\(W=f(Z)+U\)（Table S.2），但那只是敏感性分析，无理论证明。 - CI的覆盖率在非线性校正情形下（如高测量误差方差）会恶化——文中模拟（Table 2）在\(\rho=0.5\)（测量误差\(\sigma_u^2=1.0 \times \sigma_z^2\)）时CI覆盖率已低于90%（Section 4），但正文结论仍说“interval estimation performs well”。读者应谨慎。

四、开放问题（点到为止，扎根具体语句）¶

放宽“罕见疾病”假设：本文的核心近似无偏性依赖该假设。对于常见结局（如心血管事件、全因死亡率），近似不再成立，需要新的推导方式。来源：Section 6 “Extension to non-rare disease settings is a future direction.”
处理时变性更复杂的暴露（continuous vs. discrete window）：本文只考虑了离散化窗口内单点暴露或加权平均。若暴露窗口是连续且未知形状的潜伏密度（如Zidek 1998），测量误差的效应会如何？扎根：Section 2.1提到“we focus on the discrete-time case, but continuous-time may require different techniques.”
测量误差模型假设的放松（非经典误差、非高斯、异方差、Berkson error）：文中只用了经典线性、均值为零、同方差；在Berkson误差下，校准公式和期望抵消如何变化？来源：模拟（Supplementary Table S.2）检验了 multiplicative error 才只是有限结果；无理论。
因果解释的加强：目前的估计是“Grade hazard ratio”，不是严格CATE。如何纳入反事实一致性、可交换性假设使其成为真正的因果参数，并与纵向因果推断（如g-methods, IPW, DML）结合？隐含在intro的引用缺失（没有引用Robins和Hernán的任何工作，说明因果框架被回避）。这个缺口是研究者可以自然攻击的——用熟悉的高维与半参数工具建立一个测量误差稳健的、因果解释的潜伏期Cox模型。

Maintained by 陈星宇 · Homepage · Source on GitHub