Regression methods for cost-effectiveness analysis with different censoring times or terminating events for survival time and costs¶

作者: Dingning Liu, Shuai Chen
来源: Biometrics
主题: 流行病学
相关性: 3/10
机构绿灯: University of California, Davis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag073

一、领域脉络与小综述¶

这个方向是什么：成本-效果分析（Cost-Effectiveness Analysis, CEA）是卫生经济学与流行病学中评估医疗干预价值的核心工具，其根本统计问题是在存在删失与不同终止事件的情况下，如何从随机化或观察性临床试验数据中无偏、尽可能精确地估计增量成本-效果比（ICER）或增量净效益（INB）。该方向的成熟度在应用层面已高度标准化（NICE等机构有明确指南），但在统计方法论层面，尤其是面对复杂删失结构与协变量调整时的半参数效率理论，仍存在明显空缺。

发展脉络：由于本次材料仅含摘要与元数据，无法直接提取作者在 Introduction 中手绘的 gap 地图与引用句，以下脉络基于摘要中明确提及的技术节点与该子领域的经典工作重建： - 奠基工作（标准生存分析失效）：传统 Kaplan-Meier 与 Cox 模型适用于右删失生存时间，但摘要指出，对于累积成本或质量调整生命年（QALY）这类累积终点，由于诱导信息性删失（induced informative censoring，即个体的死亡时间既决定了成本累积的终止，又与成本总量相关），标准方法不能直接套用。此问题的经典奠基通常指向 Lin et al. (1997) 与 Bang & Tsiatis (2000) 提出的基于逆概率加权（IPW）的均值估计。 - 主要进展（不同删失/终止结构）：当成本与效果面临不同的终止事件（如 MADIT-CRT 中，效果终点为“无心力衰竭生存”，成本终点为“死亡”）或不同删失时间时，简单的联合建模或单一终点 IPW 不再适用。已有文献（如 Zhao et al. 的系列工作或 Willan et al.）提出了针对不同终止事件的 CEA 方法，但摘要明确断言：“Although some CEA methods have been proposed for different terminating events or censoring times, none provide covariate adjustment.” - 当前 frontier 与本文位置：前沿在于如何在复杂删失下引入协变量调整以改善效率并应对不完美随机化。本文即填补此口子：提出回归框架下的估计方法，将协变量纳入不同删失/终止结构的 CEA。

子线索聚类： 1. 累积终点的删失估计：处理诱导信息性删失的纯统计线索（IPW、增广IPW/AIPW、回归映射）。本文落在“回归映射”这一簇。 2. 不同终止/删失机制的联合建模：成本与效果拥有不同风险集与删失过程的线索。本文在此线索上引入协变量。 3. 协变量调整与亚组识别：为提升效率或修正随机化瑕疵而引入基线协变量的线索。本文将此与线索2结合。

这个方向在追问的核心问题： 1. 如何在诱导信息性删失下识别并估计累积成本与效果的边际均值？ 2. 当两个终点拥有不同的终止事件与删失时间时，如何保持估计的一致性？ 3. 如何通过协变量调整提升有限样本效率，并在不完美随机化下恢复无偏性？ 4. 当前瓶颈：现有方法要么只处理单一终点，要么处理不同终点但无法纳入协变量；且该设定下的半参数效率界与鲁棒性（双重鲁棒性）理论几乎未被触及。

⚠️ 作者的 framing： - 作者的说法：缺口被 frame 为“现有处理不同终止事件/删失时间的 CEA 方法均无法提供协变量调整”，因此本文的回归框架是“显然的下一步”。 - 被淡化或回避的路线：摘要完全未提及半参数效率理论（Efficient Influence Function / AIPW / TMLE），也未提及双重鲁棒性（Double Robustness）。作者选择了回归映射路线，回避了可能更具鲁棒性但推导更复杂的半参数路线。 - 明显该被引却缺席的（需研究者去查）：Robins & Rotnitzky (1992/1995) 关于信息性删失下的 AIPW 理论；van der Laan & Robins (2003) 的 TMLE 框架；以及近年来将 TMLE 应用于 CEA 的工作（如 Luedtke et al.）。若本文未引这些，说明其理论视野停留在经典回归层面，未进入现代因果推断的效率理论语境。

张力：未见明显对立引用。但存在一条隐性张力：回归映射方法通常依赖模型正确设定（既依赖成本/效果回归模型，又依赖生存模型），而 IPW/AIPW 路线在不同程度上提供模型错误设定下的保护。作者未在摘要中讨论其回归方法的鲁棒性条件。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：处理分配（二值，1=新疗法，0=标准疗法）。
\(Z\)：基线协变量向量（维度 \(p\)）。
\(T_e\)：效果时间（潜在效果终点时间，如无心力衰竭生存时间）。
\(T_c\)：成本累积终止时间（潜在成本终点时间，如死亡时间）。注意：\(T_e \neq T_c\) 是本文核心设定。
\(C_e, C_c\)：效果与成本的删失时间（可能不同，\(C_e \neq C_c\)）。
\(M\)：潜在累积总成本（从 0 到 \(T_c\) 的成本积分）。
\(X_e = \min(T_e, C_e)\)：可观测的效果时间。
\(\delta_e = I(T_e \le C_e)\)：可观测的效果删失指示子。
\(X_c = \min(T_c, C_c)\)：可观测的成本终止时间。
\(\delta_c = I(T_c \le C_c)\)：可观测的成本删失指示子。
可观测数据：对于每个个体，我们观测到 \((A, Z, X_e, \delta_e, X_c, \delta_c, \text{部分成本数据})\)。部分成本数据的形态取决于 \(X_c\) 与 \(\delta_c\)：若 \(\delta_c=1\)（观察到死亡），则观测到总成本 \(M\)；若 \(\delta_c=0\)（删失），则只观测到 \([0, X_c]\) 区段内的累积成本 \(M(X_c)\)。
不可观测/想要但观测不到的量：我们想要 \(E[M | A=a]\) 与 \(E[T_e | A=a]\)，但部分个体的 \(M\) 与 \(T_e\) 被删失截断，且删失机制对成本是信息性的（\(T_c\) 既截断 \(M\) 又与 \(M\) 相关）。

第二步：最小内核

剥掉多终点与亚组识别的复杂性，考虑最简特例：仅估计单一终点（成本）的边际均值 \(E[M | A=1]\)，且假设条件独立删失。

核心困难：由于诱导信息性删失，\(E[M | A=1]\) 不能用简单的 Kaplan-Meier 型乘积极限估计。IPW 方法（Bang & Tsiatis 2000）通过 \(E[\sum_{t} \Delta M(t) / K_c(t) | A=1]\) 逆概率加权重构，但无法纳入协变量 \(Z\) 调整效率。
本文最小内核思路（回归映射）：利用条件期望的迭代律：
\[E[M | A=1] = E\big[ E[M | T_c, Z, A=1] \big| A=1 \big]\]
第一步（回归条件均值）：在处理组内，建立 \(M\) 对 \((T_c, Z)\) 的回归模型 \(\mu(T_c, Z) = E[M | T_c, Z, A=1]\)。对于 \(\delta_c=0\) 的个体，用此模型预测其未观测的完整成本 \(M\)。
第二步（积分/平均）：将所有个体（无论是否删失）的 \(\mu(T_c, Z)\) 在处理组内求平均，得到 \(\hat{E}[M | A=1]\)。
为什么成立：只要回归模型 \(\mu(T_c, Z)\) 设定正确，且 \(T_c\) 与 \(Z\) 在处理组内可被无偏观测/估计，该条件期望迭代律天然消除了 \(C_c\) 对 \(M\) 的直接依赖，将信息性删失问题转化为对 \(T_c\) 的生存分布估计与对 \(M\) 的回归估计。纳入 \(Z\) 变得极其自然——只需在第一步回归与第二步求平均时加入 \(Z\) 即可。论文的一般情形只是将此逻辑分别应用于 \(T_e\) 与 \(M\)，并处理 \(T_e \neq T_c\) 时的风险集差异，最后组合成 ICER 或 INB。

三、这篇论文做了什么¶

三句话： ① 研究了成本与效果具有不同终止事件或不同删失时间时，如何估计 ICER 与 INB 的问题； ② 核心方法是利用条件期望迭代律的回归映射框架，将协变量纳入累积终点与生存时间的条件均值建模中； ③ 主要结论是该方法允许协变量调整（提升效率、修正不完美随机化）与亚组识别，模拟与 MADIT 试验实证显示有限样本表现可行。

关键设定与假设： - 不同终止事件设定：\(T_e\)（如无心力衰竭生存）与 \(T_c\)（如死亡）是不同的潜在终点，拥有不同的风险集。 - 不同删失时间设定：\(C_e\) 与 \(C_c\) 可以不同（如 MADIT-II 中成本收集提前停止）。 - 诱导信息性删失：\(T_c\) 截断 \(M\)，且 \(T_c \perp M\) 不成立。 - 条件独立删失假设（关键假设）：虽摘要未显式写出公式，但回归映射方法的一致性必然依赖：在给定协变量 \(Z\) 与处理 \(A\) 下，删失时间与潜在终点独立，即 \(C_e \perp T_e | Z, A\) 且 \(C_c \perp T_c | Z, A\)（或至少条件均值独立）。这是对无条件独立假设的放宽，也是纳入 \(Z\) 的统计代价。 - 模型设定假设（隐性但致命）：方法依赖 \(E[M | T_c, Z, A]\) 与 \(E[T_e | Z, A]\) 等回归/生存模型的正确设定。相比 AIPW 的双重鲁棒性，此假设更强。

主要结果： - 方法型核心结论：构造了基于回归的 \(\hat{E}[M | A=a]\) 与 \(\hat{E}[T_e | A=a]\) 估计量，进而构造 \(\hat{ICER}\) 与 \(\hat{INB}\)。由于纳入了 \(Z\)，在 \(Z\) 分布不平衡（不完美随机化）时，条件期望迭代律保证了边际均值的无偏性（若模型正确）；在 \(Z\) 平衡时，利用 \(Z\) 的解释变异降低了残差方差，从而提升了效率。 - 亚组识别：通过在回归中纳入 \(Z\)，可以直接估计 \(E[M | A=a, Z=z]\) 与 \(E[T_e | A=a, Z=z]\)，从而计算特定亚组的 ICER/INB。 - 理论性质（需核查全文）：摘要仅提“good finite-sample performance”，未提渐近正态性或方差估计。若全文未推导渐近方差，则置信区间的构建将依赖 Bootstrap，这在复杂删失下可能计算昂贵且理论不透明。

证明路线与技术技巧（推断）： - 整体路线： 1. 对成本终点：建模 \(E[M | T_c, Z, A]\)（回归）与 \(S(t | Z, A) = P(T_c > t | Z, A)\)（生存回归，如 Cox）。 2. 对效果终点：建模 \(E[T_e | Z, A]\) 或其生存函数。 3. 利用条件期望迭代律，将边际均值 \(\mu_c(a) = E[M | A=a]\) 与 \(\mu_e(a) = E[T_e | A=a]\) 表达为上述条件模型的积分。 4. 用样本平均替换积分中的期望，代入拟合的条件模型，得到估计量。 - 关键跳跃点：如何处理 \(\delta_c=0\) 个体未观测的 \(T_c\)？回归映射 \(\mu(T_c, Z)\) 需要知道 \(T_c\) 才能预测 \(M\)，但删失个体只有 \(X_c\)。此处必然依赖对 \(S(t | Z, A)\) 的估计，通过某种条件均值积分（如 \(\int_0^\infty \mu(t, Z) d\hat{S}(t | Z, A)\)）绕过对个体 \(T_c\) 的直接观测需求。 - 技术技巧：回归映射替代 IPW（避免高方差权重）；利用条件期望迭代律解耦信息性删失与终点观测；不同风险集的分别建模。

真实例子与应用： - MADIT-CRT 数据集：心血管试验。效果终点为无心力衰竭生存（\(T_e\)），成本终点为死亡（\(T_c\)），终止事件不同。应用本文方法估计 ICER/INB，并进行亚组识别（寻找哪些患者特征 \(Z\) 下新疗法更划算）。 - MADIT-II 数据集：心血管试验。部分患者的成本收集被提前停止（\(C_c < C_e\)），导致成本与效果删失时间不同。应用本文方法处理这种非对称删失结构。 - 例子想说明什么：验证回归框架在真实复杂删失下的可操作性，并展示协变量调整在应对不完美随机化与异质性上的实际价值。

🔎 结论是否比证明窄： - 摘要声称“good finite-sample performance”，但未显式声明渐近一致性或效率性质。若全文仅靠模拟验证有限样本，而未证明大样本渐近正态性，则“可用于推断”的结论比实际证明窄。 - 摘要未提及模型错误设定下的鲁棒性，若全文亦未讨论，则“提供实用工具”的结论隐含了“模型必须正确”的强前提，此前提未被证明且极易被违反。

四、开放问题（点到为止）¶

半参数效率界推导：在 \((T_e \neq T_c, C_e \neq C_c, 诱导信息性删失)\) 这一联合设定下，\(\mu_c(a)\) 与 \(\mu_e(a)\) 的半参数效率界是什么？本文的回归估计量是否达到此界？（扎根于：摘要明确回避了效率理论，仅提“improve efficiency”，未提“achieve efficiency bound”）。
双重/多重鲁棒性构造：能否将本文的回归映射扩展为 AIPW 或 TMLE，使得估计量在成本回归模型或删失模型之一错误设定下仍保持一致？（扎根于：摘要只提“regression-based”，未提 robustness 或 AIPW）。
条件独立删失假设的敏感性：若 \(C_c\) 与 \(T_c\) 即使在给定 \(Z\) 后仍不独立（残余信息性删失），本文估计量的偏误有多大？能否构造敏感性分析框架？（扎根于：摘要假设条件独立删失以处理诱导信息性删失，但真实临床数据中残余相关性常见）。

提醒：要确认第1条是否为真 gap，需检索 2020-2024 年 Biometrics / JASA 上关于 CEA 与 TMLE/AIPW 的文章（如 Luedtke et al. 的工作），看是否已有不同终止事件下的效率界推导。若已有，则此口子已被填补；若未有，则是明确的理论空白。

Maintained by 陈星宇 · Homepage · Source on GitHub

Regression methods for cost-effectiveness analysis with different censoring times or terminating events for survival time and costs¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论