Multiply robust estimation of marginal structural models in observational studies subject to covariate-driven observations¶

作者: Janie Coulombe, Shu Yang
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomtc/ujae065

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注的是纵向观察性研究中的因果推断，但面临一个特殊且现实的挑战：观测时间点不是由研究者预设的固定间隔，而是由协变量（患者特征、健康状况等）驱动的。这在电子健康记录（EHR）、行政索赔数据中极为常见——患者就诊时间取决于其病情变化，而非随机安排。这种“协变量驱动的观测机制”会引入一种特殊的时变混杂：观测频率本身既是过去协变量和治疗的结果，又会影响未来的治疗和结局。如果忽略这一机制，直接用标准方法（如固定时间点的逆概率加权或 G-computation）估计因果效应，会产生偏倚。该方向当前的核心问题是：如何在存在时变混杂和协变量驱动观测的双重挑战下，一致且高效地估计边际结构模型（MSM）中的因果参数。

发展脉络（history）¶

奠基工作：边际结构模型（MSM）与逆概率加权（IPW）
- Robins (1999) 提出了边际结构模型（MSM）和逆概率加权（IPW）估计量，用于处理时变混杂。这是整个领域的基石。IPW 通过为每个时间点的观测值赋予一个权重（该权重是治疗分配概率的倒数），来创建一个伪总体，在该伪总体中治疗分配不再受混杂因素影响。
- Robins, Hernán & Brumback (2000) 将 MSM 和 IPW 推广到纵向数据，并引入了“稳定化权重”以提高效率。这些工作奠定了用权重法处理时变混杂的标准框架。
主要进展：处理不规则观测时间
- Lin, Scharfstein & Rosenheck (2004) 首次系统性地研究了协变量驱动的观测时间问题。他们指出，当观测时间受过去协变量影响时，标准 IPW 会失效，并提出了一个“双重加权”估计量：一个权重用于处理治疗分配（治疗权重），另一个权重用于处理观测时间（观测权重）。这是本文的直接前身。
- Pullenayegum & Lim (2016) 和 Buzkova (2019) 等后续工作进一步探讨了在协变量驱动观测下，如何通过加权或基于似然的方法进行因果推断。这些工作主要关注点暴露（即治疗在基线时一次性确定）或固定时间点暴露（如每周一次）的设定。
当前 Frontier：双重稳健性与多重稳健性
- Bang & Robins (2005) 提出了双重稳健（DR）估计量，用于处理缺失数据。DR 估计量结合了结果回归模型和倾向得分模型，只要其中一个模型正确设定，估计量就是一致的。这启发了后续在因果推断中追求“稳健性”的工作。
- 本文（Coulombe & Yang, 2021） 的定位是：在 Lin et al. (2004) 提出的“双重加权”框架下，将稳健性从“双重”（两个权重模型都正确）提升到“多重”（多个模型中的至少一个正确）。作者认为，Lin et al. (2004) 的估计量依赖于两个权重模型（治疗权重模型和观测权重模型）都正确设定，这在实践中很难保证。本文提出的估计量通过引入多个（>2个） 逆概率权重和结果回归模型，实现了“多重稳健性”：只要这些模型中的至少一个正确，估计量就是一致的。这显著放松了模型假设。

子线索聚类¶

权重法（Weighting-based）：以 Robins (1999) 的 IPW 和 Lin et al. (2004) 的双重加权为代表。核心思路是通过构建权重来调整混杂和选择偏差。优点是概念直观，但效率较低，且对权重模型的正确设定敏感。
结果回归法（Outcome regression-based）：以 G-computation 为代表。核心思路是直接对结局的条件均值建模。优点是效率较高，但需要正确指定结局模型，且在高维或复杂时间结构中难以实现。
双重/多重稳健法（Doubly/Multiply Robust）：以 Bang & Robins (2005) 和本文为代表。核心思路是结合权重法和结果回归法，通过“双保险”或“多保险”机制来放松模型假设。这是当前方法学发展的主流方向。

这个方向在追问的核心问题¶

识别问题：在协变量驱动观测下，因果效应是否可识别？需要哪些假设（如序贯可忽略性、正性、观测时间无混杂性）？
估计问题：如何构造一个一致且高效的估计量？现有方法（如双重加权）的效率如何？能否通过引入结果回归模型来提高效率？
稳健性问题：如何放松对权重模型正确设定的依赖？能否实现“多重稳健性”，即只要多个模型中的一部分正确，估计量就一致？
实际应用问题：这些方法在真实数据（如 EHR）中表现如何？如何处理高维协变量、稀疏观测、以及治疗和观测时间之间的复杂交互？

⚠️ 作者的 framing¶

作者的缺口 frame：作者将缺口明确 frame 为“现有方法（Lin et al., 2004）依赖两个权重模型都正确，这在实践中很难保证”。因此，本文的“显然的下一步”就是放松这个假设，实现多重稳健性。作者通过引入多个权重和结果回归模型，并证明其多重稳健性，来填补这个缺口。
被淡化/回避的竞争路线：作者淡化了基于似然的方法（如 Pullenayegum & Lim, 2016）。这些方法通过直接对观测过程和结局过程联合建模来避免权重，但通常对模型假设要求更高（如参数模型）。作者在引言中仅简要提及，并指出其“对模型误设敏感”，但未深入比较。此外，作者回避了半参数效率理论的讨论。本文提出的估计量是否达到了半参数效率界？作者没有讨论，这可能是一个值得研究者去查的问题。
值得研究者去查的问题：什么明显该被引/该存在、却没出现在 intro 里？ 作者没有引用任何关于双重稳健估计量在纵向数据中的效率理论的工作（如 van der Laan & Robins, 2003 的 Targeted Maximum Likelihood Estimation, TMLE）。TMLE 是另一种实现双重稳健性的主流方法，且通常比 IPW 更高效。作者为何选择基于加权和回归的框架，而不是 TMLE？这可能是因为 TMLE 在处理不规则观测时间时更复杂，但值得研究者去核实。

张力¶

未见明显对立引用。所有被引工作都认同“协变量驱动观测是一个需要处理的问题”，只是在处理方法（加权 vs. 似然）和稳健性程度（双重 vs. 多重）上有所不同。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \(i = 1, \dots, n\)：个体索引。
- \(t = 0, 1, \dots, T\)：潜在的离散时间点（如每周一次）。注意，这些是研究者想要观测的时间点，但实际观测可能只发生在其中一部分。
- \(A_i(t)\)：个体 \(i\) 在时间 \(t\) 接受的治疗（如是否接受心理咨询），二值变量（0/1）。
- \(L_i(t)\)：个体 \(i\) 在时间 \(t\) 的时变协变量（如抑郁评分、饮酒量），可以是向量。
- \(Y_i\)：个体 \(i\) 在最终时间点 \(T\) 的结局（如饮酒量）。这是目标 estimand。
- \(R_i(t)\)：观测指示变量。\(R_i(t) = 1\) 表示个体 \(i\) 在时间 \(t\) 被观测到（如去医院就诊），否则为 0。这是关键变量，它决定了哪些数据是可观测的。
- \(\bar{A}_i(t) = \{A_i(0), \dots, A_i(t)\}\)：到时间 \(t\) 为止的治疗历史。
- \(\bar{L}_i(t) = \{L_i(0), \dots, L_i(t)\}\)：到时间 \(t\) 为止的协变量历史。
- \(\bar{R}_i(t) = \{R_i(0), \dots, R_i(t)\}\)：到时间 \(t\) 为止的观测历史。
- \(\bar{O}_i(t) = \{\bar{A}_i(t), \bar{L}_i(t), \bar{R}_i(t)\}\)：到时间 \(t\) 为止的所有可观测数据历史。
- 参数/estimand：\(\beta\)，边际结构模型（MSM）中的参数。MSM 通常定义为 \(E[Y^{\bar{a}}] = g(\bar{a}; \beta)\)，其中 \(Y^{\bar{a}}\) 是如果个体接受治疗序列 \(\bar{a}\) 时的潜在结局。本文关注的是边际效应，即对总体平均的效应，而非条件于协变量的效应。
模型：
- 边际结构模型 (MSM)：\(E[Y^{\bar{a}}] = g(\bar{a}; \beta)\)。例如，一个简单的模型是 \(E[Y^{\bar{a}}] = \beta_0 + \beta_1 \cdot \text{cum}(\bar{a})\)，其中 \(\text{cum}(\bar{a})\) 是治疗序列的累积暴露量。\(\beta_1\) 就是因果效应。
- 数据生成机制：假设数据由以下序贯过程生成：
  1. 基线协变量 \(L(0)\) 生成。
  2. 对于 \(t = 0, \dots, T-1\)： a. 治疗 \(A(t)\) 根据 \(P(A(t) | \bar{L}(t), \bar{A}(t-1), \bar{R}(t))\) 分配（序贯可忽略性假设）。 b. 协变量 \(L(t+1)\) 根据 \(P(L(t+1) | \bar{A}(t), \bar{L}(t), \bar{R}(t))\) 演化。 c. 观测指示变量 \(R(t+1)\) 根据 \(P(R(t+1) | \bar{A}(t), \bar{L}(t+1), \bar{R}(t))\) 生成。这是关键：观测概率依赖于当前的协变量 \(L(t+1)\) 和过去的治疗/协变量历史。
  3. 最终结局 \(Y\) 根据 \(P(Y | \bar{A}(T), \bar{L}(T), \bar{R}(T))\) 生成。
可观测数据：
- 研究者实际能观测到的是：对于每个个体 \(i\)，只有在 \(R_i(t)=1\) 的那些时间点 \(t\)，才能观测到 \(A_i(t)\) 和 \(L_i(t)\)。对于 \(R_i(t)=0\) 的时间点，\(A_i(t)\) 和 \(L_i(t)\) 是缺失的。
- 研究者想要但观测不到的是：所有时间点的完整治疗和协变量历史，以及潜在结局 \(Y^{\bar{a}}\)。识别和估计必须依赖于可观测数据和一系列不可检验的假设（如序贯可忽略性、正性、观测时间无混杂性）。

第二步：讲最小内核¶

最简特例：假设只有两个潜在时间点：基线 \(t=0\) 和最终时间点 \(t=1\)。治疗 \(A\) 只在基线时分配（\(A(0)\)，简写为 \(A\)），结局 \(Y\) 在最终时间点测量。协变量 \(L\) 只在基线时测量（\(L(0)\)，简写为 \(L\)）。观测指示变量 \(R\) 只在最终时间点有意义（\(R(1)\)，简写为 \(R\)），表示个体是否在最终时间点被观测到结局。

设定：
- 目标：估计 \(E[Y^a]\)，即如果所有个体都接受治疗 \(a\) 时的平均结局。MSM 简化为 \(E[Y^a] = \beta_0 + \beta_1 a\)。
- 可观测数据：\((L, A, R, RY)\)。注意，只有当 \(R=1\) 时，我们才能观测到 \(Y\)。
- 关键假设：
  1. 序贯可忽略性：\(Y^a \perp A | L\)。给定基线协变量 \(L\)，治疗分配与潜在结局独立。
  2. 正性：\(0 < P(A=a|L) < 1\)。
  3. 观测无混杂性：\(Y^a \perp R | L, A\)。给定治疗和基线协变量，是否被观测到与潜在结局独立。这是处理协变量驱动观测的关键假设。
  4. 正性（观测）：\(0 < P(R=1|L, A) < 1\)。
现有方法（双重加权，Lin et al., 2004）：
- 估计量：\(\hat{\beta}_{DW} = \arg\min_\beta \sum_i \frac{R_i}{\hat{\pi}_R(L_i, A_i)} \frac{1}{\hat{\pi}_A(L_i)} (Y_i - \beta_0 - \beta_1 A_i)^2\)。
- 其中，\(\hat{\pi}_A(L) = \hat{P}(A=1|L)\) 是治疗权重的估计，\(\hat{\pi}_R(L, A) = \hat{P}(R=1|L, A)\) 是观测权重的估计。
- 问题：这个估计量只有在两个权重模型都正确设定时才是一致的。如果 \(\hat{\pi}_A\) 或 \(\hat{\pi}_R\) 任何一个错误，估计量就会有偏。
本文的核心思路（多重稳健）：
- 作者引入了一个结果回归模型 \(m(L, A; \alpha) = E[Y|L, A, R=1]\)，用于预测在给定 \(L\) 和 \(A\) 下，那些被观测到的个体的结局。
- 然后，作者构造了一个新的估计方程，它结合了两个权重模型（\(\pi_A, \pi_R\)）和一个结果回归模型（\(m\)）。这个估计方程具有以下性质：只要这三个模型中的至少一个正确，估计量就是一致的。
- 具体来说，作者提出的估计量 \(\hat{\beta}_{MR}\) 是以下估计方程的解：
  \[\sum_i \left[ \frac{R_i}{\hat{\pi}_R(L_i, A_i)} \frac{1}{\hat{\pi}_A(L_i)} (Y_i - m(L_i, A_i; \hat{\alpha})) + m(L_i, A_i; \hat{\alpha}) - \beta_0 - \beta_1 A_i \right] \cdot (1, A_i)^T = 0\]
- 直觉：
  - 如果权重模型都正确，那么第一项 \(\frac{R_i}{\hat{\pi}_R} \frac{1}{\hat{\pi}_A} (Y_i - m)\) 的期望为 0（因为权重调整了选择偏差，使得 \(Y_i\) 和 \(m\) 的差异在加权后无偏），而第二项 \(m\) 的期望就是 \(E[Y^a]\)。因此整个方程是有效的。
  - 如果结果回归模型正确，那么第一项中的 \(Y_i - m\) 的期望为 0（因为 \(m\) 正确预测了 \(Y\)），而第二项 \(m\) 的期望就是 \(E[Y^a]\)。因此整个方程也是有效的。
  - 如果只有治疗权重模型正确，但观测权重和结果回归都错误，那么第一项仍然有偏，但第二项也有偏，两者无法抵消。因此，这个估计量不是双重稳健的（它需要至少一个模型正确，但这里的“一个”可以是三个中的任何一个，所以是“多重”）。
- 关键点：这个最小内核展示了如何通过引入一个额外的结果回归模型，将稳健性从“两个权重模型都正确”提升到“三个模型中的至少一个正确”。在更一般的纵向设定中，作者将这个想法推广到多个时间点，引入了多个治疗权重、多个观测权重和多个结果回归模型，实现了真正的“多重稳健性”。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在存在时变混杂和协变量驱动观测时间的纵向观察性研究中，如何一致且高效地估计边际结构模型（MSM）中的因果效应。
核心工具/方法：提出了一种多重稳健（MR）估计量，它通过结合多个逆概率权重模型（治疗权重和观测权重）和多个结果回归模型，实现了“只要这些模型中的至少一个正确，估计量就一致”的性质。
主要结论：理论分析证明了该 MR 估计量的一致性和渐近正态性，并给出了其渐近方差。模拟研究表明，该估计量比现有的双重加权（DW）估计量（Lin et al., 2004）更灵活（对模型误设更稳健）且更高效（方差更小）。真实数据应用（Add Health 研究）展示了其实际可行性。

关键设定与假设¶

完整设定：在第二节最小记号的基础上，本文考虑离散时间点 \(t = 0, \dots, T\)，每个时间点都有治疗 \(A(t)\)、协变量 \(L(t)\) 和观测指示变量 \(R(t)\)。结局 \(Y\) 在最终时间点 \(T\) 测量。
关键假设：
1. 序贯可忽略性 (Sequential Ignorability)：\(Y^{\bar{a}} \perp A(t) | \bar{L}(t), \bar{A}(t-1), \bar{R}(t)\)。给定到时间 \(t\) 为止的协变量、治疗和观测历史，当前治疗分配与潜在结局独立。相比已有文献：这是标准假设，本文未放宽。
2. 正性 (Positivity)：\(0 < P(A(t)=a(t) | \bar{L}(t), \bar{A}(t-1), \bar{R}(t)) < 1\)。所有治疗序列都有正概率发生。相比已有文献：标准假设。
3. 观测无混杂性 (No Unmeasured Confounding for Observation Times)：\(Y^{\bar{a}} \perp R(t) | \bar{L}(t), \bar{A}(t-1), \bar{R}(t-1)\)。给定到时间 \(t-1\) 为止的协变量、治疗和观测历史，以及当前协变量 \(L(t)\)，当前观测指示变量与潜在结局独立。这是本文的核心假设，它比 Lin et al. (2004) 的假设更强吗？作者没有明确比较，但通常认为这是一个合理的假设。
4. 正性（观测）：\(0 < P(R(t)=1 | \bar{L}(t), \bar{A}(t-1), \bar{R}(t-1)) < 1\)。所有个体在每个时间点都有正概率被观测到。相比已有文献：标准假设。
5. 一致性 (Consistency)：如果个体实际接受的治疗序列是 \(\bar{a}\)，那么其观测到的结局 \(Y\) 等于潜在结局 \(Y^{\bar{a}}\)。标准假设。

主要结果¶

定理 1：MR 估计量的一致性。在正则条件下，如果至少一个权重模型（治疗或观测）和至少一个结果回归模型正确设定，那么 MR 估计量 \(\hat{\beta}_{MR}\) 是 \(\beta\) 的一致估计。直觉：这类似于第二节最小内核中的逻辑，但推广到了多个时间点。每个时间点的权重和回归模型都提供了“保险”，只要有一个“保险”生效，整个估计就是一致的。
定理 2：MR 估计量的渐近正态性。在正则条件下，\(\sqrt{n}(\hat{\beta}_{MR} - \beta)\) 依分布收敛到一个均值为 0 的正态分布，其方差可以通过“三明治”估计量一致估计。技术难点：证明渐近正态性需要处理多个估计的 nuisance 参数（权重和回归模型）之间的相关性，以及它们与主估计方程之间的影响。作者通过经验过程理论和M-估计理论来处理这些复杂性。
定理 3：MR 估计量的效率。作者证明，当所有模型都正确设定时，MR 估计量的渐近方差小于或等于 DW 估计量的渐近方差。直觉：通过引入结果回归模型，MR 估计量利用了更多信息（结局与协变量的关系），从而提高了效率。解决的技术难点：证明效率提升需要比较两个估计量的渐近方差，这通常涉及影响函数的计算和比较。

证明路线与技术技巧¶

整体路线：
1. 构造估计方程：首先，基于多重稳健性的思想，构造一个包含多个权重和结果回归模型的估计方程。这个方程是多个“子估计方程”的加权平均，每个子方程对应一个特定的模型组合。
2. 证明一致性：证明的核心是，在至少一个模型正确设定的条件下，估计方程的期望在真实参数 \(\beta\) 处为 0。这需要利用迭代期望和假设（序贯可忽略性、观测无混杂性）来证明每个子方程的期望为 0。
3. 证明渐近正态性：将估计方程在真实参数处进行泰勒展开，得到 \(\sqrt{n}(\hat{\beta}_{MR} - \beta)\) 的线性近似。然后，证明这个线性近似的渐近正态性，并推导出其方差。
4. 方差估计：使用“三明治”估计量来估计渐近方差，其中“面包”部分是估计方程的导数，“肉”部分是估计方程的方差。
关键跳跃点：
- 如何处理多个 nuisance 参数的估计误差？ 这是双重/多重稳健估计量证明中的核心难点。作者使用了经验过程理论中的 Donsker 类条件，来保证 nuisance 参数的估计误差不会影响主估计量的渐近分布。具体来说，他们假设权重和回归模型的估计函数属于一个 Donsker 类，并且这些估计是 \(\sqrt{n}\)-一致的。
- 如何证明效率提升？ 作者通过比较 MR 估计量和 DW 估计量的影响函数来证明效率提升。他们证明，MR 估计量的影响函数是 DW 估计量的影响函数减去一个与结果回归模型相关的投影，从而方差更小。
技术技巧点名：
- 经验过程理论 (Empirical Process Theory)：用于处理 nuisance 参数的估计误差，保证渐近正态性。
- M-估计理论 (M-estimation Theory)：用于建立估计方程的一致性、渐近正态性和方差估计。
- 影响函数 (Influence Function)：用于比较不同估计量的效率。
- 三明治方差估计 (Sandwich Variance Estimation)：用于估计渐近方差。

真实例子与应用¶

数据：美国 Add Health 研究（国家青少年健康纵向研究）。这是一个大型的、具有全国代表性的青少年队列研究。
场景：估计心理咨询（therapy counseling） 对青少年饮酒量（alcohol consumption） 的因果效应。数据包含多个时间点（Wave I, II, III, IV）的测量，但观测时间是不规则的（并非所有青少年在每个 Wave 都被测量）。协变量包括抑郁症状、家庭关系、同伴影响等。
方法应用：
1. 定义治疗：是否在过去一年内接受过心理咨询（二值变量）。
2. 定义结局：Wave IV 时的饮酒频率。
3. 定义观测时间：每个 Wave 是否被成功访谈（\(R(t)\)）。
4. 拟合模型：估计治疗权重模型（基于协变量预测治疗概率）、观测权重模型（基于协变量和治疗预测被观测概率）、以及结果回归模型（基于协变量和治疗预测饮酒量）。
5. 估计因果效应：使用本文提出的 MR 估计量和作为对比的 DW 估计量，估计心理咨询对饮酒量的平均因果效应。
结果：
- MR 估计量给出的效应估计值比 DW 估计量更小（即心理咨询对饮酒量的降低作用更小），且置信区间更窄（效率更高）。
- 作者通过敏感性分析（改变模型设定）表明，MR 估计量对模型误设更稳健，而 DW 估计量的结果在不同模型设定下变化较大。
这个例子想说明什么：这个例子旨在展示 MR 估计量在真实数据中的实际可行性、相对于现有方法的优势（更稳健、更高效），以及处理协变量驱动观测这一实际挑战的能力。它验证了理论结果，并提供了一个可复现的分析框架。

🔎 结论是否比证明窄¶

窄结论：作者在定理 1 中证明的一致性，依赖于“至少一个权重模型和至少一个结果回归模型正确”的条件。但在结论部分，作者有时会泛泛地说“MR 估计量是多重稳健的”，这可能会被误解为“只要任意一个模型正确即可”。实际上，它需要至少一个权重模型和至少一个结果回归模型同时正确（或更准确地说，是这些模型的某种组合正确）。这是一个细微但重要的区别。
未证明的 claim：作者在讨论中提出，MR 估计量可以推广到连续时间的观测过程。但本文的所有理论结果都是在离散时间设定下证明的。这是一个conjecture，而非已证明的结论。研究者可以将其作为一个开放问题。

四、开放问题¶

连续时间推广：本文的理论结果建立在离散时间设定上。将其推广到连续时间的观测过程（如 Cox 比例风险模型框架下的观测时间）是一个自然但非平凡的扩展。这需要重新定义权重和回归模型，并处理连续时间下的积分和测度论问题。扎根于：论文讨论部分“Extensions to continuous-time observation processes are of interest for future work.”
半参数效率界：本文证明了 MR 估计量比 DW 估计量更高效，但没有讨论它是否达到了半参数效率界。在给定模型假设下，是否存在一个更高效的估计量？这需要推导出该问题的半参数效率界，并检查 MR 估计量的影响函数是否与之匹配。扎根于：论文未讨论效率界，这是一个明显的理论缺口。
高维协变量：本文的模拟和真实数据应用都使用了低维协变量。当协变量维度很高时（如来自 EHR 的数千个变量），如何选择用于权重和回归模型的协变量？如何在高维下保证 Donsker 类条件和 \(\sqrt{n}\)-一致性？这需要结合高维统计（如 Lasso、正则化）和双重/多重稳健估计的理论。扎根于：论文假设 nuisance 参数是 \(\sqrt{n}\)-一致估计的，这在低维下成立，但在高维下通常不成立。
计算效率：本文的 MR 估计量需要估计多个权重和回归模型，计算量可能较大。对于大规模 EHR 数据，如何高效地实现该估计量？是否可以开发在线学习或随机梯度下降算法来降低计算成本？扎根于：论文未讨论计算效率问题，这是一个实际应用中的瓶颈。

Maintained by 陈星宇 · Homepage · Source on GitHub