Weighted Q-learning for optimal dynamic treatment regimes with nonignorable missing covariates¶

作者: Jian Sun, Bo Fu, Li Su
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae161

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在动态治疗策略（DTR） 框架下，当协变量存在非随机缺失（nonignorable missing） 时，如何从观测数据中一致地估计最优治疗规则。DTR 将医疗决策形式化为一系列阶段性的规则，每个规则将患者当前信息映射到推荐治疗。估计最优 DTR 的经典方法是 Q-learning，它通过后向归纳（backward induction）递归地估计每个阶段的 Q 函数（即给定当前状态和治疗后的期望累积结局）。当协变量缺失时，Q-learning 面临一个独特挑战：后向归纳中早期阶段的伪结局（pseudo-outcome） 因晚期协变量缺失而同样非随机缺失，即使纵向结局完全观测。这使得标准缺失数据处理方法（如完整病例分析）失效。该子方向当前成熟度中等：已有若干工作处理 DTR 中的缺失数据，但大多假设缺失机制为随机缺失（MAR）或结局独立缺失，本文首次系统处理非随机缺失情形。

发展脉络（history）¶

根据论文 introduction 及其引用，该方向的发展脉络可梳理如下：

奠基工作：DTR 与 Q-learning 的建立
- Watkins (1989)：提出 Q-learning 算法，为 DTR 估计奠定基础。
- Robins (2004)：提出结构性嵌套均值模型（SNMMs）和 g-estimation，为 DTR 提供半参数框架。
- Murphy (2003)、Robins (2004)：系统建立了最优 DTR 的统计推断理论，包括 Q-learning 和 A-learning 的渐近性质。
- Chakraborty & Moodie (2013)：专著《Statistical Methods for Dynamic Treatment Regimes》总结了该领域的主要方法。
主要进展：处理 DTR 中的缺失数据
- Shortreed et al. (2011)：在 DTR 框架下处理协变量缺失，但假设缺失机制为随机缺失（MAR），即缺失概率仅依赖于已观测变量。作者引用其作为“处理 DTR 中缺失协变量的早期工作”。
- Liu et al. (2018)：提出在 DTR 中处理结局变量缺失的方法，但未涉及协变量缺失。作者引用其作为“处理 DTR 中缺失结局的近期工作”。
- Sun et al. (2018)：在 DTR 中处理非随机缺失协变量，但假设缺失机制为结局独立缺失（即缺失概率仅依赖于已观测协变量，与未观测协变量和结局无关）。作者引用其作为“完整病例分析在结局独立缺失假设下可一致估计 Q 函数”的依据。这是本文的直接竞争路线。
当前 Frontier：非随机缺失协变量下的 DTR 估计
- 本文（Sun, Fu & Su, 2023）：首次在 DTR 框架下处理非随机缺失协变量，即缺失概率依赖于未观测的协变量本身或伪结局。作者指出，即使纵向结局完全观测，后向归纳中早期阶段的伪结局因晚期协变量缺失而同样非随机缺失，这是 DTR 特有的缺失数据问题。本文提出两种加权 Q-learning 方法，利用非应答工具变量（nonresponse instrumental variables） 或敏感性分析来识别缺失机制。
本文的位置：本文是 DTR 缺失数据子方向的最新进展，将缺失机制从 MAR 或结局独立缺失推广到非随机缺失，并首次系统处理了 DTR 后向归纳导致的伪结局非随机缺失问题。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上：

线索一：DTR 的基础理论与方法
- 核心问题：如何定义和估计最优 DTR？
- 主要方法：Q-learning、A-learning、g-estimation、SNMMs。
- 代表工作：Watkins (1989), Murphy (2003), Robins (2004), Chakraborty & Moodie (2013)。
- 当前状态：成熟，已有标准框架和渐近理论。
线索二：DTR 中的缺失数据处理
- 核心问题：当协变量或结局存在缺失时，如何一致估计最优 DTR？
- 主要方法：完整病例分析、多重插补、逆概率加权、加权 Q-learning。
- 代表工作：Shortreed et al. (2011) [MAR 协变量缺失], Liu et al. (2018) [结局缺失], Sun et al. (2018) [结局独立缺失协变量], 本文 [非随机缺失协变量]。
- 当前状态：活跃，但非随机缺失情形刚刚被系统处理。
线索三：非随机缺失数据的识别与估计（更广泛的缺失数据文献）
- 核心问题：在非随机缺失机制下，如何识别和估计目标参数？
- 主要方法：工具变量法、敏感性分析、模式混合模型、选择模型。
- 代表工作：本文引用的非应答工具变量文献（如 Wang & Shao (2020)，作者引用其“提出利用非应答工具变量识别非随机缺失机制”）、敏感性分析文献（如 Rosenbaum (2002)，作者引用其“提出敏感性分析框架评估缺失机制偏离 MAR 的影响”）。
- 当前状态：成熟，但将其应用于 DTR 的特定缺失模式（伪结局非随机缺失）是本文的创新。

这个方向在追问的核心问题¶

识别问题：在非随机缺失协变量下，最优 DTR 是否可识别？需要哪些额外假设（如工具变量、敏感性参数）？
估计问题：如何构造一致且渐近正态的估计量？其半参数效率界是多少？
计算问题：加权 Q-learning 的算法如何实现？后向归纳中权重如何递归计算？
稳健性问题：方法对缺失机制假设的误设是否敏感？如何通过敏感性分析评估稳健性？

当前主流方法与已知瓶颈： * 主流方法：完整病例分析（在结局独立缺失假设下一致）、多重插补（假设 MAR）、逆概率加权（需正确指定缺失倾向得分模型）。 * 已知瓶颈： * 完整病例分析在非随机缺失下不一致。 * MAR 假设在 DTR 中常不成立，因为缺失概率可能依赖于未观测的协变量或伪结局。 * 逆概率加权需正确指定缺失机制模型，且权重可能不稳定。 * DTR 特有的瓶颈：后向归纳导致早期阶段的伪结局非随机缺失，即使纵向结局完全观测，这使得标准缺失数据处理方法失效。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者将缺口 frame 为“DTR 中非随机缺失协变量导致的伪结局非随机缺失问题”，并声称这是“DTR 特有的缺失数据问题”，尚未被现有文献处理。他们将自己的方法定位为“首次系统处理该问题”的“自然且有效的解决方案”。
哪些竞争路线被他淡化或回避了：
- 多重插补（MI）：作者仅在模拟中将其作为对比方法，但未深入讨论 MI 在非随机缺失下的不一致性。他们可能回避了 MI 在 DTR 中的复杂实现（如需对每个阶段的缺失协变量进行插补，且插补模型需考虑后向归纳结构）。
- 基于似然的方法：如模式混合模型或选择模型，这些方法也可处理非随机缺失，但作者未将其作为主要竞争路线。可能因为这些方法需对缺失机制和结局模型进行联合建模，计算复杂且对模型误设敏感。
- A-learning / g-estimation：这些方法对缺失数据的处理可能比 Q-learning 更灵活（如可避免伪结局的递归缺失），但作者未讨论。可能因为本文聚焦于 Q-learning 框架。
什么明显该被引 / 该存在、却没出现在 intro 里？
- Proximal causal inference 文献：如 Tchetgen Tchetgen et al. (2020) 提出的近端因果推断，利用负对照变量（negative controls）处理未观测混杂。这与本文利用非应答工具变量处理非随机缺失的思路有相似之处（都利用辅助变量进行识别），但作者未引用。这可能是研究者值得去查的交叉点：能否将近端推断的负对照思路引入 DTR 缺失数据，以放松工具变量假设？
- 高维 DTR 文献：如 Zhao et al. (2015) 提出的 outcome-weighted learning 用于高维协变量下的 DTR 估计。本文未涉及高维情形，但实际 EMR 数据常含大量协变量。这可能是另一个值得查的方向：本文的加权 Q-learning 能否扩展到高维协变量？其渐近理论在高维下是否成立？
- 半参数效率理论在 DTR 中的应用：如 van der Laan & Luedtke (2015) 提出的 targeted learning 用于 DTR。本文推导了加权 Q-learning 估计量的影响函数，但未讨论其半参数效率界。这可能是研究者用其 semiparametric efficiency 框架审视本文的切入点：本文的加权估计量是否达到半参数效率界？若否，如何构造更高效的估计量？

张力¶

未见明显对立引用。所有被引工作基本在各自假设下成立，且本文的贡献是在更一般的非随机缺失假设下扩展了已有结果。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( T \)：治疗阶段数（如 \( T=2 \) 表示两个治疗阶段）。
- \( t = 1, \dots, T \)：阶段索引。
- \( \mathbf{X}_t \)：第 \( t \) 阶段开始时的协变量向量（可能包含历史协变量和治疗）。这是本文的核心缺失变量。
- \( A_t \)：第 \( t \) 阶段的治疗（如二值治疗 \( A_t \in \{0, 1\} \)）。
- \( Y_t \)：第 \( t \) 阶段的结局（如连续型结局，如血压、生存时间）。本文假设纵向结局 \( Y_1, \dots, Y_T \) 完全观测。
- \( Y \)：总结局，通常为各阶段结局的加权和或最终结局（如 \( Y = \sum_{t=1}^T Y_t \)）。
- \( \mathbf{H}_t = (\mathbf{X}_1, A_1, \dots, \mathbf{X}_t) \)：第 \( t \) 阶段开始前的历史信息（包括所有已观测协变量和已实施治疗）。
- \( Q_t(\mathbf{H}_t, A_t) = \mathbb{E}[Y | \mathbf{H}_t, A_t] \)：第 \( t \) 阶段的Q 函数，即给定历史和治疗后的期望总结局。
- \( d_t(\mathbf{H}_t) \)：第 \( t \) 阶段的最优治疗规则，即 \( d_t(\mathbf{H}_t) = \arg\max_{a_t} Q_t(\mathbf{H}_t, a_t) \)。
- \( \tilde{Y}_t \)：第 \( t \) 阶段的伪结局（pseudo-outcome），定义为 \( \tilde{Y}_t = \max_{a_t} Q_t(\mathbf{H}_t, a_t) \)。在后向归纳中，\( \tilde{Y}_t \) 作为第 \( t-1 \) 阶段 Q 函数回归的响应变量。
- \( R_t \)：第 \( t \) 阶段协变量 \( \mathbf{X}_t \) 的缺失指示变量（\( R_t = 1 \) 表示 \( \mathbf{X}_t \) 完全观测，\( R_t = 0 \) 表示 \( \mathbf{X}_t \) 有缺失）。本文假设 \( \mathbf{X}_t \) 要么完全观测，要么完全缺失（即无部分缺失）。
- \( \pi_t(\mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t) = \mathbb{P}(R_t = 1 | \mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t) \)：第 \( t \) 阶段的缺失倾向得分，即给定历史和当前协变量下 \( \mathbf{X}_t \) 被观测的概率。
- \( \mathbf{Z}_t \)：第 \( t \) 阶段的非应答工具变量（nonresponse instrumental variable），满足：① \( \mathbf{Z}_t \) 与缺失机制相关（\( \pi_t \) 依赖于 \( \mathbf{Z}_t \)）；② \( \mathbf{Z}_t \) 与伪结局 \( \tilde{Y}_t \) 条件独立（给定 \( \mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t \)）。这是本文用于识别缺失机制的关键辅助变量。
- \( \boldsymbol{\alpha}_t \)：缺失倾向得分模型 \( \pi_t \) 的参数。
- \( \boldsymbol{\beta}_t \)：Q 函数模型 \( Q_t \) 的参数。
模型：
- 数据生成机制：患者按某个未知的 DTR 接受治疗，即 \( A_t \) 依赖于 \( \mathbf{H}_t \)。协变量 \( \mathbf{X}_t \) 可能非随机缺失，即 \( R_t \) 依赖于未观测的 \( \mathbf{X}_t \) 或伪结局 \( \tilde{Y}_t \)。
- Q 函数模型：假设 \( Q_t(\mathbf{H}_t, A_t; \boldsymbol{\beta}_t) \) 是参数化的（如线性模型 \( \boldsymbol{\beta}_t^\top \mathbf{f}(\mathbf{H}_t, A_t) \)）。
- 缺失倾向得分模型：假设 \( \pi_t(\mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t; \boldsymbol{\alpha}_t) \) 是参数化的（如 logistic 回归）。
- 工具变量假设：存在非应答工具变量 \( \mathbf{Z}_t \)，使得缺失机制可识别。具体地，\( \pi_t \) 依赖于 \( \mathbf{Z}_t \)，且 \( \mathbf{Z}_t \) 与伪结局 \( \tilde{Y}_t \) 条件独立（给定 \( \mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t \)）。
可观测数据：
- 研究者可观测到：\( \{ (R_{ti}, R_{ti} \mathbf{X}_{ti}, A_{ti}, Y_{ti})_{t=1}^T \}_{i=1}^n \)，即每个患者的治疗、结局、缺失指示变量，以及当 \( R_{ti}=1 \) 时的协变量 \( \mathbf{X}_{ti} \)。当 \( R_{ti}=0 \) 时，\( \mathbf{X}_{ti} \) 缺失。
- 想要但观测不到的量：
  - 缺失的协变量 \( \mathbf{X}_{ti} \)（当 \( R_{ti}=0 \) 时）。
  - 伪结局 \( \tilde{Y}_{ti} \)（需通过后向归纳估计，但估计本身依赖于缺失协变量）。
  - 缺失倾向得分 \( \pi_t \)（需估计）。
  - 最优治疗规则 \( d_t \)（需估计）。

第二步：讲最小内核¶

最简特例：二阶段 DTR（\( T=2 \)），二值治疗（\( A_t \in \{0,1\} \)），单变量协变量（\( X_t \in \mathbb{R} \)），且仅第二阶段协变量 \( X_2 \) 存在非随机缺失。

设定：
- 第一阶段：观测 \( X_1 \)，实施治疗 \( A_1 \)，观测结局 \( Y_1 \)。
- 第二阶段：观测 \( X_2 \)（可能缺失），实施治疗 \( A_2 \)，观测结局 \( Y_2 \)。
- 总结局 \( Y = Y_1 + Y_2 \)。
- 关键缺失模式：\( X_2 \) 非随机缺失，即 \( R_2 \) 依赖于未观测的 \( X_2 \) 或伪结局 \( \tilde{Y}_2 = \max_{a_2} Q_2(X_1, A_1, X_2, a_2) \)。注意：\( \tilde{Y}_2 \) 本身依赖于 \( X_2 \)，因此 \( R_2 \) 依赖于 \( \tilde{Y}_2 \) 等价于依赖于 \( X_2 \)。但本文强调，即使 \( R_2 \) 仅依赖于 \( \tilde{Y}_2 \)（而非直接依赖于 \( X_2 \)），标准方法也会失效，因为 \( \tilde{Y}_2 \) 是第一阶段 Q 函数回归的响应变量，其缺失导致第一阶段估计不一致。
- 可观测数据：\( (X_1, A_1, Y_1, R_2, R_2 X_2, A_2, Y_2) \)。当 \( R_2=0 \) 时，\( X_2 \) 缺失。
核心思路：
1. 第二阶段 Q 函数估计：对于 \( R_2=1 \) 的完整病例，可直接用 \( (X_1, A_1, X_2, A_2, Y_2) \) 估计 \( Q_2(X_1, A_1, X_2, A_2) = \mathbb{E}[Y_2 | X_1, A_1, X_2, A_2] \)。得到 \( \hat{Q}_2 \)，进而计算 \( \hat{\tilde{Y}}_2 = \max_{a_2} \hat{Q}_2(X_1, A_1, X_2, a_2) \)。
2. 第一阶段 Q 函数估计：目标是估计 \( Q_1(X_1, A_1) = \mathbb{E}[Y_1 + \tilde{Y}_2 | X_1, A_1] \)。但 \( \tilde{Y}_2 \) 对 \( R_2=0 \) 的患者缺失（因为 \( X_2 \) 缺失导致无法计算 \( \hat{\tilde{Y}}_2 \)）。这就是 DTR 特有的缺失数据问题：即使 \( Y_1, Y_2 \) 完全观测，早期阶段的伪结局因晚期协变量缺失而缺失。
3. 加权 Q-learning 的核心想法：对第一阶段 Q 函数回归进行逆概率加权（IPW），仅使用 \( R_2=1 \) 的完整病例，但每个病例的权重为 \( 1 / \pi_2 \)，其中 \( \pi_2 = \mathbb{P}(R_2=1 | X_1, A_1, X_2) \) 是缺失倾向得分。这样，加权后的完整病例可代表总体（包括 \( R_2=0 \) 的病例），从而一致估计 \( Q_1 \)。
关键挑战与解决方案：
- 挑战：\( \pi_2 \) 未知，且因依赖于未观测的 \( X_2 \) 而不可识别。
- 解决方案：引入非应答工具变量 \( Z_2 \)。假设存在 \( Z_2 \) 满足：
  1. \( \pi_2 \) 依赖于 \( Z_2 \)（相关性）。
  2. \( Z_2 \) 与 \( \tilde{Y}_2 \) 条件独立（给定 \( X_1, A_1, X_2 \)）（排除限制）。
  3. \( Z_2 \) 与 \( R_2 \) 的关系可建模（如 logistic 回归 \( \text{logit}(\pi_2) = \alpha_0 + \alpha_1 X_1 + \alpha_2 A_1 + \alpha_3 X_2 + \alpha_4 Z_2 \)）。
- 识别：在工具变量假设下，可通过估计方程（如 GMM）识别 \( \pi_2 \) 的参数 \( \boldsymbol{\alpha}_2 \)。直觉上，\( Z_2 \) 提供了关于缺失机制的额外信息，使得即使 \( X_2 \) 缺失，也能估计 \( \pi_2 \)。
- 估计步骤：
  1. 用完整病例（\( R_2=1 \)）估计第二阶段 Q 函数 \( \hat{Q}_2 \)，得到 \( \hat{\tilde{Y}}_2 \)。
  2. 用所有病例（包括 \( R_2=0 \)）和工具变量 \( Z_2 \)，通过估计方程估计缺失倾向得分 \( \hat{\pi}_2 \)。
  3. 对第一阶段 Q 函数进行加权最小二乘回归：\( \min_{\boldsymbol{\beta}_1} \sum_{i: R_{2i}=1} \frac{1}{\hat{\pi}_{2i}} (Y_{1i} + \hat{\tilde{Y}}_{2i} - Q_1(X_{1i}, A_{1i}; \boldsymbol{\beta}_1))^2 \)。
  4. 得到 \( \hat{Q}_1 \)，进而得到第一阶段最优规则 \( \hat{d}_1(X_1) = \arg\max_{a_1} \hat{Q}_1(X_1, a_1) \)。
为什么这个特例抓住了核心：这个二阶段、单变量、仅第二阶段缺失的特例，清晰地展示了 DTR 特有的缺失数据问题（伪结局因晚期协变量缺失而缺失），以及加权 Q-learning 的核心想法（用工具变量识别缺失倾向得分，再用 IPW 校正第一阶段回归）。论文的一般情形（多阶段、多变量、各阶段都可能缺失）只是这个特例的递归推广。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在动态治疗策略（DTR）框架下，当协变量存在非随机缺失（nonignorable missing）时，如何一致地估计最优治疗规则。核心挑战是后向归纳中早期阶段的伪结局因晚期协变量缺失而同样非随机缺失。
核心工具 / 方法：提出两种加权 Q-learning 方法，通过估计方程构造逆概率权重，利用非应答工具变量（nonresponse instrumental variables） 或敏感性分析来识别缺失机制。
主要结论：加权 Q-learning 估计量是 \( \sqrt{n} \)-一致且渐近正态的（CAN），并给出了影响函数形式。模拟和 MIMIC-III 数据库的脓毒症液体管理实例验证了方法在有限样本下的表现优于完整病例分析和多重插补。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

设定：
- \( T \) 阶段 DTR，每阶段协变量 \( \mathbf{X}_t \) 可能非随机缺失。
- 关键假设 1（非随机缺失）：\( R_t \) 可能依赖于未观测的 \( \mathbf{X}_t \) 或伪结局 \( \tilde{Y}_t \)。这是本文的核心设定，区别于 MAR 或结局独立缺失。
- 关键假设 2（工具变量存在性）：存在非应答工具变量 \( \mathbf{Z}_t \)，满足：
  - (a) 相关性：\( \pi_t(\mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t) \) 依赖于 \( \mathbf{Z}_t \)。
  - (b) 排除限制：\( \mathbf{Z}_t \perp \!\!\! \perp \tilde{Y}_t \mid \mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t \)。
  - (c) 条件独立：\( \mathbf{Z}_t \perp \!\!\! \perp R_t \mid \mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t, \tilde{Y}_t \)（即 \( \mathbf{Z}_t \) 仅通过影响 \( \pi_t \) 与 \( R_t \) 相关，给定 \( \mathbf{X}_t \) 和 \( \tilde{Y}_t \) 后独立）。这个假设比标准工具变量假设更强，但作者声称在 DTR 背景下合理。
- 关键假设 3（参数模型正确指定）：Q 函数 \( Q_t(\mathbf{H}_t, A_t; \boldsymbol{\beta}_t) \) 和缺失倾向得分 \( \pi_t(\mathbf{H}_{t-1}, A_{t-1}, \mathbf{X}_t; \boldsymbol{\alpha}_t) \) 的模型均正确指定。
- 关键假设 4（重叠）：\( \pi_t \) 有正下界，即 \( \pi_t > \delta > 0 \)，以确保逆概率权重有界。
- 相比已有文献的放宽：相比 Sun et al. (2018) 的结局独立缺失假设，本文允许缺失机制依赖于未观测的协变量或伪结局，这是实质性放宽。相比 Shortreed et al. (2011) 的 MAR 假设，本文允许缺失机制依赖于未观测变量，这是更一般的设定。

主要结果¶

定理 1（加权 Q-learning 估计量的一致性）：
- 陈述：在假设 1-4 下，加权 Q-learning 估计量 \( \hat{\boldsymbol{\beta}}_t \)（\( t = T, T-1, \dots, 1 \)）是 \( \boldsymbol{\beta}_t \) 的一致估计。
- 直觉：逆概率权重校正了完整病例的选择性偏差，使得加权后的完整病例可代表总体。后向归纳中，每个阶段的加权回归都一致估计该阶段的 Q 函数参数。
- 必要条件：工具变量假设成立，且缺失倾向得分模型正确指定。
- 解决的技术难点：后向归纳中，早期阶段的伪结局因晚期协变量缺失而缺失，导致标准 Q-learning 不一致。加权 Q-learning 通过仅使用完整病例并加权，绕过了这个难点。
定理 2（加权 Q-learning 估计量的渐近正态性）：
- 陈述：\( \sqrt{n}(\hat{\boldsymbol{\beta}}_t - \boldsymbol{\beta}_t) \xrightarrow{d} N(0, \Sigma_t) \)，其中 \( \Sigma_t \) 可通过影响函数一致估计。
- 直觉：加权 Q-learning 估计量是 M-估计量，其渐近方差由影响函数决定。影响函数反映了估计量对单个观测的敏感性。
- 必要条件：定理 1 的条件，加上正则性条件（如参数空间紧致、得分函数 Lipschitz 等）。
- 解决的技术难点：后向归纳导致估计量是多个阶段估计的复合，其渐近方差需考虑各阶段估计的累积不确定性。作者通过递归地推导影响函数来处理这个复合结构。
推论 1（影响函数形式）：
- 陈述：给出了加权 Q-learning 估计量 \( \hat{\boldsymbol{\beta}}_t \) 的影响函数的具体形式，它是各阶段得分函数和缺失权重的函数。
- 直觉：影响函数可用于构造置信区间和进行假设检验。
- 必要条件：同定理 2。

证明路线与技术技巧¶

整体路线：
1. 后向归纳：从最后一个阶段 \( t=T \) 开始，用完整病例（\( R_T=1 \)）估计 \( \hat{\boldsymbol{\beta}}_T \)，得到 \( \hat{Q}_T \) 和 \( \hat{\tilde{Y}}_T \)。
2. 缺失倾向得分估计：对每个阶段 \( t \)，用所有病例（包括 \( R_t=0 \)）和工具变量 \( \mathbf{Z}_t \)，通过估计方程（estimating equations） 估计缺失倾向得分参数 \( \hat{\boldsymbol{\alpha}}_t \)。估计方程基于工具变量的矩条件：\( \mathbb{E}[\mathbf{Z}_t (R_t - \pi_t(\cdot; \boldsymbol{\alpha}_t))] = 0 \)。
3. 加权 Q 函数估计：对每个阶段 \( t \)，用完整病例（\( R_t=1 \)）进行加权最小二乘回归，权重为 \( 1 / \hat{\pi}_t \)，响应变量为 \( Y_t + \hat{\tilde{Y}}_{t+1} \)（对 \( t=T \)，\( \hat{\tilde{Y}}_{T+1}=0 \)）。
4. 递归：重复步骤 2-3，从 \( t=T \) 到 \( t=1 \)，得到所有阶段的 \( \hat{\boldsymbol{\beta}}_t \)。
5. 渐近理论：将整个估计过程视为一个联合 M-估计问题，其目标函数是各阶段估计方程和加权最小二乘目标函数的和。利用 M-估计的渐近理论（一致性和渐近正态性），并处理后向归纳导致的复合结构。
关键跳跃点：
- 跳跃点 1：缺失倾向得分的识别。难点在于 \( \pi_t \) 依赖于未观测的 \( \mathbf{X}_t \)，因此标准方法（如基于观测协变量的 logistic 回归）不可行。作者的解法：引入工具变量 \( \mathbf{Z}_t \)，利用矩条件 \( \mathbb{E}[\mathbf{Z}_t (R_t - \pi_t)] = 0 \) 来识别 \( \pi_t \)。这需要证明该矩条件有唯一解（即 \( \pi_t \) 可识别）。
- 跳跃点 2：后向归纳中估计量的复合渐近方差。难点在于 \( \hat{\boldsymbol{\beta}}_t \) 依赖于 \( \hat{\boldsymbol{\beta}}_{t+1}, \dots, \hat{\boldsymbol{\beta}}_T \)，因此其渐近方差需累积各阶段的不确定性。作者的解法：递归地推导影响函数。具体地，先推导 \( \hat{\boldsymbol{\beta}}_T \) 的影响函数，然后将其代入 \( \hat{\boldsymbol{\beta}}_{T-1} \) 的估计方程，得到 \( \hat{\boldsymbol{\beta}}_{T-1} \) 的影响函数，以此类推。这类似于delta 方法的递归应用。
技术技巧点名：
- 估计方程（Estimating Equations）：用于估计缺失倾向得分参数。利用工具变量的矩条件构造无偏估计方程。
- 逆概率加权（Inverse Probability Weighting, IPW）：用于校正完整病例的选择性偏差。
- M-估计理论（M-estimation Theory）：用于推导加权 Q-learning 估计量的一致性和渐近正态性。
- 影响函数（Influence Function）：用于刻画估计量的渐近方差和进行推断。
- 后向归纳（Backward Induction）：DTR 估计的标准算法，本文将其与加权方法结合。

真实例子与应用¶

数据 / 场景：MIMIC-III 数据库的脓毒症（sepsis）患者液体管理数据。脓毒症是 ICU 常见危重症，液体管理（补液 vs. 利尿）是关键治疗决策。数据包含 2,000 多名脓毒症患者，治疗阶段分为早期（0-6 小时）和晚期（6-24 小时）。
如何应用：
- 定义：\( T=2 \) 阶段。\( A_1 \) 为早期液体策略（补液 vs. 保守），\( A_2 \) 为晚期液体策略。\( Y \) 为 28 天死亡率（二值结局，1=死亡，0=存活）。协变量包括年龄、性别、合并症、生命体征、实验室检查等。关键缺失协变量：晚期（6-24 小时）的某些生命体征（如中心静脉压 CVP）因监测频率不同而缺失，且缺失可能非随机（病情更重的患者监测更频繁，即缺失概率与未观测的健康状态相关）。
- 方法应用：作者将本文的加权 Q-learning 应用于该数据，并假设存在非应答工具变量（如入院时的某些基线特征，与晚期监测频率相关但与 28 天死亡率条件独立）。他们估计了最优液体策略，并与完整病例分析、多重插补等方法的结果进行比较。
结果：
- 主要发现：加权 Q-learning 估计的最优策略与完整病例分析不同。具体地，完整病例分析建议早期积极补液、晚期保守；而加权 Q-learning 建议早期保守、晚期积极补液。作者认为加权 Q-learning 的结果更合理，因为完整病例分析可能因选择性偏差（仅分析监测频繁的重症患者）而高估早期补液的益处。
- 与 baseline 对比：加权 Q-learning 估计的 28 天死亡率低于完整病例分析和多重插补（在模拟中验证了这一点，但在真实数据中无法验证真值）。
- 稳健性：作者进行了敏感性分析，改变工具变量假设的强度，发现结果在合理范围内稳健。
这个例子想说明什么：该例子旨在展示本文方法在真实 EMR 数据中的实用性，并说明忽略非随机缺失协变量可能导致次优甚至有害的治疗策略。它强调了在 DTR 估计中处理非随机缺失协变量的重要性。

🔎 结论是否比证明窄¶

窄化 1：定理 1 和 2 的证明依赖于参数模型正确指定的假设（假设 3）。但在真实数据中，Q 函数和缺失倾向得分模型几乎肯定被误设。作者在模拟中考察了模型误设下的稳健性，但未给出理论保证。因此，结论“加权 Q-learning 一致估计最优 DTR”仅在模型正确指定时严格成立。论文的 claim 应理解为“在正确指定模型下，加权 Q-learning 可一致估计最优 DTR”。
窄化 2：工具变量假设（假设 2）很强，且在实际中难以验证。作者在模拟中考察了工具变量假设被违反时的表现，但未给出理论指导。因此，结论“加权 Q-learning 可处理非随机缺失协变量”依赖于工具变量假设的成立。论文的 claim 应理解为“在存在有效工具变量时，加权 Q-learning 可处理非随机缺失协变量”。
窄化 3：论文仅推导了加权 Q-learning 估计量的渐近性质，但未讨论其半参数效率界。因此，结论“加权 Q-learning 是渐近有效的”并未被证明。论文的 claim 应理解为“加权 Q-learning 是 \( \sqrt{n} \)-一致且渐近正态的，但可能不是半参数有效的”。

四、开放问题¶

半参数效率界：本文加权 Q-learning 估计量的半参数效率界是多少？是否存在更高效的估计量（如基于高效影响函数的 one-step 估计或 targeted learning）？扎根点：论文未讨论效率界，仅在定理 2 中给出渐近方差形式。研究者可用其 semiparametric efficiency 框架审视本文，计算在非随机缺失协变量下最优 DTR 的半参数效率界，并与本文估计量的渐近方差比较。
高维协变量：当协变量维度 \( p \) 随样本量 \( n \) 增长时，本文的加权 Q-learning 是否仍一致？其收敛速度如何？扎根点：论文仅考虑固定维数协变量。研究者可用其 high-dimensional statistics 知识，将本文方法扩展到高维情形，并推导 Lasso 或 Dantzig selector 版本的收敛速度。
工具变量选择的敏感性：如何在实际数据中选择有效的非应答工具变量？是否存在数据驱动的工具变量选择方法？扎根点：论文假设工具变量已知，但未讨论其选择。研究者可探索将 proximal causal inference 的负对照变量选择方法引入 DTR 缺失数据。
与 Proximal Causal Inference 的交叉：本文的非应答工具变量与近端因果推断中的负对照变量有何异同？能否将近端推断的识别策略（如利用多个负对照变量）用于放松本文的工具变量假设？扎根点：论文未引用近端因果推断文献。研究者可用其 identification theory in causal inference 知识，探索两个框架的交叉。

Maintained by 陈星宇 · Homepage · Source on GitHub