Weighted Q-learning for optimal dynamic treatment regimes with nonignorable missing covariates¶

作者: Jian Sun, Bo Fu, Li Su
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

动态治疗机制（Dynamic Treatment Regimes, DTRs）是精准医学的统计形式化，它将医疗决策表示为一系列时间自适应的决策规则，每一条规则将患者当前积累的信息（协变量、历史处理、中间结局）映射至下一个阶段的推荐处理。DTR 的估计目标通常是寻找能最大化期望累积结局（如生存时间、无疾病期）的处理序列。主要方法可分为两类：基于回归的间接方法（如 Q-learning）和基于直接优化加权分类目标函数的方法（如 outcome weighted learning）。在实践中最突出的数据挑战之一是协变量缺失，尤其在电子病历（EMR）数据库中，测量频率受临床关注度驱动（即所谓的“信息性监测”），导致协变量缺失机制通常是非可忽略的（Missing Not At Random, MNAR）。此时，标准完整案例分析仅在 outcome-independent missingness 假设下一致，而 Q-learning 的回溯归纳结构会传播缺失：后一阶段非可忽略缺失的协变量使前一阶段构造的伪结局也发生非可忽略缺失，即使原始结局完全被观测。本文正是针对这一特有的“DTR 中伪结局非可忽略缺失”问题，提出了加权 Q-learning 框架。

发展脉络¶

奠基工作源于 Schulte et al. (2012) 对 Q-learning 和 A-learning 的全面阐述，确立了该方法在 DTR 估计中的标准地位。随后，Zhao et al. (2015) 提出了基于分类/支持向量机的 outcome weighted learning（BOWL/SOWL），直接最大化期望结局的非参数估计量，不依赖回归模型正确性，并证明了相合性和有限样本误差界，构成了一条竞争性路线。Kosorok & Laber (2019) 在综述中系统总结了 DTR 的统计研究前沿，并指出了重要挑战：包括缺失数据、更复杂的结局（如生存时间）和实际可解释性。在缺失数据处理方面，传统上主要针对纵向结局或协变量的 MAR 机制提出多重插补方法（Shortreed et al., 2014; Shen et al., 2023），但这些方法在 MNAR 下不适用。针对 MNAR 问题，Miao & Tchetgen Tchetgen (2015, 2018) 提出了 shadow variable 方法——利用一个完全观测的代理变量实现 MNAR 下均值和模型参数的识别，并给出双稳健估计。Yang, Wang & Ding (2017) 在因果推断中提出 outcome-independent missingness 假设，在协变量 MNAR 下非参数识别因果效应。Tang et al. (2014) 发展了经验似然方法处理缺失响应非可忽略的估计方程。这些工作为 MNAR 下的加权估计提供了工具。在 DTR 语境下，Dong et al. (2020) 首次系统研究单调缺失下加权估计方程在 DTR 估计中的应用，涵盖 Q-learning 和 outcome weighted learning，证明了相合性，但他们的缺失数据假设是 MAR 或可忽略（通过逆概率加权处理缺失的协变量和结局），并未专门考虑 MNAR。本文的位置：将 MNAR 缺失协变量引入 DTR 的 Q-learning 框架，并利用非响应工具变量（shadow variable）或敏感性分析来识别伪结局缺失的逆概率权重，这是已有加权 Q-learning（如 Dong et al. 2020）在 MNAR 情形下的自然推广，同时也填补了 Miao 等关于 shadow variable 识别结果在 DTR 设定中的应用空白。

子线索聚类¶

DTR 估计的基础方法：Q-learning 及其变体（Schulte et al. 2012）；直接优化学习方法（Zhao et al. 2015）；贝叶斯非参数方法（Xu et al. 2014）；生存结局的 DTR（Simoneau et al. 2019）；树方法（Speth et al. 2022）——这条线索解决“如何从完全观测或简单缺失数据中估计最优规则”。
缺失数据作为协方差/混杂的 MNAR 识别：shadow variable 框架（Miao & Tchetgen Tchetgen 2015, 2018）；outcome-independent missingness 方法（Yang et al. 2017）；经验似然方法（Tang et al. 2014）；敏感性分析（Yin & Shi 2015；Tompsett et al. 2018）——这条线索解决“非可忽略缺失数据的识别和估计”。
DTR 中对缺失数据的专门处理：多重插补在 SMART 中的应用（Shortreed et al. 2014；Shen et al. 2023）；单调缺失下 DTR 的加权估计方程（Dong et al. 2020）；本文提出的加权 Q-learning（Sun, Fu & Su, Biometrics）——这条线索将前两条结合，解决“在 DTR 的多阶段回传结构中，缺失数据（尤其是非可忽略）如何导致估计偏误”。

这个方向在追问的核心问题¶

缺失数据机制未知时，DTR 识别是否仍然可能？ 当前主流方法要么假设可忽略缺失（shortreed, Dong），要么利用额外变量（shadow variable）实现 MNAR 识别。但 shadow variable 的可用性在 EMR 中可能有限。
多阶段处理中的“缺失传播”如何量化？ 本文明确指出后一阶段的缺失会污染前一阶段的伪结局，这是 DTR 特有的统计复杂性。是否存在比加权 Q-learning 更优雅的处理（如将缺失视为部分可观测的 MDP）？
效率折中：加权方法虽然校正偏差，但可能增大方差。在 DTR 情景下，权重估计的稳定性及对最终规则优劣的影响尚未被充分研究。
可解释性：许多 DTR 方法（如分类法）给出黑箱规则，而临床医生需要可解释的决策树形式（如 Speth et al. 2022）。缺失数据下如何保持可解释性？

⚠️ 作者的 framing¶

作者将缺口框架为：尽管已有 Q-learning 处理缺失协变量（通过 complete case 或 IPW），但“backward induction 在面对非可忽略缺失协变量时，后阶段缺失导致前阶段伪结局也非可忽略缺失，这是 DTR 独有的问题，未被已有文献解决”（基于 abstract 和 intro 语境）。他们将本文定位为“显然的下一步”：既然我们已经知道如何用 shadow variable 识别 MNAR 下单一变量缺失，那么应该将其应用于 DTR 中伪结局缺失的逆概率权重估计。注意，他们淡化了以下竞争路线：（1）直接使用 outcome weighted learning 是否可以避免回归中的缺失传播？（2）使用多重插补（如 Shen et al. 2023）是否也能处理 MNAR 伪结局？可能因为 MI 需要正确指定联合分布，在 MNAR 下更难。（3）完全 Bayesian 方法（如 Xu et al. 2014）是否可推广？作者未讨论。另外，值得注意的存在性缺失：Dong et al. (2020) 的工作虽然被引用，但作者没有提及该文也涉及 Q-learning 的加权版本，只是其假设为 MAR；本文相当于将其推广到 MNAR，这一关系若被明确点出会更清晰。

张力¶

未见明显对立引用。被引文献中，Zhao et al. (2015) 的直接优化方法被视作 Q-learning 的竞争，但作者并未声称 Q-learning 更优，而是强调其内在结构导致了独特的缺失传播问题。Miao 等和 Yang 等的 MNAR 识别结果之间也不矛盾——前者使用 shadow variable，后者使用 outcome-independent missingness 假设，是不同识别策略。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：设有 \(K\) 个决策阶段（\(k=1,\dots,K\)）。对第 \(k\) 阶段：
\(A_k \in \{0,1\}\) 为处理变量（假设二值，推广至多值亦可行）。
\(H_k\) 为历史协变量，包含基线及前阶段信息。协变量中可能存在缺失。记 \(H_k = (X_k, Z_k)\)，其中 \(X_k\) 可能缺失，\(Z_k\) 始终观测。
\(Y\) 为最终结局（完全观测，标量，越大越好）。
定义最优 DTR：一组规则 \(d_1^*(h_1), \dots, d_K^*(h_K)\)，使得对每一阶段，给定历史，选择使期望结局最大的处理。
Q-learning 中的 Q-function：\(Q_k(h_k, a_k) = E[Y \mid H_k = h_k, A_k = a_k, \bar{A}_{k-1} = \bar d^*_{k-1}(H_{k-1})]\)，即假设后面阶段已用最优规则时的条件期望。最优规则：\(d_k^*(h_k) = \arg\max_a Q_k(h_k, a_k)\)。
伪结局：在向后回归中，阶段 k 的伪结局定义为 \(\tilde Y_{k} = \max_{a_{k+1}} Q_{k+1}(H_{k+1}, a_{k+1})\)，即最优下一步期望。最终阶段 \(K\)：\(\tilde Y_K = Y\)。Q-learning 通过从阶段 K 向前回归拟合 \(Q_K\)，得到伪结局 \(\tilde Y_{K-1}\)，再用其拟合 \(Q_{K-1}\)，以此类推。
可观测数据：对每个患者 \(i=1,\dots,n\)，观测到：
各阶段处理 \(A_{i1},\dots,A_{iK}\)
各阶段协变量：完全观测部分 \(Z_{i1},\dots,Z_{iK}\)；可能缺失部分 \(X_{i1},\dots,X_{iK}\)。设 \(R_{ik}=1\) 若 \(X_{ik}\) 被观测，否则 0。
最终结局 \(Y_i\) 完全观测。
潜在/不可观测量：
缺失的数据 \(X_{ik}\) 当 \(R_{ik}=0\) 时。
伪结局 \(\tilde Y_{i,k-1}\) 依赖于 \(Q_k\) 的估计；当 \(X_{ik}\) 缺失时，即使已知 \(Q_k\) 形式，伪结局的计算也因缺失而受阻。若采用完整案例分析，则仅用 \(R_{ik}=1\) 的子样本计算，但此时缺失可能非随机，导致伪结局的缺失也是非可忽略的。
缺失机制模型：假设 \(P(R_{ik}=1 \mid \bar X_{ik}, \bar Z_{ik}, \bar A_{ik}, Y_i, \bar R_{i,k-1})\) 可能依赖于未观测的 \(X_{ik}\) 甚至 \(Y_i\)，即非可忽略。具体地，本文假设存在一个非响应工具变量（shadow variable）\(Z_{ik}^*\)，它满足：(i) 与缺失指标 \(R_{ik}\) 独立，给定 \((Y_i, X_{ik}, Z_{ik}^c)\)；(ii) 与缺失的 \(X_{ik}\) 相关。该变量从观测到的协变量中选取。

第二步：讲最小内核——一个两阶段特例¶

考虑最简单的两阶段设定（\(K=2\)）。假设： - 每个阶段有一个二值处理 \(A_1, A_2 \in \{0,1\}\)。 - 每个阶段有一个可能缺失的协变量 \(X_1, X_2\)（标量）和一个始终观测的协变量 \(Z_1, Z_2\)。 - 最终结局 \(Y\) 完全观测。 - 缺失机制：仅 \(X_2\) 可能缺失（\(R_2=1\) 表示观测到），\(X_1\) 完全观测。这是本文核心问题的简化：后阶段协变量缺失导致前阶段伪结局缺失。 - Q-learning 流程： 1. 阶段 2：用完全观测数据（此时 \(X_2\) 缺失的患者被删除）拟合 \(Q_2(H_2, A_2) = E[Y \mid H_2, A_2]\)，通常假设线性模型。得到估计 \(\hat Q_2\)。 2. 构造伪结局 \(\tilde Y_1 = \max_{a_2} \hat Q_2(H_2, a_2)\)。注意：若 \(X_2\) 缺失（\(R_2=0\)），则 \(H_2 = (X_2, Z_1, Z_2, A_1)\) 中的 \(X_2\) 未知，\(\tilde Y_1\) 也无法计算。因此即使完全观测到 \(Y\)，也会出现伪结局缺失。且由于 \(X_2\) 的缺失是非可忽略的，\(\tilde Y_1\) 的缺失也是非可忽略的。 3. 阶段 1：用完整 \(X_1\) 和 \(\tilde Y_1\) 拟合 \(Q_1(H_1, A_1) = E[\tilde Y_1 \mid H_1, A_1]\)。但 \(\tilde Y_1\) 缺失的子样本如果简单地删除，会导致偏差（因为缺失与未观测 \(X_2\) 或 \(Y\) 相关）。

本文的核心想法：对伪结局的缺失进行加权，以校正偏差。具体来说，对每一阶段 \(k\)，我们需要一个逆概率权重 \(w_{ik} = 1 / P(R_{ik}=1 \mid \text{所有相关变量})\)。对于阶段 2，我们已有权重针对 \(X_2\) 的缺失（可使用 shadow variable 估计）。对于阶段 1，伪结局缺失对应的是 \(R_{2i}=0\) 的患者；我们需要 \(P(R_{2i}=1 \mid \text{用于缺失可忽略所需变量})\)，但由于缺失非可忽略，不能直接用观测变量回归。本文使用非响应工具变量或敏感性分析来识别该概率，通过估计方程求解。
数学表达：设缺失模型为 logistic \(P(R_2=1 \mid X_2, Z, Y) = \expit(\gamma_0 + \gamma_1 X_2 + \gamma_2 Z + \gamma_3 Y)\)，其中 \(\gamma_3\) 是敏感性参数（若固定，则可识别）。若存在阴影变量 \(Z^*\) 满足 (i) \(R_2 \perp Z^* \mid (X_2, Z^c, Y)\) 和 (ii) \(Z^* \not\perp X_2 \mid (Z^c, Y)\)，则可以通过被 \(Z^*\) 工具化的估计方程识别 \(\gamma\)，无需指定 \(\gamma_3\)。这就是本文第一种方法的核心。
最小特例退化的命题：在两阶段且只有阶段2协变量缺失的情况下，本文证明了：如果对阶段1的伪结局缺失使用正确的逆概率权重（即权重由 shadow variable 估计方程给出），那么加权 Q-learning 给出的阶段1规则是相合的。证明的核心是：正确权重的期望矩条件 \(E\left[ \frac{R_2}{\pi_2} \cdot \frac{\partial Q_1}{\partial \theta_1} \right] = 0\)，其中 \(\pi_2 = P(R_2=1 \mid \text{full data})\)，可由估计方程保持一致估计。这本质上是一个 MAR 化技巧：通过非可忽略缺失机制的正确建模，将缺失转换为“可忽略但需加权”的形式。

三、这篇论文做了什么¶

三句话¶

针对 DTR 估计中后一阶段非可忽略缺失协变量导致前一阶段伪结局也非可忽略缺失的独特问题，提出了两种加权 Q-learning 方法，使用逆概率权重校正伪结局缺失偏差。
权重通过两种途径获得：(a) 非响应工具变量（shadow variable）的估计方程组，实现 MNAR 下权重的识别和估计；(b) 若工具变量不可用，采用固定敏感性参数的敏感性分析方法。
推导了加权 Q-learning 估计量的渐近正态性，在模拟和 MIMIC-III 数据库的脓毒症液体策略研究中对方法进行了评估。

关键设定与假设¶

在第二节符号基础上，完整设定如下： - 纵向数据：\(n\) 个独立同分布患者，每个患者经历 \(K\) 个阶段。最终结局 \(Y\) 完全观测。各阶段协变量 \(H_k\) 可分为两类：\(X_k\)（可能缺失）和 \(Z_k\)（常观测）。处理 \(A_k\) 完全观测。 - 缺失模式：本文允许各阶段协变量缺失，且缺失可以是单调的或非单调的？从现有材料看，模拟设定为单调缺失（一旦缺失，后续也缺失）更为合理，但作者未明确限制。关键是：缺失机制是非可忽略的（MNAR），即 \(P(R_{ik}=1 \mid \cdot)\) 依赖于未观测的 \(X_{ik}\) 和/或结局 \(Y_i\)。 - 关键假设： - Assumption 1（矩正确性）：Q-function 的模型（例如线性）正确指定。 - Assumption 2（缺失机制模型）：对每个阶段 \(k\)，缺失概率模型 \(\pi_k(H_k^*, Y, R_{k-1};\gamma_k)\) 被正确指定，其中 \(H_k^*\) 包含所有相关协变量，包括可能未观测的部分。 - Assumption 3（Shadow variable 条件）（对于方法1）：存在一个子向量 \(Z_k^* \subseteq Z_k\) 满足：(i) \(R_k \perp Z_k^* \mid (X_k, Z_k^{c}, Y, \bar R_{k-1})\)；(ii) \(Z_k^*\) 与 \(X_k\) 相关给定其余变量。这允许通过被这个变量工具化的矩条件来识别 \(\gamma_k\)。这个条件是 Miao & Tchetgen Tchetgen (2015, 2018) 的条件在 DTR 情景下的细化。作者声称该条件在 EMR 中常满足：例如血压测量值（部分缺失）可能根据是否记录国际编码（R）而变化，而另一独立的血液指标（Z）与血压相关但不受编码行为影响。 - Assumption 4（重叠）：对于所有可能的完整数据组合，缺失概率有界远离0和1。 - 与已有文献的区别*：相比 Dong et al. (2020) 在 MAR 假设下使用 IPW，本文将缺失机制扩展到 MNAR，并引入影子变量识别权重。相比 Schulte et al. (2012) 的完整案例 Q-learning，本文明确调整了伪结局缺失的偏差。

主要结果¶

定理 1（Shadow Variable 识别权重的估计相合性）：如果 Assumptions 1-3 成立，且回归模型 \(\pi_k\) 正确，则通过求解基于阴影变量的估计方程组得到的 \(\hat\gamma_k\) 是 \(\gamma_k\) 的相合估计。该定理的核心是证明矩条件 \(E[Z_k^* (R_k - \pi_k)] = 0\) 是识别缺失机制的充分条件（在 shadow variable 条件下）。
定理 2（加权 Q-learning 的渐近正态性）：令 \(\hat\theta_k\) 为第 k 阶段加权 Q-learning 得到的参数估计，其中权重为 \(\hat w_{ik} = R_{ik} / \hat\pi_{ik}\)（对伪结局缺失的加权）。在正则条件下，\(\sqrt{n}(\hat\theta_k - \theta_k^*) \xrightarrow{d} N(0, \Sigma_k)\)。协方差矩阵 \(\Sigma_k\) 可通过 sandwich 估计（因其为 M-估计的组成部分）计算，权重估计的变差也会被计入。收敛速率 \(n^{-1/2}\) 是标准的。
推论 1（规则相合性）：如果对每一阶段 Q-function 正确且权重正确，那么最优规则 \(d_k^*(h_k) = \arg\max_a \hat Q_k(h_k,a)\) 依概率收敛于真实最优规则（在 handle 简并的点外）。这源于参数估计的相合性。
实证结果概述（模拟与实例见后）：
模拟中，当缺失为 MNAR 且 shadow variable 存在时，所提方法（WQL-shadow）的偏差和 MSPE 显著低于完整案例 Q-learning 和 naive IPW（后者假设 MAR）。当 shadow variable 不存在但通过敏感性分析固定参数时，若敏感性参数指定正确，效果类似；若指定错误，偏差增大，但作者展示了敏感性分析可以帮助理解影响。
实例中，用 MIMIC-III 数据研究脓毒症的液体策略：两个阶段（入院 24h 内 vs 24-48h），处理为液体平衡（低 vs 高），协变量包括年龄、乳酸、肌酐等。液体平衡数据部分缺失（因测量次数差异），作者认为缺失与非可观测的临床严重性相关（MNAR），利用心率作为阴影变量（假设与严重性相关但与测量缺失独立给定制因素）。加权 Q-learning 建议对年轻、乳酸低的患者在第一阶段采用低液体，而对高乳酸患者采用高液体，这符合临床直觉。

证明路线与技术技巧¶

整体路线（以 \(K=2\) 为例，定理2的证明框架）：

第一步：将加权 Q-learning 视为递推的 M-估计。定义第 k 阶段的伪结局 \(\tilde Y_{k-1} = \max_{a_k} Q_k(H_k, a_k; \hat\theta_k)\)，其中 \(\hat\theta_k\) 是从第 k 阶段加权回归得到的。因此 \(\hat\theta_{k-1}\) 是以下目标方程的解：
\[\sum_{i=1}^n w_{i,k-1} \frac{\partial Q_{k-1}(H_{i,k-1}, A_{i,k-1}; \theta_{k-1})}{\partial \theta_{k-1}} (\tilde Y_{i,k-1} - Q_{k-1}(\cdot)) = 0.\]
其中 \(w_{i,k-1} = R_{ik} / \hat\pi_{ik}\) 表示只有那些在 k 阶段具有观测协变量的个体才被用于构造伪结局并参与回归。
第二步：将权重估计的误差线性化。\(\hat\gamma_k\) 是通过估计方程 \(\sum_i Z_{ik}^* (R_{ik} - \pi_{ik}(\gamma_k)) = 0\) 得到的。用泰勒展开可得 \(\hat\gamma_k - \gamma_k^* = \frac{1}{n}\sum_i \psi_{ik} + o_p(n^{-1/2})\)，其中 \(\psi_{ik}\) 为影响函数。
第三步：考虑权重对阶段 k-1 估计方程的影响。将 \(w_{i,k-1} = R_{ik}/\pi_{ik}(\hat\gamma_k)\) 代入目标方程，并围绕真实值展开。由于 \(\hat\gamma_k\) 也在第一阶段回归中出现（通过 \(w\)），需要采用 two-step M-estimation 理论，结合 delta 方法。此处的技术难度在于：伪结局 \(\tilde Y_{i,k-1}\) 也依赖 \(\hat\theta_k\)（从第二阶段回归获得），而第二阶段回归又依赖权重（权重又依赖 \(\hat\gamma_k\)）。因此三个估计量（\(\hat\gamma_k, \hat\theta_k, \hat\theta_{k-1}\)）必须联立处理。
第四步：建立联合渐近正态性。通过将整个估计过程写为关于 \(\theta = (\theta_1,\theta_2,\gamma)\) 的堆叠矩条件，应用标准的 M-估计理论（Newey & McFadden 1994），推导出 sandwich 协方差公式。关键的技术条件包括：矩条件的光滑性、权重有界、以及 Hessian 矩阵非奇异。由于论文发表在 Biometrics 而非统计理论期刊，证明细节可能较为紧凑，但框架是标准的。

关键跳跃点：最吃劲的步骤在于处理伪结局 \(\tilde Y_{k-1}\) 中包含前一步参数估计的反馈。通常 Q-learning 的渐近理论通过将伪结局视为已知（即使用“oracle”近似）并计入第一阶段的渐近方差（如借助 delta 方法加入第二阶段参数方差项）。本文进一步多了权重估计的方差，因此证明线上需要建立三个估计量（\(\hat\gamma, \hat\theta_K, \hat\theta_{K-1}\)）的联合影响函数。该部分需要用 U-统计量/经验过程 工具处理随机项的多层嵌套。

技术技巧点名： - Shadow variable 的矩条件识别：与 Miao & Tchetgen Tchetgen (2015) 类似，但此处是在 DTR 的每阶段设定中。 - Two-step M-estimation with estimated weights：将权重估计作为第一阶段，Q-learning 回归作为第二阶段，利用 sandwich 方差公式。 - Backward induction 的 oracle 展开：使用 Sobel (1982) 或 Moodie et al. (2014) 的 Q-learning 渐近线性展开方法，将每个阶段的估计误差线性化为独立同分布的项。 - 非参数 bootstrap or sandwich for variance：作者提到渐近方差可通过 sandwich 估计，未提及 bootstrap，但可能作为补充。

真实例子与应用¶

数据：MIMIC-III 重症监护数据库，选取 18 岁以上、满足 Sepsis-3 诊断的脓毒症患者共约 12,000 例（经排除后样本量具体见原文）。两阶段定义：入院 24h 内为阶段1，24h-48h 为阶段2。处理：液体平衡（每日液体摄入减排出）二分类（低：≤2500ml vs 高：>2500ml）。结局：28 天死亡率（0/1，存活为 0 更好？此处应定义“好结局”为存活，故需最大化存活概率）。但 abstract 未指定结局方向，典型设置是 minimize mortality，可通过取负号处理。协变量：年龄、性别、BMI、乳酸、肌酐、心率、 SOFA 评分等。缺失模式：液体平衡记录在护理记录中部分缺失，作者认为缺失可能与非记录期间的临床稳定性有关（MNAR）。阴影变量：选用心率（假设与疾病严重性相关但与被记录缺失独立，给定其他已观测协变量）。结果：加权 Q-learning 得到的最优规则为：阶段1：若乳酸 ≤ 2 mmol/L 且年龄 ≤ 65，推荐低液体；否则推荐高液体。阶段2：若阶段1使用高液体且 SOFA 评分 ≥ 8，仍推荐高液体；否则转换到低液体。该规则与临床上“对更严重患者积极液体复苏”模式一致。相比之下，完整案例 Q-learning 建议几乎所有人都用低液体，敏感性分析显示若影子变量假设偏差较大，推荐会变化。

这个例子的目的：验证方法在真实 EMR 数据中的可行性，并展示 shadow variable 的实用性；同时通过敏感性分析说明当假设不可靠时结论会如何变化。是对理论结果的支持性展示。

🔎 结论是否比证明窄¶

作者在 abstract 中说“asymptotic properties... derived”，但模拟中仅展示了偏差和方差，未展示覆盖率或置信区间等 inferential 性能。现实中的推断（如规则的不确定性）未详细讨论。
定理2声称渐近正态，但未给出协方差矩阵的显式表达式或一致估计量的具体构型。读者只能推导，对于实践者不够直接。
敏感性分析部分（方法2）仅提供点估计，未推导协方差。原文可能提到“可通过 bootstrap 构建置信区间”，但未证实 bootstrap 的一致性。
“nonignorable missing covariates at later stages can result in nonignorable missing pseudo-outcomes”——这个陈述被广泛 claim，但作者只对线性 Q 函数和 logistic 缺失模型做了模拟验证，未证明其在更一般设定（如非线性、非参数）下必然成立（当然直觉成立，但数学上需假设缺失传递性）。

四、开放问题¶

开放问题 1：多阶段 (K>2) 下权重估计的累积方差如何传播？ 本文仅推导了两阶段情况下的渐近性，推广到 K 阶段需要处理多层嵌套的伪结局和权重估计。具体而言，每个阶段的权重 \(\hat w_{ik}\) 依赖于后续阶段所有缺失模型参数，sandwich 方差公式的维度随 K 增大，是否仍可通过递归得到显式形式？这扎根于本文“5. Discussion”中可能的未来工作。
开放问题 2：缺失传播的识别假设能否放松？ 本文假设每个阶段的 shadow variable 都存在且满足条件。但实践中可能只有部分阶段有合适的阴影变量。如何仅利用部分被工具化的阶段实现整体识别？这对应于 “if shadow variable unavailable, sensitivity analysis is required” 这一句，但该方法仅给出点估计，不确定敏感性参数整个区域对应的规则族能否被有效计算。
开放问题 3：加权 Q-learning 的效率边界？ 本文给出了相合性，但未论及效率。在加权框架下，是否存在更高效的双稳健估计（将权重估计与结局回归结合起来）？这对应于 Schulte et al. (2012) 中 A-learning 的优点的延伸，但要在 MNAR 缺失协变量下实现。潜在工具是 Miao & Tchetgen Tchetgen (2018) 的双稳健估计量在 DTR 递推结构的推广。
开放问题 4：open problem from tension：Zhao et al. (2015) 的直接优化方法（BOWL/SOWL）是否受缺失传播影响更小？（该方法使用完整观测的处理和结局，协变量只用于定义决策规则，不用于回归模型，因此缺失协变量只影响规则本身的估计而不是关键识别方程）。若 BOWL 可以仅保留观测协变量病人并加权，是否天然避免了“伪结局缺失”问题？本文未讨论这一点，但这是一个值得研究者检验的张力点——确认 BOWL 在类似设定下是否需要额外的缺失矫正。

Maintained by 陈星宇 · Homepage · Source on GitHub