Optimal dynamic treatment regime estimation in the presence of nonadherence¶

作者: Dylan Spicker, Michael P Wallace, Grace Y Yi
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向聚焦于在患者非依从性 (nonadherence) 存在时，如何从观测数据中一致且高效地估计最优动态治疗方案 (Optimal Dynamic Treatment Regime, DTR)。DTR 是一系列依患者实时信息 (协变量、中间结局) 调整治疗决策的规则，目标是最大化整个患者群体在遵循该规则时的期望结局。当患者实际接受的治疗与指定治疗不一致时 (非依从性)，标准 DTR 估计方法 (如 Q-learning, G-estimation) 会因混淆 (confounding) 或治疗分配机制错认而产生偏倚，导致估计出的决策规则次优。该子方向正处于从“理想化 (理想依从)”向“可操作 (真实世界依从)”过渡的阶段，成熟度中等：方法框架 (特定情境下的识别+双稳健估计) 已建立，但对假设强度的讨论 (未测混杂、工具变量) 仍显不足。

发展脉络 (history)¶

奠基工作: 最优 DTR 估计的经典框架 (约 2004-2014)
- Robins 2004 (SNMM/G-estimation): 提出用结构嵌套均值模型 (SNMM) 和 G-estimation 估计最优 DTR，为这类问题奠定了半参数估计框架，但引入了一个关键问题：“exceptional laws”下的非正则性 (non-regularity)。
- Zhao et al. 2012 (Outcome Weighted Learning, OWL): 将最优 DTR 估计等价为一个加权分类问题，使用支持向量机框架，得到了有限样本界，是方法的另一主要流派。本文将其引为 [3]。
- Zhang et al. 2012 (Robust / Doubly Robust): 提出双稳健估计方法：即使结果模型或倾向得分模型之一错误，仍能保持一致估计。本文将其引为 [6]。
- Chakraborty et al. 2009 & Moodie & Richardson 2009 (Exceptional Laws): 系统研究了“exceptional laws” (治疗效应为零或接近零的分布区域) 如何导致 DTR 参数的非正则性，并提出修正方法 (如 ZIPI)。本文将其引为 [33, 34, 35]，并预期其修正可以应用于本文的方法。
主要进展 (非依从性问题的介入)
- 非依从性影响的理论认识: 本文作者于 2019 年 [10] 证明了当个体层面的协变量 (如 X_j) 存在测量误差时，构造“伪结局” (pseudo-outcomes) 以实现最优 DTR 的一致估计是“a substantial hurdle”。这直接指出了信息错误 (非依从性是治疗分配/接收的信息错误) 会破坏 DTR 估计的一致性，为本文的动机铺路。
- 非依从性作为因果识别问题: Han 2018 [27] 针对动态治疗效应，提出了一套非参数识别框架，通过引入“two-way exclusion restriction” (即排除结果方程的唯工具变量和排除治疗选择方程的唯外生变量) 来放松顺序可忽略性假设。本文将其引为 [27] 来定位非依从性的识别关键在于工具变量。
当前 Frontier: 本文的位置
- 本文是第一个在最优 DTR 估计框架中，系统地将非依从性作为因果识别问题对待，并给出一种双稳健估计方法的工作。它不讨论非依从性的类型 (如完全非依从 vs. 部分依从)，而是将“实际治疗 ≠ 指定治疗”直接建模为依从性机制，并假设在给定协变量 (X_j) 和依从性类型 (C_j) 下，指定治疗对结局无直接效应 (条件工具变量假设)。这使得它可以扩展标准的 Q-learning / G-estimation。
- 它没有解决未测量混杂下的非依从性校正，也没有讨论非依从性本身可能依赖于未测量的预测量 (即非依从性是选择性的)，而是假设依从性指示器 (比如“是否依从”) 是可观测的且可由已有协变量解释。

子线索聚类¶

子线索	主要代表	核心任务与方法
DTR 基本估计算法	[3] Zhao 2012, [6] Zhang 2012, [7] Liu 2018, [8] Chakraborty 2009	开发 G-estimation、Q-learning、OWL 等核心算法，关注一致性、双稳健性、非正则性。 (本文的起点)
真实世界挑战 (非依从性与测量误差)	[10] Spicker & Wallace 2019, [27] Han 2018, [11] McComsey 2021, [12] Gonzalez 2011	揭示非依从性/测量误差对 DTR 估计的破坏；提出工具变量等识别策略。 (本文的直接驱动)
意图治疗 (ITT) 与依从分析框架	[15, 16] Gupta 2011, McCoy 2017, Ranganathan 2016	定义 ITT、As-treated、Per-protocol 分析的概念陷阱，强调 ITT 有偏、PP 破坏随机化。 (本文的统计背景)
医学实证应用	[11] McComsey 2021 (HIV 依从性), [12] Gonzalez 2011 (抑郁症与C依从性)	展示非依从性在 HIV、抑郁症等领域的普遍性和临床重要性。 (本文的潜在应用场景)

核心问题与瓶颈¶

核心问题 1: 识别问题。在非依从性存在时，最优 DTR 的因果参数 (argmax over rules Ψ(d)) 是否可由可观测数据唯一确定？需要什么样的假设 (如条件工具变量、单调性、无未测混杂)？
核心问题 2: 估计问题。给定可识别性，如何构造一个一致且渐近正态的估计量？如何使该估计量具有双稳健性 (倾向得分或结果模型之一正确即可)？
核心问题 3: 推断问题。如何处理由“exceptional laws”导致的非正则性 (这可能在非依从性子群中更常见)？
当前瓶颈: 对非依从性机制假设的强度缺乏系统讨论和放松。 大多数工作 (包括本文) 假设依从性机制是可忽略的 (即给定协变量后，依从性与潜在结局独立)，或者需要一个有效工具变量。在真实世界，非依从性往往是选择性的并与未测混杂相关 (例如，更抑郁的患者更可能不依从且结果更差)，这直接威胁一致性。另一个瓶颈是缺乏从“实际治疗”到“指定治疗”的通用积分/变换公式（类似于测量误差校正中的 SIMEX 或回归校正），使得 DTR 估计在非依从性下变成一个局部而非全局的识别问题。

⚠️ 作者的 framing (必须明确标注)¶

作者将其框架为：“到目前为止，关于非依从性对 DTR 估计影响的文献中，对非依从性的考虑‘minimal’ (极少)”，因此本文是“第一个指出忽略非依从性将估计出次优规则，并提出一种校正方法”的工作。他们特意淡化了 Han 2018 [27] 和测量误差文献 [10] 的强度。——实际上，Han 2018 提供了一个更普遍的工具变量识别框架，但本文将其定义为只讨论了“价值函数的估计”(value of a regime)，而非最优规则的估计。作者将 Han 2018 的框架定位为“相关但不同”，以便让本文的“直接调整实际治疗”路径看起来是“显然的下一步”。

什么明显该被引 / 该存在、却没出现在 intro 里？ 1. Causal Inference with Noncompliance under Instrumental Variables (IV)。例如 Angrist, Imbens, Rubin (1996) 的 LATE 框架。如果依从性不是“全部或全无”，而是部分依从，如何用 LATE / 加权 IV 估计最优 DTR？本文直接假设有“依从性类型” (C_j)，没有讨论局部平均处理效应 (LATE) 及其与最优规则的结合。 2. Potential Outcomes framework for noncompliance (Frangakis & Rubin, 2002)。框架化的“principal stratification” (主分层) 方法直接处理非依从性导致的潜在结果类型异质性。这可能是比本文的“条件工具变量”假设更鲁棒的替代路径。它的缺失是一个值得研究者去查的高价值信号。

张力¶

未见明显对立引用。但本文的假设（给定协变量 X_j 和依从性类型 C_j 后，指定治疗 A_j 是条件工具变量）与 Han 2018 的“two-way exclusion restriction”存在张力：后者只对结果方程排除治疗，不要求治疗选择方程排除协变量，更灵活但假设更复杂。这是潜在可深挖的比较点。

二、最核心、最简单的例子 / 数学问题¶

承接第一节，我们先交代清楚记号，再讲一个特例。

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( J \in \mathbb{N}^+ \): 时间点总数 (治疗阶段数)。
- \( j = 1, \dots, J \): 第 \( j \) 个治疗阶段。
- \( A_j \in \mathcal{A} \) (如 {0, 1} 或连续区间): 在阶段 \( j \) 的指定治疗 (assigned treatment)，随机化或由策略指定。
- \( A_j^* \in \mathcal{A} \): 在阶段 \( j \) 患者实际接受的治疗 (actual/true treatment)。核心关系: \( A_j^* \ne A_j \) 表示非依从。这是本文的核心可观测变量（假设非依从性导致治疗偏离，而非全新治疗）。
- \( X_j \in \mathbb{R}^{p_j} \): 阶段 \( j \) 初（给药前）观测到的患者协变量 / 预测量。
- \( Y \in \mathbb{R} \): 最终结局 (如连续性指标，越高越好)。假没 \( Y \) 只在最后阶段后测量，不随时间变化。
- \( C_j \in \{0, 1\} \): 在阶段 \( j \) 的依从性类型 (是否依从)，\( C_j = 1 \) 表示依从 (\( A_j^* = A_j \)); \( C_j = 0 \) 表示非依从 (\( A_j^* \ne A_j \))。
- \( H_j = (X_1, A_1^*, X_2, A_2^*, \dots, X_j) \): 阶段 \( j \) 开始前的完整历史 (包括实际治疗信息)。
- \( d_j: \mathcal{H}_j \to \mathcal{A} \): 一个治疗决策规则 (regime)，基于历史 \( H_j \) 输出推荐治疗。
- \( d = (d_1, \dots, d_J) \): 一个动态治疗方案 (DTR)，即决策规则序列。
- \( V(d) = \mathbb{E}[Y(d)] \): 价值函数，即整个群体在遵循方案 \( d \) 并完全依从时的期望结局。这是我们要最大化的目标函数。
- \( d^{opt} = \arg\max_d V(d) \): 最优 DTR。
模型：
- 数据生成机制:
  1. 基线协变量 \( X_1 \) 从某分布生成。
  2. 每个阶段 \( j \): a. 给定 \( H_j \)，治疗 \( A_j \) 被随机分配 (或由某个策略规定，但这里简化假设随机化)。 b. 给定 \( H_j, A_j \)，依从类型 \( C_j \) 从某机制 (如 logit 模型) 生成。 c. 实际治疗 \( A_j^* \) 由依从类型决定: 若 \( C_j=1, A_j^*=A_j \); 若 \( C_j=0 \)，从另一个机制 (可能依赖于 \( H_j, A_j \)) 生成 \( A_j^* \)。 d. 观测下一阶段协变量 \( X_{j+1} \) 和中间结局 (如果有，但假没主要结局为Y)。
  3. 最终，结局 \( Y \) 由整个实际治疗历史 (\( A_1^*, \dots, A_J^* \)) 和协变量历史 (\( X_1, \dots, X_J \)) 按照一个结构方程生成，例如 \( Y = f(H_J, A_J^*, \epsilon) \)。
- 关键目标: 估计 \( d^{opt} \)，并构造一个可观测数据的“伪结局” \( \tilde{Y}_j \)，使其在条件 \( E[\tilde{Y}_j \mid H_j, A_j^*] \) 下能正确比较不同实际治疗的优劣。
可观测数据:
- 可观测 (全都能观测到)：\( (X_j, A_j, A_j^*, C_j) \) 对所有 \( j=1,\dots,J \) 和最终结局 \( Y \)。
- 想要但观测不到 (不可观测)：\( Y(d) \)，即在完全依从、遵循某规则下整个群体的反事实结局。这构成了估计的因果推断核心。我们只能观测到每个个体在它在给定历史下的实际次序上的结局，而不是它在所有可能规则下的结局。

第二步：讲最小内核¶

最简特例：非依从性只发生在最后一个阶段 (\( J=1 \))，且只有两个协变量 (\( p_1=2 \))。治疗是二值的 (\( \mathcal{A}=\{0, 1\} \))，且实际治疗 \( A_1^* \) 也是二值。我们假设依从性类型 \( C_1 \) 在给定 \( X_1 \) 后是可忽略的** (ignorable nonadherence)。

记号简化： - \( X \): 基线协变量 (1维，实数，好吧简化到一维，\( p_1=1 \)，心血来潮—但内核保持在二维的实际治疗决策上，X是决策边界)。 - \( A \in \{0, 1\} \): 指定治疗 (随机分配)。 - \( A^* \in \{0, 1\} \): 实际接受的治疗。 - \( C \in \{0, 1\} \): 是否依从。 - \( Y \): 最终结局 (越高越好)。 - \( d(X) \in \{0, 1\} \): 最优 DTR (单一规则)。

核心思路：在没有非依从性 (\( A = A^* \)) 的单期问题中，最优规则是：

\[d^{opt}(x) = \arg\max_{a\in\{0,1\}} \mathbb{E}[Y \mid X=x, A=a]\]

这个条件期望 \( Q(x, a) = \mathbb{E}[Y \mid X=x, A=a] \) 可以直接从数据中估计 (如线性回归、核回归)，因为 \( A \) 是随机化的。

当非依从性存在时（\( A^* \ne A \)），标准做法是直接用 \( A \) (指定治疗) 来估计 \( Q(x, a) \)，但这是错的，因为： - \( Y \) 实际上是由实际治疗 \( A^* \) 驱动的。 - \( \mathbb{E}[Y \mid X=x, A=a] \) 是“被分派到治疗 a 的人的平均结局”，但它不是“在给定 X=x 下实际接受治疗 a 的平均结局” (后者是 \( \mathbb{E}[Y \mid X=x, A^*=a] \))。

为什么是次优的：假设实际上 \( A^* = 1 \) 对结局好的效果优于 \( A^* = 0 \)。但非依从人群 (那些被指定为 1 但取了 0 的人) 可能本来就具有更差的结果 (例如更病重，更难依从)，导致 \( \mathbb{E}[Y \mid X=x, A=1] \) 被向下偏倚 (因为在“指定为 1”组里，有非依从者取了 0)。

本文的校正思路（最小内核）： 1. 识别: 不是用 \( \mathbb{E}[Y \mid X, A] \) 去比较，而是直接估计对实际治疗的条件期望，\( \mathbb{E}[Y \mid X, A^*] \)。因为我们知道 \( A \) 是随机化的，我们可以利用它作为 \( A^* \) 的工具变量 (IV)，尤其是在假设 \( C \) 可忽略的情况下。 2. 校正步骤 (G-estimation 的变体)： - 步骤 1: 估计依从性概率 (倾向得分) \( \pi_A(X, A^*) = \mathbb{P}(A \mid X, A^*) \)。注意这里的因变量是 \( A \) (指定治疗)，自变量包括 \( X \) 和实际治疗 \( A^* \)。这不难，因为 \( A \) 是随机化的，所以 \( \mathbb{P}(A=1 \mid X, A^*=1) \approx \) 实际治疗为 1 的患者中被指定为 1 的比例。 - 步骤 2: 估计结果回归模型 \( Q_{A^*}(X, A^*) = \mathbb{E}[Y \mid X, A^*] \)。这是关键！需要保证模型正确。在本文的双稳健框架下，我们不是直接估计它，而是构造一个“调整后的伪结局”。 3. 双稳健估计量： - 构造伪结局: \( \tilde{Y} = Y - \mathbb{E}[Y \mid X, A^*] + \frac{A}{ \mathbb{P}(A \mid X, A^*)} \cdot (Y - \mathbb{E}[Y \mid X, A^*]) \)^{某种形式的加权} - 实际上，本文使用一个更精巧的“pseudo-outcome”，定义为: 对每个期 j, \( \tilde{Y}_j = \mathbb{E}[Y \mid H_j, A_j^*] \)。关键是怎么估计这个量。 - 在 \( J=1 \) 的最简情形，就是 \( \tilde{Y}_1 = \mathbb{E}[Y \mid X_1, A_1^*] \)。本文证明 (通过双稳健估计) 即使对 \( \mathbb{E}[Y \mid X, A^*] \) 的模型有误，但配合正确的依从概率模型，仍能保持对 \( d^{opt} \) 估计的一致性。

一句话总结: 最小内核是把“指定治疗”当作“实际治疗”的工具变量，通过双稳健估计构造一个校准后的伪结局，使其在比较两个实际治疗的效果时消除非依从性带来的选择性偏差。换言之，将估计最优规则的问题从一个“指定治疗 vs 结局”的回归问题，转换为一个“实际治疗 vs 校正伪结局”的回归问题。

三、这篇论文做了什么¶

三句话:
1. 问题: 本文研究了在动态治疗方案 (DTR) 的估计中，患者非依从性 (实际治疗 ≠ 指定治疗) 如何导致标准方法估计出次优规则，并提出了一个校正方法。
2. 方法/工具: 核心工具是对 G-estimation 或 Q-learning 的扩展：在每一期，构造一个“pseudo-outcome” (调整后的伪结局)，该伪结局的期望在给定历史和实际治疗时，等于最优规则的“blip”或价值之差。关键假设是条件工具变量假设 (给定历史和依从性类型后，指定治疗与实际治疗无关且仅在影响实际治疗时影响结局)。估计采用双稳健设计。
3. 主要结论: 提出了一个在非依从性下一致且渐近正态的估计量，带有双稳健性 (倾向得分或结果回归模型之一正确即可)。模拟表明，校正后的估计量性能与无依从性问题下的理想估计量相当，而忽略非依从性则会产生不可忽略的偏差。

关键设定与假设¶

初始设定: 一个 \( J \) 期纵向研究，治疗由随机化分配 (\( A_j \))，但患者可能不依从，因此实际治疗 \( A_j^* \) 与指定治疗不同。依从类型 \( C_j \) 被二元定义 (\( C_j=0 \) 非依从，\( C_j=1 \) 依从)。\( C_j \) 是可观测的。
核心假设 (Conditional IV / No Direct Effect):
- 假设 3.1 (依从性类型的条件外生性): 给定历史 \( H_j \) 和实际治疗 \( A_j^* \)，指定治疗 \( A_j \) 对结局 \( Y \) 没有直接因果效应。即，\( A_j \) 仅通过影响 \( A_j^* \) 对结局起作用。
  \[\mathbb{E}[Y \mid H_j, A_j^*, A_j] = \mathbb{E}[Y \mid H_j, A_j^*]\]
- 假设 3.2 (依从性类型的可忽略性): 在给定历史 \( H_j \) 和指定治疗 \( A_j \) 的条件下，依从性类型 \( C_j \) (决定了 \( A_j^* \) 的分布) 是独立于潜在结果 \( Y(d) \) 的。换言之，依从性的选择在给定观测协变量 \( H_j \) 和 \( A_j \) 后是随机的。
- 假设 3.3 (正值性 / Positivity): 每一层的依从概率有界，\( \mathbb{P}(A_j^*=a \mid H_j, A_j) > \epsilon > 0 \)，对所有的 \( a \)。
与已有文献的比较: 这些假设比标准的顺序可忽略性 (sequential ignorability with respect to actual treatment) 要弱，因为这里不是要求 \( A_j^* \) 在给定 \( H_j \) 后是可忽略的 (即实际治疗是随机化的)，而是只要求指定治疗 \( A_j \) 满足条件工具变量条件。这个放宽显着增强了方法的适用性。与 Han 2018 [27] 相比，本文对依从性类型 \( C_j \) 的假设更强 (要求可忽略性)，但提供的估计方法是完整的 (包括推断和双稳健性)。

主要结果¶

定理 1 (一致性)：如果假设 3.1-3.3 成立，且 (a) 结果模型 (使得 \( \mathbb{E}[Y \mid H_j, A_j^*] \) 正确指定)，或 (b) 依从性模型 (使得 \( \mathbb{E}[A_j \mid H_j, A_j^*] \) 正确指定) 中至少一个正确，则本文提出的估计量 \( \hat{d}^{opt} \) 收敛到真实最优规则 \( d^{opt} \)。
- 直觉: 如果你能正确建模实际治疗对结局的效果 (Q), 或正确建模从指定治疗到实际治疗的过渡 (π), 你就能从偏差中恢复。
定理 2 (渐近正态性)：该估计量 \( \hat{d}^{opt} \) 是渐近正态的，且方差由估计方法和数据相关，但不包括由于“exceptional laws”导致的非正则分量。作者明确在文中承认这一点 (Section 3.2, 最后一段)，这与 Chakraborty 2009 和 Moodie 2009 的讨论呼应。
- 技术难点: 由于在最优决策规则边界 (即治疗效应为 0 或几乎为 0 的区域)，\( \arg\max \) 算子是一个非连续函数 (选取最大值的索引)，导致目标估计量 (规则本身) 是非正则的。argmax 是非线性、非连续的，所以定理的渐近正态性在“exceptional laws”下崩溃，即使在有限样本中，也会导致置信区间覆盖不足。

证明路线与技术技巧¶

整体路线:
1. 从“直接估计”到“反向因果”：论文不直接估计 \( \mathbb{E}[Y \mid H_j, A_j] \)，因为这是有偏的。它首先证明，给定历史和实际治疗的条件期望 \( \mathbb{E}[Y \mid H_j, A_j^*] \) 是无偏的比较量。
2. “归因”与“伪结局”构造：通过将指定治疗作为实际治疗的工具变量，提出一个“双稳健”方程来构造伪结局。具体地，对于一个阶段 \( j \)，伪结局 \( \tilde{Y}_j \) 被定义为:
  \[\tilde{Y}_j = \tilde{\mathbb{E}}[Y \mid H_j, A_j^*] + \frac{A_j - \mathbb{E}[A_j \mid H_j, A_j^*]}{\mathbb{E}[A_j \mid H_j, A_j^*] \mathbb{E}[1-A_j \mid H_j, A_j^*]} \left( Y - \tilde{\mathbb{E}}[Y \mid H_j, A_j^*] \right)\]
  其中，\( \tilde{\mathbb{E}} \) 是通过结果模型估计的值，而 \( \mathbb{E}[A_j \mid H_j, A_j^*] \) 是通过依从性模型估计的。这个形式是典型的双稳健估计方程格式 (如 augmented inverse probability weighting AIPW)，本质上是将反事实预测与依从性加权结合。
3. 一致性证明：证明的核心是，当结果模型正确时，\( \tilde{\mathbb{E}}[Y \mid H_j, A_j^*] \) 与真实值的差一致地趋于 0，因此伪结局的期望等于期望价值。当依从性模型正确时，第二项 (权重) 使方程保持无偏，因为 \( A_j - \mathbb{E}[A_j \mid H_j, A_j^*] \) 给定历史和实际治疗是均值为 0 的残差。
4. 渐近分布：使用 M-估计理论 (定理 5.31 in van der Vaart 1998)，将估计 \( \tilde{Y}_j \) 的误差分解为多个组成部分，并利用 empirical process 或 influence function 证明估计量的 influence function 是双稳健的，从而得到渐近正态性。
5. 向后递归 (Backward Induction)：对于 \( J>1 \) 的情况，将上述单期校正方法向后递归：从最后一期开始，用上述双稳健方法估计该期的最优规则；然后构造该期在最优规则下的期望结局作为 “Q-value” 或 “pseudo-outcome” 传递给前一阶段。这个过程与标准 Q-learning 类似，但每一站的伪结局被校正。
关键跳跃点：
- 跳跃 1: 跳出标准的“以指定治疗为条件”的 Q-learning/G-estimation 框架，重新以“实际治疗”为条件构造目标方程。这是非依从性校正的核心概念跳跃，也是证明的起点。
- 跳跃 2: 证明双稳健方程在非依从性下仍能工作。标准 AIPW 通常针对的是“处理分配无混淆”，这里调整为“基于指定治疗的工具变量”。证明需要验证 influence function 在备择模型下的无偏性，这是证明中最吃功夫的部分，需要精确处理残差的交叉项。
技术技巧点名:
- Double Robust M-estimation (双稳健 M-估计): 整个估计方程是核心的估计框架。
- Influence Function Derivation (影响函数): 用以得到渐近方差和推断 (虽然文中未直接给出闭合形式，但原理是 AIPW 影响函数)。
- Gaussian Multiplier Bootstrap for Inference (推断的乘子 Bootstrap): 由于“exceptional laws”导致的正则性困难，作者建议使用 bootstrap 进行推断，避免推导复杂方差。
- Nonparametric or Semiparametric Sieve Estimation for Nuisance Functions: 估计结果回归 \( \mathbb{E}[Y \mid H_j, A_j^*] \) 和依从性概率 \( \mathbb{E}[A_j \mid H_j, A_j^*] \) 时，使用核方法或变量筛选，但未提供具体形式。

真实例子与应用¶

数据: 模拟数据 (没有真实数据例子)。
设定: 作者构建了一个为期 1 期或 3 期的模拟，模拟中患者协变量 (X)、指定治疗 (A)、依从性类型 (C) 和结局 (Y) 均按照特定分布生成。非依从性导致 20%-40% 的患者偏离指定治疗。基准真实最优 DTR 是已知的。
方法比较: 作者比较了以下几种方法：
1. “Oracle” 估计: 直接使用真实的实际治疗 (\( A^* \)) 和模拟生成规则，旨在展示理论最优性能 (无偏差)。
2. 标准 Q-learning (Naive Q): 忽略非依从性，使用 \( A \) 作为治疗变量。
3. 建议的 Double Robust 方法 (DR-NA).
结果:
- 在所有设置下，Naive Q 估计出的规则“进一步地低估了最优 DTR 的价值” (Value of the optimal regime)，且随着非依从性比例增加，偏差增大。
- DR-NA 的估计值在几乎所有设置下都与 Oracle 估计结果非常接近 (表 1，模拟 1 中的 Value 估计值: Oracle ~ 8.50, DR-NA ~ 8.49, Naive Q ~ 6.80)，验证了其校正的有效性。
- DR-NA 在下述情况下仍保持稳健：结果模型正确但倾向得分模型错误；或倾向得分模型正确但结果模型错误。而 Naive Q 总是有偏 (模拟 3, 表 3)。
这个例子想说明什么:
- 验证核心主张 (定理1): 非依从性导致标准方法失效，而本文方法可恢复。
- 展示双稳健性: 不需要两个模型都正确。
- 接近理想性能: 校正后的估计量几乎等价于直接观测到真实治疗的理想情况下的表现，证明了方法的实际有效性。

🔎 结论是否比证明窄¶

是的，存在显著窄化： 1. 关于“Exceptional Laws”：作者在 Section 3.2 明确承认“Our theoretical results focus on the case in which bounds on the nonregular component exist, and the covariance does not shrink to zero. The estimators are asymptotically normal when we exclude regions where treatment effects are exactly zero.” 然而，在真实数据中，我们永远无法确定是否排除了“exceptional laws”。因此，论文的完整渐近分布理论 (包括置信区间) 实际上只适用于那些“exceptional laws”不存在或非正则性可被忽略的情形。对于应用，作者不得不建议使用 bootstrap，但 bootstrap 在非正则参数下也可能表现极差，这点没有讨论。 2. 关于“条件工具变量”假设：论文假设 \( C_j \) 可忽略且 \( A_j \) 是 \( A_j^* \) 的 IV。这排除了依从性本身是选择性的 (依赖于未测混杂者) 这一更普遍的真实世界情境。例如，更主动、健康意识更强的患者更可能依从指定治疗，同时这些特质本身也与结局直接相关。如果未测量这些特质，假设 3.2 被违反，一致性失效。作者结论中写到“this assumption may be tenable...”，但没有讨论如果违反该假设会怎样。

四、开放问题¶

放松“条件工具变量”假设至更弱的工具变量 (如 LATE) 或不完全依从：在 Han 2018 [27] 的“two-way exclusion restriction”或 Angrist-Imbens-Rubin 的 LATE 框架下，本文的方法能否被推广？具体要证：在非依从性不完全 (不是二元依从类型) 或存在多个工具变量时，基于“blip-down”或“principal stratification”的最优 DTR 估计。扎根点：本文 Section 3.1 的假设 3.2 可被 Han 2018 的第二节 “two-way exclusion restriction” 挑战；引言对 IV 文献的回避。要确认是不是真 gap，去读 Han 2018 及后续的 instrumental variables for DTR 文献。
非依从性作为测量误差 (Measurement Error) 的处理：本文作者的前作 [10] 已证明测量误差会导致 DTR 估计的偏倚。但非依从性本质上是一种“治疗分配测量误差”。本文采用 IV 框架处理，但一个更“显式”的测量误差校正 (如 SIMEX 或基于 deconvolution 的方法) 是否可行？扎根点：论文直接引用 [10] 但应力求不同的路径，因为 IV 假设强于 ME 方法 (需要额外工具)。
将现有双稳健估计扩展到非正则参数情形 (Exceptional Laws)：本文明确指出有“exceptional laws”下的非正则性问题，并引用 [33, 34, 35]。但实际的验证 (Chakraborty 2009 的仿真) 是针对标准 DTR，非依从性情境下的 Exceptional Laws 可能更复杂。需要明确：当目标参数 \(\mathbb{E}[Y \mid H_j, A_j^*]\) 在边界上平坦时，现有 bootstrap 或修正 G-estimation 是否依然有效？是否能严格证明在非依从性下，一个类似 ZIPI (Moodie & Richardson 2009) 的方法可以连续地近似最优规则？扎根点：本文 Section 3.2 最后一句的暗示。
融合 Han 2018 的工具变量框架实现更稳健的识别：本文的假设允许放松 Han 2018 中“two-way exclusion restriction”的“第二层”（治疗选择方程的工具变量），这可能是更现实的做法。需研究：给定 \( A_j \) 是随机化但完全依从性不可忽略时，是否可以仅用结果的工具变量 (Han 2018 的 \( Z_j \)) 来识别？扎根点：本文的假设 (给定 X_j 后 A_j 是 IV) 与 Han 2018 的假设 (给定 \( Z_j \) 后的 IV) 的比较是天然的 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub