Sensitivity analysis for constructing optimal regimes in the presence of treatment non-compliance and two active treatments¶

作者: Cuong T. Pham, Kevin G. Lynch, James R. McKay, Ashkan Ertefaie
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是在治疗非依从 (non-compliance) 的情况下，如何为个体制定最优的、个性化的治疗策略 (Optimal Treatment Regime, OTR)，即在观察到的协变量基础上，决定给某个患者推荐哪一种治疗方案，以最大化其期望的临床结局。在存在非依从（患者被随机分配到一个治疗组，但可能不遵守分配）的情况下，观察到的治疗不再随机，即存在内生性 (endogeneity)，因此标准的 Q-learning 或 A-learning 等基于观察性治疗的方法会失效。该子方向的方法是利用工具变量 (Instrumental Variable, IV) 来绕过非依从带来的混杂问题，识别并估计最优策略。

当前该方向的成熟度属于中等偏方法驱动的成长阶段。它已经从简单的“依从或接受治疗的二元变量”设定，发展到能处理多个主动治疗组 (multiple active treatments) 的情况。此篇论文正是这一发展的一个具体体现。

发展脉络 (history)¶

论文的引言部分（基于其描述的引用关系）勾勒了以下发展线索：

奠基工作：最优治疗策略的常规方法 (~2000s): 以 Murphy (2003) 和 Robins (2004) 为代表，他们奠定了 Q-learning 和 A-learning 等方法的基础，但这些方法都假定治疗是随机分配的或可忽略性 (ignorability) 成立。在非依从问题下，这一假定被打破。
主要进展：工具变量用于单一治疗策略 (~2010s – 2020)：为了处理非依从导致的混杂，研究者开始引入工具变量。例如，Cui and Tchetgen Tchetgen (2021) 的文章发展了在存在非依从时，利用一个二元工具变量（通常是随机分配的意图）来识别并估计最优治疗策略的方法。然而，作者指出，该方法的核心局限在于：它依赖于一个特定的假设，即工具变量可以直接影响结局，或者能唯一地识别因果效应，这在两个主动治疗组中难以满足。
关键困难与当前 Frontier：两个主动治疗组 + 非依从 (2020s)：当有两个非安慰剂的主动治疗时，仅用一个二元工具变量（如随机分配）无法对两个治疗进行独立的因果识别。这是问题的核心困难所在。作者认为，现有的基于工具变量的方法均不适用于这一场景，因为它们要么需要单一治疗对照，要么需要计算个体化的因果效应。
本文的位置：针对上述“两个主动治疗”的空白，本文提出了一种敏感性分析 (Sensitivity Analysis) 替代方案。它不试图在无额外假设下识别因果效应，而是将最优策略的识别建立在用户指定的敏感性参数向量上。

子线索聚类¶

该方向上的被引文献大致可以分为以下两条子线索：

最优治疗策略的估计方法：
- 做什么：设计统计或机器学习算法，从数据中估计出能最大化期望结局的决策规则。
- 常见方法：Q-learning、A-learning (如 Murphy 2003; Robins 2004)、基于分类的估计器 (如 Zhang et al. 2012a)、以及近年来基于加权分类 (weighted classification) 的方法。
- 现状：在理想随机试验或假设可忽略性 (ignorability) 的观察研究中，已发展得相当成熟。
工具变量及其在因果推断中的高级用法：
- 做什么：在存在未观测混杂 (unmeasured confounding) 时，利用工具变量来识别和估计平均因果效应 (ATE) 或其它因果参数。
- 相关引用：Cui and Tchetgen Tchetgen (2021) 和 Abadie (2003) 的方法被用来处理非依从下的最优策略。此外，还引用了LATE 定理 (Imbens and Angrist, 1994) 作为理论基础。
- 当前瓶颈：对于多个处理 (multiple treatments) 且处理是二元的情形，标准二元工具变量无法识别所有因果效应，需要额外的假设（如强单调性、排除限制等）。

这个方向在追问的核心问题¶

识别：在存在两个主动治疗且每个治疗都存在非依从时，能否仅依靠一个随机分配的二元工具变量（意图）来识别出最优的治疗策略？
- 答案：几乎不能，除非假设工具变量可以独立地影响两个结局（排除限制）。这便是本文要解决的问题。
估计：在识别了某个目标参数后，如何构造一个高效、鲁棒 (robust) 的估计器？
- 这涉及到半参数理论中的有效影响函数 (efficient influence function / canonical gradient) 的推导。
放宽假设：如何利用一个或多个敏感性参数来放松强识别假设，从而让研究者能够评估其对结论的影响？
- 这是本文的核心贡献之一。
最小化与最大化：如果无法点估计出一个唯一的最优策略，能否找到它的最坏情况 (worst-case) 或最好情况 (best-case) 边界？
- 敏感性分析可以构建出最优策略关于敏感性参数的函数，从而可以研究其在不同情境下的取值范围。

⚠️ 作者的 framing¶

缺口 frame：作者把缺口 frame 成 "之前处理非依从下的最优策略方法都只适用于一个治疗 vs. 对照，或者工具变量能识别出个体化因果效应的狭隘场景。当有两个主动治疗且工具变量无法独立地识别每个治疗效应时，这些方法完全失效。我们提出一个基于敏感性分析的一般框架来弥补这个空白。"
竞争路线：作者淡化了直接对非依从者使用依从得分 (compliance score) 或阿巴迪 (Abadie) 的 kappa 权重以直接拟合最优策略的可能性。这些方法虽然也能处理非依从，但本质上是假设工具变量能排除限制 (exclusion restriction)，即在相同的治疗分配意图下，有和没有接受治疗的人的结局差异只来自治疗本身。本文的敏感性分析框架则允许研究者假设这个 排除限制被违背的程度。
明显缺位的引用：本文没有讨论利用多个工具变量或使用连续工具变量来识别两个治疗效应的可能性。它也未提及在更复杂的、时变 (time-varying) 或动态 (dynamic) 治疗策略设定中如何处理非依从。此外，直接非参数识别的假设（如单调性假设被违反时）及其替代方案（如基于 copula 的方法）也未在引言中讨论。

张力¶

未见明显视角对立的引用关系。文献基本沿着“标准 OTR → IV-OTR（单一对照）→ 两个主动治疗”的线性发展脉络展开。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

记号： - Z ∈ {0, 1}: 随机分配的工具变量 (intention to treat, ITT)。例如，Z=0 表示被分配到治疗 A，Z=1 表示被分配到治疗 B。 - A ∈ {0, 1}: 实际接受的治疗 (actual treatment received)。例如，A=0 表示实际接受治疗 A，A=1 表示实际接受治疗 B。 - D ∈ {0, 1}: 一个关于治疗依从状态的变量。它是 Z 和 A 的函数，更精确的说，它是一个能反应是否被分配且接受了不正确的处理的指标。在本文中，作者引入 D 来区分依从和非依从。简单起见，可以将 D 视为一个二值变量，代表个体是否为 "非依从者"（即其实际接受的治疗与随机分配不同）。严格地说，D 由潜在变量定义。 - X: 一组基线协变量向量 (baseline covariates)。 - Y: 结局变量 (outcome of interest)。 - g(X): 一个治疗策略 (treatment regime)，它是一个从协变量空间到处理空间 {0, 1} 的函数。对任何个体，根据它的协变量 X，如果策略决策为 1，则推荐治疗 1；如果为 0，则推荐治疗 0。 - V(g): 值函数 (value function)，即在整个群体中，强制执行策略 g 时得到的期望结局。 - β: 敏感性参数向量 (vector of sensitivity parameters)。本文的核心创新，它量化了违反关键识别假设（比如工具变量的排除限制）的程度。

模型 (假设的数据产生机制)：

研究是一个随机对照试验，患者被随机分配到两个主动治疗组（Z=0 或 Z=1）。
患者可能不遵守分配的方案，因此实际接受的治疗 (A) 可能不等于随机分配 (Z) 。这就是非依从。
潜在结果 (Potential Outcomes)：
- Y(a, z): 如果分配为 z, 实际接受治疗 a 的结局。
- A(z): 如果分配为 z 的实际接受治疗。
关键假设 (在标准 IV 分析中)：
- 排除限制 (Exclusion restriction)：Z 不能直接影响 Y，只能通过 A 影响 Y。即 Y(a, z) = Y(a, z') 对所有 a 成立。在本文，这一假设被放松。
本文不试图在无假设的情况下识别因果效应，而是引入敏感性参数 β 来刻画对排除限制的偏离，从而能将值函数表示成 β 的函数。

可观测数据：

我们观测的是独立同分布 (i.i.d.) 的样本: O_i = (Z_i, A_i, X_i, Y_i)，i = 1, ..., n。
我们能观测：随机分配 Z、实际治疗 A、协变量 X、结局 Y。
我们不可观测，但有假设：个体的潜在结果 Y(a,z) 和潜在治疗 A(z)。这就是存在无法直接观测的内生性。

第二步：最小内核¶

假设一个简单但核心的实例：两个治疗组 A=0 和 A=1，有依从状态 D ∈ {0,1}，随机分配 Z。

最小问题：我们知道，在标准工具变量（ITT）下，如果只有治疗 A=1 和安慰剂（A=0），我们可以识别出治疗组 T=1 中的依从者 (compliers) 的平均因果效应 (LATE)。但在两个主动治疗下，Z 只是一个二元分配，它只能定义出 “被分配到 A=1 且实际接受 A=1” vs “被分配到 A=0 且实际接受 A=0”。我们无法直接识别出每个治疗的纯治疗效应，因为一个依从者在被分配到不同组时，接受的治疗和潜在的结局可能不同。

核心思路（最小内核）：

识别难点：为了找出最优策略 g，你需要比较在 g(X)=0 和 g(X)=1 下，个体的期望结局。标准的 IV 方法只能告诉你“在不同分配 Z 下的依从者的平均结局差异”，但无法将个体分类为“如果他们被分配且接受了治疗 A=1，他们的结局是多少；如果分配且接受了治疗 A=0，结局是多少”。这是不可直接观测的、需要额外假设才能识别的。
本文在做什么（简化为最小例子）： 它引入了敏感性参数 β。这个 β 量化了“假设我们违反了排除限制，或者更一般地说，我们不知道依从与被分配之间确切依赖关系，我们假设一个 X-特定的、关于【依从状态 D】和【结局 Y】之间未观测混杂的模型”。
最终结果（直观版本）：在给定的 β 下，作者能将值函数 V(g)表示为 E[Y | X, Z, D] 和 P(D | X, Z) 等可观测量的一个加权平均。如果你知道 β（即知道未观测混杂有多么严重），你就可以估计出 V(g)，从而找到最好的 g。你不必非得假设 β 是已知的常数，而是可以把它作为参数，画一个值函数随 β 变化的曲线，来审视你的结论对违反排除限制有多么敏感。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在两个主动治疗和普遍存在的非依从的随机试验中，传统的工具变量方法无法识别最优治疗策略，本文提出一个敏感性分析框架，将最优策略和价值函数表达为一个敏感参数向量的函数。
核心工具/方法：定义了与治疗分配依从性 (D) 相关的马尔可夫链蒙特卡罗 (或类似) 模型，利用敏感性参数 (β) 编码对无混杂 (排除限制) 假设的偏离；推导出目标参数（值函数系数）的典型梯度 (canonical gradient)，并基于此提出多重稳健 (multiply robust) 的分类型估计器 (classification-based estimator)。
主要结论：该估计器在部分 (但非全部) 的倾向性得分、依从状态模型或结果模型被错误设定时，仍能保持一致估计。模拟研究和实际数据分析证明了该方法的实用性和稳定程度。

关键设定与假设¶

在第二节记号的基础上，补充完整设定：

依从状态变量 D：引入一个刻画个体“治疗依从性”的变量，D ∈ {0,1}。关键的是，定义 D 的方式不是直接的“依从 vs. 非依从”，而是一对关于 (Z, A) 的潜在变量指示器。作者将 D=1 定义为 “如果一个个体被分配到一个组 (Z=0 或 1) 并且实际接受了不匹配的治疗 (即 A ≠ Z)” 的情形。也就是说，D 是一个不匹配指示器。对于依从者，D=0；对于非依从者，D=1。
模型 (形式化)：
- D 对 X 和 Z 的条件概率 ：P(D=1 | X, Z) = p_Z(X, η) ，其中 η 是未知参数，表示依从性主要由 X 决定，且 Z 可能影响 D (因为分配不同，依从概率会不同)。
值函数的识别 (核心公式)：作者证明了，在给定的敏感性参数 β 下，值函数 E[Y(g)] 可以写成：

E[Y(g)] = E[ E[Y | X, Z, A, D=0] + β(X) · { P(D=1 | X, Z, g(X)=A) - P(D=1 | X, Z, g(X)≠A) } ]

其中，关键点：在依从者 (D=0) 中，分配 Z 等于治疗 A，因此 Y 关于 Z 的条件均值可以直接估计。而 β(X) 就是那个敏感性参数函数。

主要结果¶

Theorem 1 (识别)：对于给定的敏感性参数函数 β(X)，价值函数 E[Y(g)] 是可以识别的，其表达式如上。这只是理论上的，实际中需要知道 β。
Theorem 2 (效率与估计)：
- 陈述：推导了目标参数 [E[Y(g)] 的系数向量，或 β 函数的参数形式] 的典型梯度 (canonical gradient)。这是半参数效率理论的核心。这个梯度定义了构建有效估计量的基础。
- 必要条件：目标参数的识别需要知道 β(X)；但一旦知道 β，估计器可以在部分模型误设下保持一致性（多重稳健）。
- 解决的技术难点：如何适应性地将 D 的条件均值 P(D=1 | X, Z, A) 正确地“外推”到治疗策略 g 中的每一个决策，并推导出正确的有效影响函数。
Corollary (估计量构造)：
- 核心量化结论：该估计器为多重稳健 (Multiply Robust)。具体来说，它允许以下模型中的一个被错误设定：
  1. P(D=1 | X, Z) 的倾向性得分模型。
  2. E[Y | X, Z, A, D=0] 的结果模型。
  3. 敏感性参数 β(X) 的正确指定。
- 与 baseline 对比：在模拟中，当所有模型中一个被误设时，新方法的表现优于只依赖倾向性得分或结果模型（如 Naive IV）的估计量。

证明路线与技术技巧¶

整体路线 (3步逻辑主干)：

第一步：构造替代识别公式。利用依从状态变量 D 和敏感性参数 β，将原本不可识别的目标参数 V(g) 表达为可观测数据的条件期望的函数。关键步骤是使用 “如果被分配到 g，那么对于非依从 (D=1) 的个体，他们的结局应该是什么？” 这个问题的答案不完全由观测数据决定，因此引入了 β。
第二步：推导目标参数的有效影响函数。以 V(g) 作为泛函，在将 P(D | X, Z) 和 E[Y | ...] 视为无穷维参数 (nuisance parameters) 的半参数模型下，计算其典型梯度 (canonical gradient)。这通常涉及:
- 先写出一个初步的 (plug-in) 估计量。
- 然后算其路径导数 (pathwise derivative)，对所有的参数扰动进行投影到切空间上。
- 得到有效的、可以用于构造正交于干扰参数方向的最小影响函数。正是这个函数让估计器对干扰参数的渐近偏差不那么敏感。
第三步：构建基于典型梯度的估计量并证明其一致性。作者使用了 “基于分类的估计” (classification-based estimation) 的思想：
- 他们不是直接优化 V(g)，而是将其转化为一个加权分类问题 (weighted classification)。
- 权重来自典型梯度的逆概率权重 (IPW-like) 部分。
- 并且，他们通过Cross-fitting (样本分裂) 来估计干扰参数，以避免过拟合。
- 证明的核心是利用典型梯度的Neyman正交性 (Neyman orthogonality)，在干扰参数被部分误设时，该估计量仍然保持正态的、渐近无偏的性质。

关键跳跃点：

最吃劲的步骤是推导正确且封闭形式的典型梯度。要在 “β” 这种由用户指定的超参数下，而不是由数据驱动的估计下，写出对策略 g 的梯度的显式表达式，是一个重要的数学贡献。作者需要解耦 D 状态对值函数的贡献，并与 β 的线性结构结合。

技术技巧点名：

典型梯度 (Canonical Gradient) 理论：半参数效率理论的核心，用于构造 Neyman 正交的估计量。
多重稳健 (Multiply Robust) 估计：允许多个干子模型（这里是指依从性模型和结果模型）中的一个被误设，而保持主目标的一致估计。
基于分类的估计器 (Classification-based Estimator)：将策略优化转化为最大化一个被“优势函数” (在这里是有效影响函数) 加权的分类任务。
Cross-fitting：利用样本分裂来减少干扰参数的估计误差，是 DML (Debiased ML) 中常用技巧。

真实例子与应用¶

本文应用了其方法至 “Adaptive Treatment for Alcohol and Cocaine Dependence” (ATACD) 随机试验数据，用于研究酒精和可卡因依赖的适应性治疗。

所用的数据/场景：这是一个对酒精和可卡因依赖者进行的随机对照试验。患者被随机分配到两种主动治疗方案：一种是认知行为疗法 (CBT)，另一种是动机增强疗法 (MET)。两种都是积极治疗，不存在安慰剂。研究对治疗方案的非依从性很高。
怎样应用：
- 研究者使用本文提出的敏感性分析框架，为每个患者估计一个最优治疗策略。
- 需要指定敏感性参数 β。因为无法直接识别，研究者必须对“在给定分配和治疗下，依从性对结局的混杂程度”作不同假设，计算不同 β 下的最优策略。
得到的结果：
- 发现最优治疗策略对 β 的取值很敏感。在某些 β 值下，最优策略是推荐所有人接受某一种治疗 (例如 CBT)；而在另一些 β 值下，策略会变得个性化，即根据患者的某些基线协变量 (如抑郁水平) 改变推荐。
- 这表明，在非依从性很高的情况下，如果不对排除限制等假设作 非常强的假设，很难对最优策略下一个坚定的结论。
这个例子想说明什么：案例验证了方法的实用性，并展示了敏感性分析在不确定 (非依从) 情境下的价值 (value of sensitivity analysis)。它提供了一个直接、量化的工具来理解你的结论对未观测混杂是多么不确定。

🔎 结论是否比证明窄¶

是的。证明的主要结论是 “在给定的 β 值和部分模型误设下，该估计量仍是一致且渐近正态的”。但文章的结论似乎暗示在 β 未知 时，敏感性分析本身就能提供 “关于治疗策略稳健性的直接理解”。严格来说，证明只保证了在已知 β 时的估计性质。敏感性分析的 实际应用价值 （即 β 本身的设定及解读）更多是基于方法论的应用，不是严格定理证明的结果。
具体语句：操作中的“我们建议研究者报告一系列合理的 β 值对应的最优策略”是一个实践建议，但定理并没有证明 β 的选择如何影响“策略的稳定程度”。不能直接说“β 的微小变化对应策略的稳定性很强”，这更像一个通过模拟和案例展示的性质，而非一个普遍的数学性质。

四、开放问题¶

敏感性参数 β 的自动选择：作者提出“用户根据领域知识指定 β”，但未提供数据驱动的 β 选择方法。如果能开发出一种基于部分可验证假设（如类似于部分排除限制条件下的界限估计）的自动选择或推断 β 的方法，将极大提升方法实用性。（扎根于论文中“待用户指定的向量”的假设。）
高维协变量处理：当前方法假设 X 的维数是低维（因为需要非参数估计依从性和结局模型）。能否推广到高维协变量 (p > n) 设定？需要用正则化的倾向性得分模型或结果模型，并研究其对典型梯度正交性和估计效率的影响。（扎根于论文的协变量空间 X，其维数限制隐晦地存在于方法复杂度中。）
放宽 D 为二值变量的假设：当前依从状态 D 是二元的（依从 vs. 非依从）。在现实世界中，依从性可能是有序的 (如部分依从)。能否将敏感性参数 β 的定义推广到有序依从或其他更复杂的依从模式，并维持多重稳健性？（扎根于模型中 D ∈ {0, 1} 的假设。）
工具变量个数扩充：当前只使用单个二元工具变量（随机分配）。如果研究设计能提供多个工具变量（如由多个医生、多个时间点的分配），能否扩展该敏感性分析框架以利用这些信息？这涉及到多工具变量和更复杂的因果结构。（扎根于目前的模型设定仅依赖于一个二元 Z。）

Maintained by 陈星宇 · Homepage · Source on GitHub