A marginal structural model for partial compliance in SMARTs¶

作者: William J. Artman, Indrabati Bhattacharya, Ashkan Ertefaie, Kevin G. Lynch, James R. McKay et al.
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 7/10
机构绿灯: University of Rochester（US News 前 50，免分进入精读）
链接: https://doi.org/10.1214/21-aoas1586

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在序贯多重赋值随机试验（SMART）中，当存在不依从性时，如何识别和估计动态治疗策略的因果效应。核心张力在于：随机化赋予了无偏估计 DTR 的潜力，但实际患者的不依从行为破坏了随机化与实际接受治疗之间的对应关系，使得"意向性治疗"（ITT）分析无法回答"对于能够依从某策略的患者，该策略效果如何"这一科学问题。当前该方向已从简单的二值依从性处理发展到更精细的部分依从建模，从频率学派方法扩展到贝叶斯半参数框架，成熟度处于方法开发与应用验证并进的阶段。

发展脉络¶

奠基工作：主分层框架的建立。Frangakis & Rubin (2002) 提出了主分层概念，将因果效应定义在潜在依从层内，这是处理不依从性问题的基石。他们定义主层为基于潜在处理接受行为的分层，使得即使在存在不依从时，层内因果效应也是良定义的。

主要进展：从单阶段到多阶段、从二值到连续。 - Angrist et al. (1996) 利用工具变量（IV）框架处理单阶段试验中的不依从性，引入局部平均处理效应（LATE）概念，即依从者的平均因果效应。 - Jo (2002) 与 Little & Yau (1998) 将主分层方法扩展到模型化设定，允许在贝叶斯框架下估计层内效应，为后续纵向设定铺路。 - Hernán et al. (2000) 与 Robins et al. (2000) 发展了边际结构模型（MSM），利用逆概率加权（IPW）处理时变混杂，为纵向因果推断提供了核心工具。 - Murphy (2005) 与 Thall et al. (2002, 2007) 建立了 SMART 中 DTR 估计的理论框架，但大多假设完全依从或仅做 ITT 分析。

当前 Frontier：纵向设定下的复杂依从性建模。 - Shortreed et al. (2017) 在 SMART 框架下处理二值依从性，是本文的直接前驱，但局限在于将依从性简化为"全有或全无"。 - Wang et al. (2017) 考虑了连续性依从性测量，但主要在单阶段或简单纵向设定下。

本文的位置：填补 SMART + 部分依从性 + 主分层 + 贝叶斯半参数这一交叉空白。作者在 Introduction 中明确指出："We address this by defining our target parameter as the mean outcome under different DTRs for potential compliance strata... An important feature of our work is that we consider partial rather than binary compliance strata, which is more relevant in longitudinal studies."

子线索聚类¶

被引文献大致落在三条子线索上：

主分层与不依从性识别：Frangakis & Rubin (2002) 奠基；Angrist et al. (1996) 提供 IV 视角；Jo (2002)、Little & Yau (1998) 发展模型化方法。这一簇解决"如何定义和识别依从层内效应"的问题。
边际结构模型与纵向因果推断：Hernán et al. (2000)、Robins et al. (2000) 建立 IPW 框架；Murphy (2005)、Thall et al. 系列构建 DTR 理论。这一簇解决"如何在时变混杂下估计动态策略效应"的问题。
SMART 设计与 DTR 估计：Murphy (2005) 定义 SMART 下的 DTR 优化；Thall et al. (2002, 2007) 提供实际应用范例；Shortreed et al. (2017) 尝试在 SMART 中引入依从性调整。

这个方向在追问的核心问题¶

识别问题：在部分依从性下，主层如何定义？潜在依从行为是连续量时，如何构建可识别的参数？
估计问题：主层成员资格是潜在变量（不可观测），如何同时估计主层分布与层内因果效应？贝叶斯方法如何处理半参数模型？
纵向复杂性：多阶段 SMART 中，依从性行为本身是时变的，如何定义跨阶段的潜在依从层？如何避免维度灾难？

当前主流方法（如 Shortreed et al. 2017）的瓶颈在于：将依从性强行二值化，丢失了纵向研究中丰富的部分依从信息；且多采用参数化假设，稳健性存疑。

⚠️ 作者的 framing¶

作者把缺口 frame 成：现有 SMART 分析要么忽略不依从性（ITT 分析，无法指导个体化治疗），要么将依从性简化为二值（Shortreed et al. 2017），而真实纵向研究中依从性是连续的、部分的。因此，本文提出"部分依从性主分层边际结构模型"是"显然的下一步"。

被淡化或回避的竞争路线： - IV 方法：Angrist et al. (1996) 的 IV 框架在单阶段设定下非常成熟，但在多阶段 SMART 中如何定义"工具变量序列"是一个复杂问题，作者未深入讨论为何选择主分层而非 IV 路线。 - 敏感性分析：当主分层识别假设（如排除性约束）不成立时，如何评估结论稳健性？作者未提及。

缺失的引用： - 效率理论：未引用半参数效率界相关文献（如 Bickel et al. 1993; Tsiatis 2006），而本文采用 IPW 估计，效率问题（是否达到效率界、是否可用增强 IPW）是自然追问。 - DTR 的 Q-learning/A-learning：DTR 估计的另一大流派是基于 Q-learning 的直接参数化方法（如 Chakraborty & Moodie 2013），作者未讨论为何选择 MSM 而非 Q-learning。

张力¶

未见明显对立引用。主分层框架与 IV 框架在单阶段设定下有明确对应关系（LATE = 依从者平均因果效应），但在多阶段设定下，两条路线的优劣尚无定论——这是一个潜在的研究机会。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义： - \(i = 1, \ldots, n\)：样本下标。 - \(k = 1, \ldots, K\)：阶段下标，本文主要考虑 \(K=2\) 阶段 SMART。 - \(A_k\)：第 \(k\) 阶段的随机化分配（treatment assigned），是研究者控制的工具变量。取值 \(\{1, \ldots, m_k\}\)。 - \(D_k\)：第 \(k\) 阶段的实际接受治疗（treatment received），是可观测的行为变量。取值可以是二值、有序或连续。 - \(\bar{A}_k = (A_1, \ldots, A_k)\)：前 \(k\) 阶段分配历史；\(\bar{D}_k\) 同理。 - \(X_k\)：第 \(k\) 阶段开始时观测到的协变量（状态变量）。 - \(Y\)：最终结局（如治疗成功与否），在 \(K\) 阶段末观测。 - \(d = (d_1, d_2)\)：一个动态治疗策略（DTR），其中 \(d_k\) 是从历史状态到推荐治疗的决策规则。 - \(S = (S_1, S_2)\)：潜在依从层（principal stratum）。\(S_k\) 是潜在依从行为，定义为在所有可能的分配序列下的潜在接受治疗行为。例如，\(S_k = (D_k(1), D_k(2))\) 表示在分配为 1 或 2 时会接受什么治疗。

模型（数据生成机制）： SMART 的随机化机制已知：\(A_k \perp (X_k, \bar{D}_{k-1}, \bar{A}_{k-1})\)，即分配独立于当前状态和历史（设计阶段保证）。

潜在依从层 \(S\) 是潜在变量，不可直接观测。我们只能观测到 \(D_k = D_k(A_k)\)，即在实际分配 \(A_k\) 下的实际接受治疗。

目标参数： \(\mu_d(s) = E[Y(d) \mid S = s]\)：在潜在依从层 \(S=s\) 内，若所有个体都遵循 DTR \(d\)，其平均潜在结局。这是主分层因果效应。

可观测数据： \((X_1, A_1, D_1, X_2, A_2, D_2, Y)\) 的 i.i.d. 样本。注意 \(S\) 是不可观测的——我们不知道一个患者"如果被分配到其他治疗会怎么做"，只知道他实际做了什么。

核心困难： \(S\) 不可观测 \(\Rightarrow\) 无法直接按 \(S\) 分层估计 \(\mu_d(s)\)。需要识别假设和模型约束来"借"信息。

第二步：最小内核¶

最简特例：单阶段试验（\(K=1\)），二值分配 \(A \in \{0, 1\}\)，二值接受治疗 \(D \in \{0, 1\}\)。

此时潜在依从层 \(S = (D(0), D(1))\) 有四种可能： - 依从者：\((0, 1)\) —— 分配 0 则接受 0，分配 1 则接受 1。 - 始终接受者：\((1, 1)\) —— 无论分配什么都接受 1。 - 从不接受者：\((0, 0)\) —— 无论分配什么都接受 0。 - 违抗者：\((1, 0)\) —— 分配 0 则接受 1，分配 1 则接受 0。

标准识别假设（Angrist et al. 1996）： 1. 单调性：\(D(1) \geq D(0)\)，排除违抗者。 2. 排除性约束：\(A\) 只通过 \(D\) 影响 \(Y\)，即 \(Y(a, d) = Y(d)\)。 3. 工具变量独立性：\(A \perp (D(0), D(1), Y(0), Y(1))\)。

最小内核命题：在上述假设下，依从者的平均因果效应（LATE）可识别：

\[\tau_{CACE} = E[Y(1) - Y(0) \mid D(1)=1, D(0)=0] = \frac{E[Y \mid A=1] - E[Y \mid A=0]}{E[D \mid A=1] - E[D \mid A=0]}\]

这就是经典的 Wald 估计量 / IV 估计量。

本文的推广： 1. 从单阶段到多阶段：\(S\) 变成向量 \((S_1, S_2)\)，依从层数量指数爆炸。 2. 从二值到部分依从：\(D_k\) 不再是 \(\{0, 1\}\)，而是连续量（如治疗次数、剂量）。此时 \(S_k\) 的定义和建模方式需要重新设计——这是本文的核心贡献。 3. 从非参数到半参数贝叶斯：不再用简单的 IV 公式，而是建立边际结构模型 \(E[Y(d) \mid S] = g^{-1}(\beta_d^T h(S))\)，用贝叶斯方法估计 \(\beta\) 和 \(S\) 的分布。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在 SMART 纵向试验中，如何估计潜在依从层内的动态治疗策略（DTR）因果效应，特别是当依从性是部分/连续的而非二值时。
核心工具/方法：主分层边际结构模型+ 贝叶斯半参数估计（Dirichlet Process Mixture 模型化主层分布）。
主要结论：方法在模拟中表现良好；应用于 ENGAGE 数据发现最优 DTR 依赖于依从层，相比 ITT 分析提供了更精细的策略建议。

关键设定与假设¶

设定：两阶段 SMART（\(K=2\)），每阶段有随机化分配 \(A_k\) 和实际接受治疗 \(D_k\)。DTR 定义为决策规则 \(d = (d_1, d_2)\)，其中 \(d_k\) 依赖于历史状态。

潜在依从层的定义：作者定义 \(S_k\) 为潜在依从行为的连续型潜变量。具体地，假设 \(D_k\) 是连续或有序变量，\(S_k\) 可以是 \(D_k\) 的潜在"依从倾向"或实际 \(D_k\) 值的某种变换。作者采用潜在类别模型思路，假设存在有限个潜在依从层 \(S \in \{1, \ldots, L\}\)，每个层有特定的依从行为模式。

关键假设： 1. 顺序可忽略性：给定历史，分配 \(A_k\) 独立于潜在结局和潜在依从层。这是 SMART 设计保证的。 2. 主层内可忽略性：在潜在依从层 \(S\) 内，实际分配 \(A\) 与潜在结局 \(Y(d)\) 独立。这是主分层识别的核心假设。 3. 排除性约束：分配 \(A\) 只通过实际接受治疗 \(D\) 影响结局 \(Y\)。这排除了"分配本身有效应"（如安慰剂效应）。 4. 单调性：在部分依从设定下，单调性需要重新定义。作者假设依从行为满足某种有序性，如"高依从倾向者在任何分配下都更可能接受更多治疗"。

边际结构模型（MSM）：

\[g(E[Y(d) \mid S = s]) = \beta_0 + \beta_d^T h(s)\]

其中 \(g\) 是连接函数，\(h(s)\) 是依从层的基函数。这是本文的目标参数模型。

相比已有文献的放宽/强化： - 相比 Shortreed et al. (2017)：放宽了二值依从性假设，允许部分/连续依从性。 - 相比标准 IV：强化了参数化假设（MSM 结构），以换取在多阶段、多变量设定下的可操作性。

主要结果¶

定理/命题（识别性）：在上述假设下，目标参数 \(\beta\) 可识别。证明思路： 1. 利用主层内可忽略性，\(E[Y \mid A=a, D=d, S=s] = E[Y(d) \mid S=s]\)。 2. 利用贝叶斯定理，\(P(S=s \mid \text{observed data})\) 可通过潜变量模型参数化。 3. 结合 MSM 结构，建立似然函数。

估计方法：采用贝叶斯半参数方法： - 主层分布：用 Dirichlet Process Mixture (DPM) 模型化 \(P(S)\)，允许无限混合，实现非参数灵活性。 - 似然函数：

\[L(\theta \mid \text{data}) = \prod_{i=1}^n \sum_{s} P(S_i = s) \cdot P(D_i \mid A_i, S_i = s, \theta) \cdot P(Y_i \mid D_i, S_i = s, \theta)\]

- MCMC 采样：用 Gibbs 采样或 Metropolis-Hastings 算法从后验分布 \(P(\theta, S \mid \text{data})\) 中抽样。

模拟研究： - 设定：两阶段 SMART，3 个潜在依从层，不同样本量（\(n=200, 500, 1000\)）。 - 结果：参数估计的偏差和均方误差随样本量下降；主层分类准确率在 \(n \geq 500\) 时可接受。 - 对比：与忽略依从性的 ITT 分析相比，本文方法能正确识别层异质性；与二值化依从性的方法相比，减少了信息损失。

真实数据应用（ENGAGE）： - 数据：ENGAGE 研究，治疗酒精和可卡因依赖的 SMART（\(n \approx 400\)）。 - 变量：\(A_1, A_2\) 为治疗分配（强化访谈 vs 标准），\(D_1, D_2\) 为实际接受的治疗次数（连续），\(Y\) 为治疗成功指标。 - 发现： - 识别出 3 个潜在依从层：高依从、中依从、低依从。 - 最优 DTR 在不同依从层间不同：高依从层受益于"强化访谈 + 持续随访"，低依从层最优策略不同。 - ITT 分析掩盖了这种层间异质性，给出的"平均最优"策略对任何层都不是最优。

证明路线与技术技巧¶

整体路线： 1. 定义潜在层：将不可观测的依从行为建模为潜在类别 \(S\)。 2. 建立识别：在主分层假设下，证明目标参数可从观测数据中识别。 3. 参数化模型：建立 MSM 结构约束目标参数，用 DPM 约束主层分布。 4. 贝叶斯推断：写出完整似然，设计 MCMC 算法采样后验。 5. 决策规则：基于后验估计，比较不同 DTR 在各层的期望结局，选择最优策略。

关键跳跃点： - 从二值到部分依从的建模：这是最大难点。作者引入"潜在依从倾向"连续潜变量，再通过分位数或阈值将其离散化为有限层。这一步的合理性依赖于领域知识（如依从行为确实存在"高/中/低"群体）。 - 多阶段主层的维度爆炸：两阶段设定下，若每阶段有 \(L\) 个层，联合层有 \(L^2\) 个。作者通过参数化约束（如层间独立性或马尔夫结构）控制复杂度。

技术技巧点名： - Dirichlet Process Mixture (DPM)：用于非参数建模主层分布，避免预设层数。这是贝叶斯非参数的标准工具。 - Gibbs 采样：用于后验推断。具体地，对 \(S_i\)（主层成员资格）用条件后验采样；对 \(\theta\)（模型参数）用共轭先验简化采样。 - 逆概率加权（IPW）的思想：虽然本文是贝叶斯方法，但 MSM 的结构继承了 IPW 的"边际化"思想——目标参数是边际期望，而非条件期望。

真实例子与应用¶

见上文"真实数据应用（ENGAGE）"。核心信息： - 数据：SMART 设计，治疗物质依赖。 - 怎么用：将方法应用于估计不同依从层的最优 DTR。 - 结果：最优策略依赖依从层，ITT 分析误导。 - 说明什么：验证了方法的实用价值——"一刀切"的策略在异质人群中不是最优的。

🔎 结论是否比证明窄¶

本文主要结论（方法在 ENGAGE 中有效）是实证性的，理论部分主要是识别性证明（在假设下参数可识别），没有给出有限样本保证或渐近效率界。作者在 Discussion 中承认："The proposed method relies on correct specification of the principal strata model... future work could explore doubly robust or machine learning approaches." 这表明方法对模型误设敏感，但论文未提供稳健性分析或敏感性分析。

四、开放问题¶

半参数效率界：本文采用贝叶斯半参数方法，但未讨论估计的效率界。在主分层框架下，有效估计量是什么？是否可以构造增强 IPW 或双重稳健估计量？——扎根在 Discussion："future work could explore doubly robust or machine learning approaches."
敏感性分析：当排除性约束或单调性假设违反时，结论有多稳健？主分层方法对假设敏感，但本文未提供敏感性分析工具。——扎根在 Introduction 对假设的讨论，以及缺失的 Sensitivity Analysis 章节。
高维协变量与机器学习：本文设定中协变量 \(X_k\) 维度较低。若 \(X_k\) 是高维的（如基因组数据、电子病历），如何结合机器学习估计倾向得分或主层分布？——扎根在 Discussion 对 future work 的提及。
依从层定义的客观性：潜在层 \(S\) 是不可观测的，其定义和数量选择有一定主观性。如何验证层的"真实性"？是否有模型选择准则？——扎根在模拟研究中层数设定的敏感性分析缺失。

Maintained by 陈星宇 · Homepage · Source on GitHub