Transporting Results from a Trial to an External Target Population When Trial Participation Impacts Adherence¶

作者: Rachael K. Ross, Iván Díaz, Amy J. Pitts, Elizabeth A. Stuart, Kara E. Rudolph
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向是因果推断中的“可推广性/可运输性”（generalizability / transportability）——将随机对照试验（RCT）中估计的因果效应，从试验参与者推广到某个外部目标人群。其根本的统计问题是：当试验参与者与目标人群的基线协变量分布不同，且这些协变量会修饰处理效应时，如何识别和估计目标人群的平均处理效应（ATE）。目前该子方向已较为成熟，其基础识别假设“条件交换性”已有系统性研究，并发展出了一套plug-in、双重稳健、TMLE等估计器。

发展脉络¶

奠基工作：Frangakis (2009) 最早系统论述了校准试验效应到目标人群的必要性，指出即使试验内估计无偏，也因人群差异而无法直接推广。Cole & Stuart (2010) 等提出了基于逆概率加权的估计器。这些工作建立了“需要外推”的意识，识别假设为条件交换性：给定协变量后，是否参与试验与潜在结局独立。
主要进展：Dahabreh et al. (2018) 是一篇里程碑式的教程，系统化地提出了基于建模期望（outcome regression）、参与概率（weighting）或二者兼用（doubly robust）的估计框架，并给出了在嵌套试验设计下的识别公式。此时的方向已经进入了“方法论构建”阶段，但识别假设仍默认试验参与对结局的影响完全由基线协变量解释——即没有“试验参与效应”（trial engagement effects）。
敏感度分析分支：由于条件交换性假设在实际中常被怀疑，Nguyen et al. (2016, 2018) 和 Dahabreh et al. (2019) 引入了敏感度分析，参数化未观测到的效应修饰因子或未观测的交换性违背。Huang (2022) 提出了一个三参数敏感度分析框架，不需要对数据生成过程做特定假设。这些工作处理的是“协变量层面的不可观测问题”，即效应修饰因子的缺失。
当前 frontier & 本文位置：最新进展意识到，试验参与本身可能通过影响中介变量（如依从性 adherence）来间接影响结局，而不仅仅是修饰效应。Dahabreh, Robertson & Hernán (2022) 和 Ung, VanderWeele & Dahabreh (2024) 是关键先行文献。前者明确指出：若试验参与直接通过依从性影响结局，则目标人群的效应（受分配治疗而非实际治疗）不可识别；但若考虑“推广试验活动本身”的联合干预，则可识别一个不同的 estimand。后者则提出“无交互作用”假设下，即使有试验参与效应，仍可识别目标人群的ATE。本文（Ross et al.）位于此前沿，但聚焦于一个更窄、更实操的问题：当目标人群缺乏治疗/依从性数据时，如何对目标人群的潜在结局均值进行敏感度分析**。作者直接引用了 Dahabreh et al. (2022) 的“不可识别”结论，并以此为出发点，提出一个必须由专家指定的敏感度参数 δ(W)，来刻画试验与目标人群间的依从性差异。

子线索聚类¶

运输性/可推广性的识别与估计（Dahabreh et al., 2018; Rudolph & van der Laan, 2016; Kennedy, 2022; Hines et al., 2021）：这是主干，关注识别条件、双重稳健/影响函数估计器、TMLE。本文的one-step估计器继承于此。
敏感度分析与未观测变量（Nguyen et al., 2016, 2018; Dahabreh et al., 2019; Huang, 2022）：处理交换性假设的违背，参数化为未观测的效应修饰因子或总体偏倚。本文也属于此支，但专门针对“依从性”这一特定中介，而非泛指未观测协变量。
试验参与效应/依从性中介（Dahabreh, Robertson & Hernán, 2022; Ung, VanderWeele & Dahabreh, 2024）：试图在试验参与影响依从性（或其他中介）时，仍然能识别或定义目标人群的效应。这是本文的直接前驱和对话对象。
应用与实证（Lee et al., 2017; Wang et al., 2023; Korthuis et al., 2022; Shulman et al., 2024）：提供真实数据和场景，是本文的动机来源。

这个方向在追问的核心问题¶

识别问题：给定试验数据（Y, A, W）和目标人群协变量数据（W），在何种假设下可以识别目标人群的平均处理效应（ATE）或平均潜在结局？当试验参与影响中介（如依从性）时，识别是否仍然可能？
估计问题：如何构造具有良好统计性质（一致、渐近正态、双重稳健、半参有效）的估计器？如何在估计中使用机器学习来降低模型错误设定的风险？
敏感度分析问题：当关键识别假设（如条件交换性、无未测量中介）不成立时，如何量化结论对违背的敏感程度？如何参数化、校准这种违背？

⚠️ 作者的 framing（这是作者的说法）¶

作者将缺口 frame 成：“现有运输性方法假设试验参与不影响中介变量（如依从性），或假设目标人群有中介数据可以直接调整。但在许多实际应用中（如本文的 OUD 例子），目标人群无治疗/依从性数据，且试验活动明显会提高依从性。因此，该 estimand 不可识别。” 作者把“不可识别”这一结论（直接引自 Dahabreh et al., 2022）用作自己贡献的合法性基础——既然无法识别，那就做敏感度分析。他们的竞争路线（被淡化或回避）是： - Ung et al. (2024) 的“无交互作用”路径：用了另一个不依赖中介数据的识别条件（假设无交互）。作者在引言间接引用它们，但并未将其与自己方案深度比较，也没解释为何偏好敏感度分析而非接受“无交互”假设。 - Dahabreh, Robertson & Hernán (2022) 提出的“推广试验活动”的联合干预 estimand：作者没讨论为什么不用这个 estimand 替代目标，只强调了“不可识别”。

什么明显该被引/该存在、却没出现在 intro 里？ - 作者引用了 Rudolph & van der Laan (2016) 运输鼓励设计的 TMLE，但没有引用 Ogburn & VanderWeele (2013) 关于中介交互的因果图工作——如果试验参与通过依从性影响结局，这本身就是一种交互，需要区分不同层次的非无干扰性。这可能是相关文献的一个小缺口。

张力¶

未见明显对立引用。所有被引工作都认同：当试验参与直接影响（通过中介）结局且无中介数据时，不可识别。分歧在于如何应对（或重新定义 estimand），而不是因果关系本身。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - $S$：二值指示变量，$S = 1$ 表示“在试验样本中”，$S = 0$ 表示“在目标人群样本中”。 - $A$：随机分配的治疗（treatment）。在试验中随机化，在目标人群中未观测/未知。 - $Z$：实际接受的治疗（actual treatment）。$Z_a$ 是给定分配 $a$ 下的潜在实际治疗，这里 $Z_a = 1$ 表示“依从了分配 $a$”（即实际接受了该治疗）。它与 $A$ 可能不同（存在不依从）。 - $W$：基线协变量向量，在试验和目标人群中都观测。 - $Y$：结局变量。在试验中观测，在目标人群（$S=0$）中不观测。 - $Y_a$：潜在结局，在给定分配治疗 $a$ 下的结局（无论实际是否接受）。它是我们想估计的。

目标 estimand：$\psi(a) = E[Y_a|S=0]$——如果将目标人群（$S=0$）所有人都分配治疗 $a$（并不要求他们一定实际接受该治疗），他们平均结局是多少。这是在目标人群、给定分配下的平均潜在结局。

模型（数据生成机制）： - 试验（$S=1$）：$A$ 随机分配（独立于 $W$ 和 $Y$），$Z$ 和 $Y$ 被观测。 - 目标人群（$S=0$）：$A$ 不存在/不观测（因无干预），$Z$ 不观测，$Y$ 不观测。仅观测 $W$。 - 试参与机制：$S$ 可能与 $W$ 相关，这是问题的起点。 - 依从性机制： - 在试验中（$S=1$）：给定分配 $a$ 和协变量 $W$，依从概率为 $Pr(Z_a=1 | W, S=1)$。 - 在目标人群中（$S=0$）：如果被分配 $a$，依从概率为 $Pr(Z_a=1 | W, S=0)$。 - 核心假设：$S$ 会影响 $Z_a$，即 $Pr(Z_a=1 | W, S=1) \neq Pr(Z_a=1 | W, S=0)$。这是因为试验活动（随访、补偿等）会提升依从性。 - 中介路径：$S \rightarrow Z_a$（试验参与影响依从性）$\rightarrow Y_a$（依从性影响结局）。

可观测数据： - 我们可观测的是双样本：一个完整的试验数据集 $\{Y_i, Z_i, A_i, W_i\}_{i \in S=1}$（$n_1$ 个样本）和一个目标人群协变量数据集 $\{W_j\}_{j \in S=0}$（$n_0$ 个样本）。 - 想要但观测不到的是：目标人群的 $Y_j$ 和 $Z_{a,j}$——这是核心瓶颈。此外，$Z_{a,j}$ 本身也因 $S=0$ 而不成立（无分配 $A$）。所以 $\psi(a)$ 无法直接从数据识别。

第二步：讲最小内核¶

最简特例：假设只有一个二值协变量 $W \in \{0,1\}$，且治疗分配固定为 $a$（例如只关注实验组）。我们称这个单一 estimand 为 $\psi$。

在标准运输性中：无依从性问题，即 $Z_a = a$（完全依从）。识别公式是：

\[\psi_{standard} = E_W\left[ E[Y|S=1, A=a, W] \right]\]

，这是可识别的，因为试验有 $Y$ 数据。

本文麻烦在于：试验中可能有部分人不依从 $a$，所以 $E[Y|S=1, A=a, W]$ 不等于 $E[Y_a|S=1, W]$（因为 $Y$ 同时取决于 $A$ 和 $Z_a$）。更难的是，目标人群的依从率 $Pr(Z_a=1| S=0, W)$ 未知且与试验不同。让我们来揭开这个最小内核：

分解 $\psi$：我们想估计 $\psi = E[Y_a|S=0]$。可以将它分解为“依从组”和“不依从组”的平均：
\[\psi = \underbrace{E[Y_a|Z_a=1, S=0, W]}_{=: \theta_a(W)} \cdot \underbrace{Pr(Z_a=1|S=0, W)}_{=: p_a^{target}(W)} + \underbrace{E[Y_a|Z_a=0, S=0, W]}_{=: \delta_a(W)??} \cdot (1 - p_a^{target}(W))\]
面临的不可识别问题：
- 四项中，$p_a^{target}(W)$ 是不可识别的。
- $E[Y_a|Z_a=1, S=0, W]$ 是“如果被分配且依从，结局是多少”。即使认为“依从了多少就接受多少治疗”，我们也没有目标人群的 $Y$ 和 $Z_a$ 数据。
- 因此，所有项都不可识别。
本文的关键想法：引入一个敏感度参数 $\delta_a(W)$ 来连接目标人群与试验的依从性。作者定义：
\[\delta_a(W) = \frac{Pr(Z_a=1|S=0, W)}{Pr(Z_a=1|S=1, W)} \in [0, 1]\]
即目标人群 vs 试验中依从该治疗的相对概率。作者认为 $0 \leq \delta_a(W) \leq 1$（试验活动只提升不降低依从性）。$\delta_a(W) = 1$ 表示无差异，$\delta_a(W) = 0$ 表示目标人群完全不依从。
用 $\delta_a(W)$ 重写 $\psi$：作者进一步假设，在给定 $W$ 和 $Z_a$ 后，$S$ 与 $Y_a$ 条件独立（“条件交换性”在依从组内成立，即 $Y_a \perp S | W, Z_a$）。再经过一些推导（原文附录 A），得到识别公式：
\[\psi(a, \delta_a) = E_W\left[ \frac{ \delta_a(W) \cdot m_a(W) + (1 - \delta_a(W)) \cdot Q_{a,0}(W) }{ Pr(S=0 | W) } \right]\]
其中：
- $m_a(W) = E[Y|S=1, Z_a=1, W]$：试验中，实际上接受了治疗 $a$ 的人的平均结局（给定 $W$）。这是可识别的。
- $Q_{a,0}(W) = E[Y|S=1, Z_a=0, W]$：试验中，未接受治疗 $a$ 的人的平均结局。这也是可识别的。
- $Pr(S=0|W)$：目标人群在给定 $W$ 下的概率，可从双样本权重中估计。
因此，在给定 $\delta_a(W)$（或假设其为一个常数 $\delta_a$）后，$\psi$ 就变成了一个可识别的泛函，因为它只包含可观测数据（$Y, Z, W, S$）和已知参数 $\delta_a(W)$。
所以这个最小内核告诉我们：整个论文的数学核心是：用一个单一的、有界的、可解释的参数 $\delta_a$ 将不可识别的依从性概率链接到一起，使得 estimand 被参数化地“识别”了。 然后作者证明了，给定任何 $\delta_a$ 值，可以用 plug-in 或 one-step 估计器来估计 $\psi$。$\delta_a$ 不是一个要找的点，而是一个要“假定”的输入。剩下的技术工作就是如何在给定了这个输入后，构造统计性质好的估计器。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在将试验结果外推至目标人群时，当试验参与通过影响治疗依从性（adherence） 中介路径影响结局，且目标人群缺乏治疗/依从性数据时，目标人群的潜在结局均值 $\psi(a) = E[Y_a|S=0]$ 不可识别。本文提出一个基于敏感度参数的框架，使研究者能够对这种不可识别性进行量化和探索。
核心工具/方法：引入敏感度参数 $\delta_a(W) = Pr(Z_a=1|S=0, W) / Pr(Z_a=1|S=1, W)$ 来参数化试验参与对依从性的影响。通过条件交换假设（给定 $W, Z_a$ 后 $Y_a \perp S$），推导出一个依赖于 $\delta_a(W)$ 的可识别泛函。构造了两个估计器：plug-in 估计器和基于高效影响函数（EIF/one-step）的双重稳健估计器。
主要结论：所提出的one-step估计器是双重稳健的——如果 $Pr(S=0|W)$ 和 $m_a(W), Q_{a,0}(W)$ 这两组模型中的任意一组被正确指定（或将它们的误设率乘积以 $n^{-1/2}$ 速度趋于零），则估计量一致。在阿片类药物使用障碍（OUD）的真实数据应用中，展示了当 $\delta_a$ 在不同范围内变化时，外推的风险估计如何显著改变，并建议在应用中使用 Monte Carlo 抽样来结合专家不确定性。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

记号：同第二节，包括 $S, A, Z, W, Y$。
假设 1（条件交换性）: $Y_a \perp S \ | \ W, Z_a$。即给定基线协变量 $W$ 和是否实际接受了分配治疗 $Z_a$ 后，在试验与目标人群中的潜在结局分布无差异。
假设 2（随机化与一致性）: 在试验中 $A$ 是随机分配的，且 $Y = Y_A$ 和 $Z = Z_A$（一致性）。
假设 3（样本代表性）: 目标人群样本 $S=0$ 是 $Pr(S|W)$ 的正确代表。
假设 4（依从性相对差异）: $\delta_a(W) = Pr(Z_a=1|S=0, W) / Pr(Z_a=1|S=1, W)$，且通常假设 $0 \le \delta_a(W) \le 1$（试验只改善依从性）。
假设 5（正性）: 对 $W$ 的所有值，$Pr(Z_a=1 | S=1, W) > 0$ 和 $Pr(S=0 | W) > 0$ 以保证分母有定义。
与已有文献的对比：
- 相比 Dahabreh et al. (2018) 等：本文明确放弃了“无试验参与效应”（即 $S$ 不影响 $Z$）的强假设。承认并参数化了这一路径。
- 相比 Dahabreh, Robertson & Hernán (2022): 本文不尝试在 Map 上识别一个不同的 estimand（如联合干预），而是接受“不可识别”事实，转而进行敏感度分析。
- 相比 Ung et al. (2024): 本文假定了交换性在 $Z_a$ 条件下成立（而非无条件或通过无交互假设）。这严格来说是一个更弱的条件？还是更强的？它要求你观测到 $Z$（在试验中），且 $Y_a$ 与 $S$ 条件独立。而 Ung 的“无交互”假设不要求观测 $Z_a$，但假设了可加性。若 $S$ 通过 $Z_a$ 来起效，则 $Y_a$ 的条件独立于 $S$ 是合理的。

主要结果¶

定理 1（双重稳健性）：令 $\hat{\psi}_{OS}$ 为 one-step 估计器（公式 [15]），其基于四个 nuisance 模型估计： - $\hat{Q}_{a,z}(W)$: 试验中 $E[Y|S=1, Z_a=z, W]$ 的估计。 - $\hat{m}_a(W)$: 试验中 $E[Y|S=1, Z_a=1, W]$ 的估计（即为 $\hat{Q}_{a,1}(W)$）。 - $\hat{g}_a(W)$: 试验中 $Pr(Z_a=1|S=1, W)$ 的估计。 - $\hat{h}(W)$: 目标人群占比 $Pr(S=0|W)^{-1}$ 的估计或其加权版本。

如果以下两组条件的一组成立，且交叉拟合（cross-fitting）使用，则 $\hat{\psi}_{OS}$ 是 $\psi(a, \delta_a)$ 的一致估计量：

\[\| \hat{Q}_{a,z} - Q_{a,z} \|_2 \cdot \| \hat{g}_a - g_a \|_2 = o_p(n^{-1/2}) \quad \text{（核心双重稳健条件）}\]

且 $\| \hat{h} - h \|_2$ 收敛速率足够快。 - 直觉：如果估计 $\hat{Q}$（条件期望）和 $\hat{g}$（依从概率）的乘积误差以 $n^{-1/2}$ 速度趋于零（这允许其中一个误差较大，只要另一个趋近于零），估计量就一致。这允许使用机器学习假如它们的收敛慢于 $n^{-1/2}$ 但乘积 $n^{-1/2}$ 满足。

推论：通过 delta 方法，可得 $\hat{\psi}_{OS}$ 的渐近正态性；其方差可通过高效影响函数 $\phi$ 的样本方差来估计。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

步骤1：推导高效影响函数（EIF）：作者先推导出给定 $\delta_a$ 下的可识别功能泛函 $\psi(a, \delta_a)$（公式 [7]）。然后，基于半参数理论，计算该参数在非参数模型下的高效影响函数（conjectured EIC），即 $\phi$（公式 [13]）。EIF 满足 $E[\phi | \text{data}] = 0$，且 $E[\phi(Y, S, A, W)] = \psi(a, \delta_a) - \psi$ 在真实分布下成立。
步骤2：构造 one-step 估计器：标准 one-step 估计是 $ \hat{\psi}{OS} = \hat{\psi}{plugin} + \frac{1}{n} \sum_{i} \hat{\phi}_i $，其中 $\hat{\psi}_{plugin}$ 是将 $\hat{Q}_{a,z}, \hat{g}_a, \hat{h}$ 代入 [7] 得到的。加上的“一步”是为了纠正 $\hat{\psi}_{plugin}$ 的偏差。
步骤3：证明双重稳健性：关键是证明 $E[\hat{\phi}] = \psi - \hat{\psi}_{plugin} + \text{remainder}$，且 remainder 项可以写成乘积形式 $ \int (Q - \hat{Q})(g - \hat{g}) \cdot dP $ 或类似的高阶项。作者在附录中推导了精确的 remainder，并说明只要其中一个估计量的误差的 $L_2$ 范数乘上另一个误差的 $L_2$ 范数以 $o_p(n^{-1/2})$ 收敛，则 one-step 估计是 $\sqrt{n}$ 一致的。
步骤4：交叉拟合（Cross-fitting）：为避免过度拟合对 nuisance 函数估计的偏差影响，作者采用交叉拟合：将样本分成 $K$ 折。对每折 $k$，用所有其他折的数据训练 $\hat{Q}_{a,z}^{(k)}, \hat{g}_a^{(k)}$ 等，然后在该折上使用它们来生成 $\hat{\phi}_i$ 的估计。最后平均所有 $\hat{\phi}_i$。这是现代 debiased ML 的标准步骤。

关键跳跃点： - 推导 EIF $\phi$：这是最吃功夫的步骤。作者必须解出非参数模型的投影，并验证 $\phi$ 确实是 EIF。这通常涉及分析 $\frac{d}{d\epsilon} \psi(P_{\epsilon})$ 在扰动 $\epsilon$ 下的导数，并找到影响函数的解。论文的附录 B 给出了这个过程。 - remainder 项分析：证明 remainder 可以因子化为 $(\hat{Q} - Q)(\hat{g} - g)$ 或类似项的乘积是证明双重稳健性的核心。这通常需要泰勒展开以及巧妙地加上和减去中间项，这是因果推断中处理影响函数的经典技巧。

技术技巧点名： - 高效影响函数（EIF）推导：使用 Gateaux 导数和路径形而微分。位置：附录 B。 - 交叉拟合（Cross-fitting）：用于估计 nuisance 函数，以防止过拟合产生的不利偏差。位置：方法节和模拟。 - Monte Carlo 敏感度参数采样：不是核心统计技巧，但是一种实操策略：从 $\delta_a$ 的先验分布中抽样，获取 $\psi(a, \delta_a)$ 的分布，用以传达不确定性。位置：方法节和 R 代码。

真实例子与应用¶

所用的数据/场景： - 试验数据：X:BOT 试验（Lee et al., 2017），比较缓释纳曲酮（XR-NTX）和丁丙诺啡-纳洛酮（BUP-NX）两种药物治疗阿片类药物使用障碍（OUD）的效果。 - 目标人群数据：TEDS-A（Treatment Episode Data Set: Admission），这是美国物质使用治疗机构的入院数据，代表现实世界中寻求治疗的 OUD 患者。 - 核心目标：将试验中，两种药在分配下的 24 周复发风险，外推至 TEDS-A 代表的真实人群。关键难题是：在 TEDS-A 中，许多患者不坚持治疗（依从性差），而 X:BOT 试验中因为有积极随访，依从性高得多。

怎么把本文方法用上去： 1. 定义 $\delta_a$：作者需要指定 $\delta_a$（即目标人群 vs 试验中，成功启动并/或持续使用某药物治疗的相对概率）。他们引用文献指出 XR-NTX 的启动困难，认为 $\delta_{XR-NTX}$ 远小于 1，$\delta_{BUP-NX}$ 可能接近 1（但也不完全）。 2. 估计 nuisance 模型：用 X:BOT 数据估计 $\hat{Q}_{a,z}(W)$（给定协变量和依从状态下的复发风险）和 $\hat{g}_a(W)$（试验中依从的概率）。 3. 进行敏感度分析： - 单一值：他们检验了一个固定 $\delta$（例如 $\delta_{all}=1$ 即无差异，得 24%复发风险；$\delta_{all}=0.7$ 得 36% 等）。 - Monte Carlo 范围：他们将 $\delta_a$ 视为一个随机变量，从其合理的分布（例如根据外部知识：XR-NTX 的启动概率在目标人群中可能只有试验的 0.6-0.9，BUP-NX 为 0.8-1.0）中抽样，并绘制分布图。结果显示了在不同 $\delta$ 下风险的大幅波动。

得到什么结果： - XR-NTX：在试验中是 24%（$\delta=1$），当 $\delta$ 降到 0.6 时，上升到 50%以上。这说明 XR-NTX 在现实中的相对有效性可能远不如试验，因为其启动与坚持对试验环境高度依赖。 - BUP-NX：变化小很多，显示出更稳健的推广可能性。 - 整个分析的价值在于：不做任何假设则无法得到任何点估计；但通过敏感度分析，政策制定者可以看到“如果依从性只及试验的X%”，后果会如何。在本例，这比一个点估计更有帮助。

这个例子想说明什么：验证了敏感度分析框架在实际应用中的必要性，证明了 $\delta_a$ 的选择对结论有实质影响，展示了如何用 Monte Carlo 抽样来传达不确定性，使结果不依赖于一个“神奇数字”。它也直接抓住了该论文的动机——不带依从性数据的推广，在 OUD 治疗中特别危险。

🔎 结论是否比证明窄¶

是。需要指出具体语句。 - 引文句“It is often reasonable to assume... meaning $0 \le \delta_a(W) \le 1$”：这是一个有争议的 claim。论文的证明建立在 $\delta_a(W)$ 是一个有界常数或可被指定这个前提下。它不证明 $\delta_a(W)$ 的方向总是 $\le 1$。实际中，也许目标人群的依从性高于试验（例如试验的纳排标准筛选了更难启动的患者）。代码假设 $\delta_a \in [0,1]$，但如果没有这个假设，读者需要修改参数范围。作者在文中只陈述了“通常合理”，这比证明要弱很多——后者仍是开放问题。 - 结论 $\psi(a, \delta_a)$ 完全依赖于 $\delta_a$ 的指定：作者证明了给定 $\delta_a$ 后，$\psi$ 可被一致估计。但他们并没有证明这个方法能覆盖所有实际违背模式。例如，假设 $Y_a$ 与 $S$ 在 $W, Z_a$ 条件下不独立，则即使 $\delta_a$ 正确，公式 [7] 里仍用了错误的 $m_a$ 和 $Q_{a,0}$（因为它们测量的是条件独立不成立的试验数据）。所以结论的稳健性（对“条件交换性”假设的违背）未被证明。作者将其作为未来工作或卢卡吗？文中的确提到了你可以进行第二个层面的敏感度分析，但已超出本文范围。

四、开放问题（点到为止，扎根具体语句）¶

“第2阶段中介”的不可测量：本文只解决了第1阶段（试验参与 -> 依从性） 的不可测量。若存在一个第2阶段不可测量的中介（如试验中更高质量的监测与咨询本身是为了促进依从性，而不仅仅是依从性的增加），如何将其纳入模型？可对照框架：本文假设 $Y_a \perp S | W, Z_a$，若 $S$ 还通过 $W$ 之外的其他变量影响 $Y$，则此假设不成立。扎根句：“The key identifiability assumption is that conditional on Z_a, enrollment in the trial does not affect ... we also assume that W suffices to control for confounding of these relationships.”
$\delta_a(W)$ 的贝叶斯正确校准：虽然作者提出了 Monte Carlo 抽样，但这暗含了均匀先验。在真实应用里，如何根据外部专家知识系统化地、量化地（如通过elicitation方法）构建 $\delta_a(W)$ 的后验分布？这是统计学家与领域专家合作的开放问题。扎根句：“We have described one approach, which uses Monte Carlo sampling ...Specifying this distribution is perhaps the most difficult part of the analysis.”
双重稳健性 wrt 第2阶段估计器：作者证明其 one-step 估计器关于 $(\hat{Q},\hat{g})$ 双重稳健。但 $\hat{\psi}_{OS}$ 对 $\hat{Q}_{a,0}$（不依从者结局的估计）的稳健性如何？若在试验中，不依从者很少，则 $\hat{Q}_{a,0}$ 的方差会很大，one-step 估计量可能会很不稳定。仅依靠双重稳健性不能保证有限样本表现。扎根句：“When the trial sample is small or the number of non-adherent individuals is small, the super learner might still overfit in these data...”
本文与 Proximal CI 的交点：本文明确引入了不可测量的中介（$Z_a$ 的 $S=0$ 版本）。Proximal CI（Miao & Tchetgen Tchetgen, 2018）处理不可测量混杂，也是借助观测到的“代理”变量。能否将本文中 $Pr(Z_a=1 | S=1, W)$（试验中的依从率）看作一个代理，来识别目标人群的依从率路径？这是一个具体的未解耦处，但对作者（或有同样兴趣的研究者）有直接价值：如果你想将本文扩展到一个完整的“带中介的推广”识别框架，Proximal CI 可能是一个武器。
- 顺带提醒：要确认这一条是不是真 gap，去读 Miao et al. (2018) 和 Dahabreh et al. (2022) 的相关讨论。如果两者都提到“不可测量中介”，但未用代理变量解决，就是真 gap。如果已有工作（如试点）做了，则不是。作者似乎没引用 Proximal CI 的文献，可能是个机会。

Maintained by 陈星宇 · Homepage · Source on GitHub