The Ideal Trial: Defining Causal Estimands that Balance Relevance and Feasibility in Target Trial Emulations and Actual Randomized Trials¶

作者: Margarita Moreno-Betancur, Rushani Wijesuriya, John B. Carlin
来源: Epidemiology
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是因果推断中 estimand（目标量）的定义问题，具体来说，是在 target trial emulation（目标试验模拟） 框架下的核心困境：当你用观察性数据去模拟一个随机试验时，到底应该定义一个什么样的“目标试验”，才能既让问题有实际意义（relevance），又让估计可行（feasibility）？这个方向当前处于概念澄清与框架统一阶段——已经有一整套成熟的实操流程（指定目标试验协议→模拟它），但关于“目标试验本身应该如何被定义”这个元问题，仍有根本性的模糊。

发展脉络（history）¶

奠基工作：Hernán 及其合作者在 2010 年代中期系统提出了 target trial emulation 框架，核心论文是 Hernán et al. (2016) [4] “Specifying a target trial prevents immortal time bias...”，以及后来的综述 Hernán et al. (2022) [5]。这个框架的基本思路是：在分析观察性数据之前，先书面写出“如果我要做一个完全随机的务实试验来回答这个因果问题，这个试验的协议是什么”，然后用观察性数据去模拟这个协议。Hernán 等人证明这样能防止很多常见的自残式偏倚（ immortal time bias、时间零点错位等）。

主要进展：框架被迅速推广到政策评估 (Seewald et al., 2024 [18])、妊娠期干预 (Hernández-Díaz et al., 2022 [14])、多队列研究 (Downes et al., 2022 [23])、癌症筛查 (García-Albéniz et al., 2024 [24]) 等多个应用领域。同时，概念上的深化也在发生：Westreich et al. (2018) [8] 提出了“target validity”（目标有效性）的概念，试图超越内部/外部有效性的二分法，并明确将“target population（目标总体）”作为核心参考点。Lodi et al. (2019) [10] 展示了如何通过“harmonized protocol（调和的协议）”来使 RCT 和观察性研究的结果可比——这里“harmonized（协调）”用的是“aligned（对齐）”的精神，但参考的是实际 RCT，而非抽象的理想试验。

当前 Frontier 与本文位置：作者指出，目前的主流观点认为“目标试验应该与观察性数据紧密对齐”——即使用相同的入排标准、相同的治疗方案定义等。但这个做法有一个隐含风险：你只是复制了实际随机试验的缺陷，而不是逼近一个无偏倚的理想试验。本文的目标很明确——不是推翻原框架，而是把“理想试验”这个概念从幕后拉到台前，要求研究者明确写下“理想试验”的协议，作为评估目标试验偏倚的参考基准。引用句里的原话：「...the ideal trial is not explicitly mentioned or considered as an important reference for guiding the target trial specification.」这正是本文要填的缺口。

子线索聚类¶

这条文献脉络大致可以分为三条子线索：

线索 A：Target trial emulation 的实操与应用（主流）。Hernán et al. (2016, 2022) [4,5] 规定了操作流程；Dickerman et al. (2019, 2023) [6,16]、García-Albéniz et al. (2017, 2024) [7,24] 展示了实际应用中的效果。这一线思路强调“与数据对齐”以确保可行性和少出设计错误。
线索 B：有效性框架与 estimand 定义的元概念。Westreich et al. (2018) [8] 的 target validity、Lu et al. (2022) [9] 对 selection bias 的统一定义、Dahabreh et al. (2020) [13] 关于 benchmarking observational methods 的讨论。这些工作都在追问那个“估出来的量到底对谁有意义”的问题。Moreno-Betancur (2020) [15] 直接提出目标试验是超越“well-defined intervention”的更强工具。
线索 C：缺失数据与目标试验的交互。Moreno-Betancur et al. (2018, 2023) [11,12]、Zhang et al. (2023) [20] 探讨了在目标试验框架下如何处理缺失数据。Tompsett et al. (2022) [21] 和 Benz et al. (2024) [25] 则专门讨论了因缺失入排标准数据而导致的 selection bias——这正是本文下文要深入分析的一个偏倚来源。

这个方向在追问的核心问题¶

目标试验应该“对齐”谁？ ——对齐观察性数据以保证可行性，还是对齐一个更抽象但有实际意义的理想试验？
目标试验 emulation 消除的偏倚有多全？ ——主流观点认为它能消除除了基线混杂外的大部分常见偏倚 (Hernán et al., 2022 [5])，但本文指出：这只是相对于“对齐的那个目标试验”而言的。
如何系统性地识别和管理“目标试验 vs. 理想试验”之间的偏倚？ ——这不是单一方法能解决的，需要框架性的思考。
实际随机试验本身也面临同样的偏倚问题——它们的 estimand 定义是否也需要同样的自省？ ——本文的一个关键主张就是“yes”。

⚠️ 作者的 framing¶

这是作者的说法：作者把缺口 frame 成了“目标试验模拟框架中理想试验角色的缺失”。具体来说，他们认为主流实践（Hernán 等人推荐的“对齐数据”方法）虽然有效，但遗漏了一个关键步骤——写清楚理想试验的协议。这个遗漏导致三个后果：(1) 偏倚分析只能覆盖相对于“对齐的那个目标试验”的偏倚，而无法触及更根本的理想试验层面的偏倚；(2) 研究者无法区分“因数据限制而不得不偏离理想”和“因研究设计导致的人为偏倚”；(3) 实际随机试验的 estimand 往往被当作黄金标准，但同样也受限于理想试验的框架——它们也存在偏倚（比如入排标准导致的 selection bias）。

作者淡化了什么/回避了什么：作者没有与线 A 的主流方法论产生直接对立——并不说“对齐数据”的方法是错的。相反，他们声称这是“在某些条件下合理的”，只是不够完整。作者也没有给出一个算法来指导“如何定义理想试验”——这仍然是一个依赖于学科领域知识的人工作业。他们强调了需要“explicit consideration”（显式考虑），但没有给出一个可操作的量化标准来判定“多大的偏倚是不可接受的”。

什么明显该被引/该存在、却没出现在 intro 里？ 这是一个很有价值的研究。本文的 intro 和引用列表里，对“align with data”这一主流实践的唯一引证是 Hernán 等人的工作。但事实上，已经有一些论文在讨论“当目标试验本身定义模糊时，如何处理 estimand 偏倚”——例如关于“benchmarking”的一系列工作（Dahabreh et al., 2020 [13] 被引了，但其核心思想——通过比较 RCT 与 emulation 来校准——并没有在本文被充分讨论）。另外，对半参数效率理论中对 estimand 形式化的讨论（如 van der Laan & Rose 的 Targeted Learning）——即明确写出 counterfactual mean 的数学表达式并直接计算高效影响函数——完全没有被提及，尽管它处理的是同一个问题（定义 estimand 并保证可识别性）。这是一个值得去查的缺口：有没有人尝试在 emulation 框架中引入半参数或可识别性理论来形式化“理想试验”的 estimand？

张力¶

未见明显对立引用。这些被引文献之间没有直接矛盾——它们大都支持 target trial 框架，只是对“如何定义目标试验”的强调程度不同。不过有一个隐含的张力值得注意：Hernán 等人强调“目标试验应与数据对齐以免出现设计错误”；本文则主张“应先定义理想试验再谈对齐”。这两种主张在极端情况下（比如当数据完全无法代表目标总体时）会导致完全相反的 estimand。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

本文是一个概念/综述型论文，不做数学推导。它的核心对象是“estimand”（目标量）的定义方式。我们先设定记号来讨论：

符号：
目标总体 (target population) \(P\)：你最终想推断的人群（如“所有墨尔本的新生儿”）。
理想试验 \(I\)：一个假想的、完美的随机试验——样本代表性完美、无失访、无违背治疗分配、无测量误差。它定义了理想 estimand \(\theta_{I}\)。
实际随机试验 \(R\)：一个现实的随机试验——可能有受限的入组人群、可能存在不依从、失访等。它产生实际 RCT estimand \(\theta_{R}\)。
目标试验 \(T\)：在 target trial emulation 框架中指定的假想试验——通常与可用的观察性数据 \(D\) “对齐”。它定义了目标试验 estimand \(\theta_{T}\)。
观察性数据/emulation \(E\)：用观察性数据模拟目标试验 \(T\) 的过程。它产生 estimand \(\hat{\theta}_{E}\)（一个估计量）。
模型与数据生成机制：这不是形式化论文，所以没有写出联合分布或结构方程模型。但隐含的因果模型是常规的潜在结果框架（Potential Outcomes / Counterfactuals）：对于每个个体 \(i\)，存在潜在结果 \(Y_i(1)\)（接受处理）和 \(Y_i(0)\)（不接受处理）。可观测数据 \((X_i, A_i, Y_i)\) 只包含协变量、实际收到的处理和观测到的结果。研究者想要 estimand 如平均处理效应（ATE）\(\mathbb{E}[Y(1)-Y(0)]\) 在某个目标总体 \(P\) 上的定义。
可观测与不可观测：
可观测：实际数据（各类观察性数据库、RCT 数据）——包含协变量、处理分配、结果、以及指示不依从或失访的信息。
想要但观测不到（潜在/选择偏差）：目标总体 \(P\) 中所有个体的潜在结果 \(Y(1), Y(0)\)，尤其是那些因入排标准被排除在试验之外的个体的结果。理想试验与目标试验之间的差异，往往体现在谁有资格进入试验、谁实际上入了组并接受了分配——这些被排除的个体正是产生“理想偏倚”的来源。

第二步：最小内核¶

本文的核心主张可以用一个最简对比来理解。考虑一个只有一个协变量 \(X\)、二进制处理 \(A\)、连续结果 \(Y\) 的情形。假设目标总体 \(P\) 是所有 0-5 岁儿童。

理想试验 \(I\)：从 \(P\) 中随机抽取一个代表性样本，给一半儿童处理（如一种新疫苗），给另一半安慰剂。完美依从、无失访、无测量误差。这时 \(\theta_I\) = 对所有儿童的 ATE。
全对齐目标试验 \(T_{full-align}\)：为了用观察性数据模拟这个试验，研究者将目标试验定义得“与现实数据完全一样”——例如只包括“有医保记录的、在特定医院出生的”儿童。这时 \(\theta_T\) 不再等于 \(\theta_I\)，因为它只覆盖 \(P\) 的一个子集（那些有医保记录的儿童）——这引入了 selection bias。
部分对齐目标试验 \(T_{partial-align}\)：研究者可能为了平衡相关性与可行性，对面目标试验做一些妥协——比如“允许通过 imputation 处理缺失的入组数据”，但也可能因此引入新的偏倚。

最小内核的核心问题：本文展示的正是从 \(\theta_I\) 到 \(\theta_T\) 的偏倚可能等于或甚至大于 从 \(\theta_T\) 到 \(\hat{\theta}_E\) 的偏倚。而主流 emulation 文献只关注后一个偏倚（即如何让模拟尽量忠实于目标试验），却忽略了前一个更根本的偏倚（即目标试验本身是否定义了有意义的 estimand）。

三、这篇论文做了什么（这篇论文的重心）¶

三句话¶

本文是一篇概念/综述论文，核心贡献在于： 1. 研究了什么问题：在 target trial emulation 框架下，目标试验应该如何被指定——具体来说，是应该“绝对对齐”观察性数据，还是应该先定义一个“理想试验”作为参考，再在此基础上管理可行性？ 2. 核心工具/方法：通过数学定义 estimand 与“理想试验”两种方式的等效性，以及一个呼吸流行病学的例子（HealthNuts 研究），来展示偏倚分析。 3. 主要结论：光靠“对齐数据”的目标试验是不够的——必须明确写出理想试验的协议，并系统性地分析目标试验与理想试验之间的差异，才能全面识别和管理偏倚来源；实际随机试验也面临同样的要求。

关键设定与假设¶

本文是概念性文章，没有列出严格的数学假设。但它传递了几个关键的统计/因果假设框架：

可忽略性（Ignorability）：被主流 target trial 框架所依赖——如果基线协变量完全捕捉了混杂，则因果效应可以识别。
无干扰/一致性（SUTVA）：被隐式假设——一个人的处理不影响另一个人的结果。
理想试验的完美性：理想试验的定义隐含了它不受任何偏倚（选择、测量、不依从、失访）的影响——这本身是一个理想化假设，不可能实现。
目标试验与理想试验的可比性：这是论文的核心论点——只要两者定义不同，就一定有偏倚来源。
多方面的来源可分解：本文的贡献之一就是指出偏倚不能被简单归因于“混杂”或“选择”——通过将理想试验、目标试验、实际 RCT 并排放置在表格中，可以系统性地分解偏倚来源。

相比已有文献：Hernán 等人（主流）的框架隐含了一个假设——只要认真对齐数据，偏倚来源就只剩“残留混杂”。本文挑战这个假设，指出这个结论只对相对于那个“对齐了数据的目标试验”而言成立。

主要结果¶

本文不是定理型论文，没有数值结果。它的核心贡献是一个框架性结论和一个表格（Table 1）。

Table 1（核心结果）：一个“理想试验 vs. 目标试验”的协议对比表。以 HealthNuts 队列中的一个研究问题（“WHO 推荐的纯母乳喂养 6 个月对哮喘的影响”）为例，该表列出：
目标总体、入组标准、处理、对比、结局、时间零点、因果对比（ITT/PP）、随访
分别有三栏：理想试验、全对齐目标试验、部分对齐目标试验
通过列出每一栏的差异，系统性标出偏倚来源
- 例如：理想试验的入组标准是“所有能母乳喂养的新生儿”，但全对齐目标试验只能用在数据中已有母乳喂养记录的儿童（引入 selection bias）。
- 全对齐目标试验要求“完全对齐数据”，导致它不得不偏倚地模拟“理想试验”的处理定义（如用“母乳喂养状态发生变化”来等效为“被分配继续母乳喂养”）。
关键推论：
偏倚不限于“基线混杂”：即使完美模拟了全对齐的目标试验，相对于理想试验的 estimand，仍可能有 selection bias（因为入组标准）、measurement bias（因为处理定义不同）等。
实际 RCT 也适用：文章指出，实际随机试验同样需要审视它与理想试验的差异——RCT 的入排标准、不依从、失访、测量误差等都会制造同样的偏倚。Lodi et al. (2019) [10] 的“harmonized protocol”方法本质上是将 RCT 与 emulation 对齐，但它们的参考点依然是实际 RCT，而非理想试验。
理想试验应当作为“元参考”：所有研究（RCT 与观察性）都只有通过与理想试验比较，才能全面判断其有效性。

证明路线与技术分析¶

本文没有数学证明。它的论证路线可以分解为 3 步：

前提建立：定义了并行定义 estimand 的两种方式——数学公式或等价地通过理想试验。两者是等价的（因为前者可以指定 counterfactual 均值，后者通过一个假想完美的 RCT 给出同一个定义）。
问题陈述：指出主流 target trial 框架偏离了理想试验——它在“对齐数据”时，实际上定义了一个与理想试验不同的 estimand。这意味着即使完美模拟，也只能估计出目标试验的 estimand，而不是研究问题的 estimand。作者引用 Westreich et al. (2018) 的“target validity”概念作为支撑，但也明确——Westreich 的框架将 target validity 定义为“对目标总体的有效性”，但本文指出即使这一点也可能因为目标试验与理想试验的不一致而受损。
提出解决方案与例子：用 HealthNuts 例子展示如何构造一个理想试验的协议，然后逐个标出它和目标试验在各个组建上的差异（Table 1），最后得出“理想试验是偏倚分析的锚点”这一核心结论。

真实例子与应用¶

必讲：HealthNuts 队列研究。这是一个澳大利亚的纵向出生队列，跟踪 3000 多名儿童，研究过敏性疾病。该研究的一个具体问题是“遵循 WHO 的纯母乳喂养 6 个月指南是否降低了 6 岁时的哮喘风险”。

怎么用本文方法：作者不是用数据做检验，而是构造了一个表格，把同一个因果问题分别用理想试验、全对齐目标试验、部分对齐目标试验的协议写出来。比如：
理想试验的处理定义：随机分配到纯母乳喂养组 vs. “不纯母乳喂养”组（WHO 指南定义）。
全对齐目标试验：（受限于数据只能观测到“是否开始母乳喂养并坚持”）将处理定义为“经产妇报告的喂养方式”——这显然与 WHO 指南不同（处理定义的 measurement bias）。
例子中明确指出：如果只用“全对齐”的方法，研究者可能误以为“模拟得很忠贞”，但实际相对于理想试验已经有了偏倚（如那些被排除的“无法母乳喂养”的儿童）。
结果：这个例子说明了即使严格按照 target trial 框架操作，如果不考虑理想试验，研究结论（是否母乳喂养可预防哮喘）的偏倚仍然可能很大。
这个例子想说明：可行性（与数据对齐）不能以牺牲相关性（定义正确的 estimand）为代价。 作者引用 Moreno-Betancur (2020) 的观点——理想试验是强有力的工具，应当成为显式参考点。

🔎 结论是否比证明窄？¶

有明确收缩的地方： - 作者很诚实地声明：他们提供的不是“如何编写理想试验协议”的算法或数学工具，而是一个“应然”的框架——研究者必须有意识地做这件事。论文没有给出可量化的“偏倚容忍度”，也没有给出自动化的偏倚检测程序。 - 在作者自己举的例子中，他们没有尝试实际估计偏倚的大小（例如“由于入组标准不一致，ATEE 的偏倚是多少？”），而只是定性标出差异。这为后续的工作留下了空间。 - 作者的观点集中在“目标试验的选择偏倚”和“RCT 的选择偏倚”之间的平行性上，但较少讨论如何量化这一偏倚——例如，通过敏感性分析或通过 benchmark 方法。文章引用 Lodi et al. (2019) 的方向是一致的，但并未深入。

四、开放问题¶

下面列出本文留下的开放问题，扎根在具体语句中。

如何量化“理想 vs. 目标”之间的偏倚？ 本文只在 Table 1 中定性地列出差异，但没有给出一个数学框架来量化“由于目标试验与理想试验的不一致而导致的 estimand 偏差”。【扎根于：“...the ideal trial does not have an explicit effect on the final estimate... specifically, we cannot calculate the bias introduced by this discrepancy without additional assumptions.” (原文对应 table 1 的文字部分)】
“理想试验”本身可能无法实现——如何统一处理“共识性”的理想与“可行性”的目标？ 文章建议写一个理想试验协议，但有些理想特征（如无失访、完美依从、代表性样本）不可能同时成立。应该生成一个单一的理想试验，还是多个，以展示多方面的矛盾？【扎根于：作者在 cover letter 中提到了“理想试验可能无法完全实现”，但在主文中未深入讨论如何处理这种“矛盾性”。】
有没有自动化的方法来自动发现“全对齐 vs. 理想”的偏倚来源？ 当前方法依赖领域知识的专家判断来比较 Table 1 中的两栏。能否开发一个算法，从数据本身推断“数据代表的总体到底偏离理想总体多少”？【扎根于：Table 1 的定性性质。】
本文的观点是否适用于更复杂的 causal estimands？ 本文集中在简单的 ATE。当目标 estimand 是长期存活分析、多重暴露、复杂截尾等问题时，理想试验的定义可能极其复杂甚至无法被合理写出。框架的扩展能力是否面临边界？ 【扎根于：即使本文的多列例子已经只用了“ 单点处理, 连续结果”。】

提醒一句：上面第 1-3 点属于共识性 gap（很多近期 emulation 的 intro 都在提出类似的问题）；第 4 点是一个结构性张力——认为“理想试验”会逐步演变成“无法定义”的极限。这是否为真 gap，需要去读近期 TTE 方向的 3-5 篇 intro。

Maintained by 陈星宇 · Homepage · Source on GitHub