Keynote¶

讲者: James M. Robins
来源: University of Cambridge
日期: 2026-06
主题: 因果推断
视频: https://www.youtube.com/watch?v=9qSjwIOpvZw

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

核心追问：如何利用观测数据（如电子健康记录）系统性地模拟（emulate）一个理想的随机对照试验（RCT），从而估计随时间变化的治疗（time-varying treatment）的因果效应？这些估计应当在何种统计模型框架下进行，以保证参数的可解释性与模型的内部一致性？
子方向定位：这场报告属于「因果推断中的观测数据研究设计」与「纵向数据的因果模型」的交汇处。该领域试图回答：当人们因伦理或成本原因无法做 RCT 时，如何把观测数据“当作”一个（系列）靶向试验的随机化数据来使用。
奠基与主流路线：
- G 公式 (G-computation formula) —— Robins (1986)：通过条件分布公式直接计算反事实均值，但要求对高维协变量的条件分布建模，计算复杂且在模型误设时偏倚大。
- 逆概率加权 (IPW) —— Robins, Hernán & Brumback (2000)：通过倾向性得分加权调整时依混杂因子，常见于边缘结构模型（Marginal Structural Models, MSMs）的应用。
- 结构嵌套模型 (Structural Nested Mean Models, SNMMs) —— Robins (1989, 1994)：直接对“当前治疗”的对比效应（blip effect）进行参数化建模，递归地从观测数据中“剥离”治疗效应，从而恢复反事实结果。这一模型具备自然的内部一致性与变差独立（variation independence）特性。
- 双重稳健估计 (Doubly Robust Estimation) —— Robins, Rotnitzky & van der Laan (1994); Bang & Robins (2005)：结合了倾向性得分模型与结果回归模型，只要其中一个正确，估计就是一致的，提供了对误设的更高容错性。
当前 frontier 与报告位置：
- 主流实践层：Miguel Hernán 团队自 2016 年（Hernán & Robins, 2016 的文章）起大力推广“靶向试验模拟”（Target Trial Emulation, TTE）。它已成为疫情期间（如 COVID-19 治疗效应的评估）乃至日常医学决策中产出大量实证论文的标准框架。其具体实践包括：定义试验的 eligibility、处理 arms（例如“连续用药 vs. 永不用药”）、通过信息审查 + 逆概率截尾加权（IPCW）处理受试者偏离指定治疗策略的问题。
- 理论与统一化层：Robins 在本报告中的核心工作是将「靶向试验模拟」的实践框架，重新识别为一个特定但自然的结构嵌套模型（SNMM）。具体来说，他强调，实践中常用的治疗臂（如“永远用药 vs. 永不治疗”）其实可以视作一个动态治疗规则（dynamic regime）——“do what you did last time”（永远跟随上一时刻自己的实际治疗值）。当你写下这个规则的 blip effect（即该规则下，与不遵循该规则的反事实差），你发现它正是 TTE 所估计的因果对比。这一重新识别具有以下影响：
  1. 内部一致性（Insight 1）：由于 SNMM 的所有参数间存在天然的变差独立性（variation independence），这意味着不同治疗起始时间 T 所对应的因果参数不会互相矛盾。例如，不会出现“治疗于时间点 3 启动效应为 +16，而治疗于时间点 4 启动效应为 -18”的逻辑矛盾（即 over-parameterization 问题）。这解决了 Robins 本人最初对该框架（约 2005 年）时是否“coherent”的担忧。
  2. 效率改进（Insight 2）：传统的 TTE 通过审查（censoring）来处理不符合指定治疗策略的个体，这浪费了大量数据。SNMM 的递归结构允许一个更高效的“反事实搬运”策略：对于在后续时间点背离指定治疗规则的个体，不必丢弃（审查掉）他们的数据，而可以利用先前估计得到的 blip effect 直接对他们的观测结局 Y 进行“矫正”（correction），将他们反向带回到遵循规则的“反事实路径”上，依旧参与分析。理论上，这避免了数据的浪费，有望极大提升估计效率（尤其在高维数据中）。
  3. 保护性（Insight 3）：即使在建模实践上，出于处理高维历史的实际困难（无人真正会去控制全部历史），人们退而使用有限的马尔可夫历史（如只控制最近 3 个时间点的协变量），但只要“底层的”SNM 模型是设定完整的，这种简化的混合过程（因为不同起始时间 T 的不同限定历史会“汇总”参数）并不会导致模型不兼容。但，效率改进背后有代价：由于递归地使用之前时间点估计的 blip 参数来“矫正”后续时间点的 Y，若这些 blip 函数本身被严重误设，则这种误设误差会向前传播，反而可能比带有审查的传统方式产生更大偏误。Robins 直言，这并不意味着我们应该改变当下的分析方式——即使我们知道了其效率损失。

二、最小内核 / 一个最简例子¶

符号与可观测数据（两个时间点，结局在最后一个时间点测量）：

时间点：0, 1, 2（结局在时间点 2 测量 Y）。
可观测数据：每个个体 i 的轨迹为 \((\bar{A}_2, \bar{L}_2, Y)\)。
- \(A_t\)：在时间 t 的治疗（二值，0/1）。
- \(L_t\)：在时间 t 测量得到的时变协变量（例如血糖水平、体重）。
- \(Y\)：最终结局（例如视网膜病变评分，值越大越差）。
- 定义 \(H_t = (\bar{A}_{t-1}, \bar{L}_t)\) 为在治疗 \(A_t\) 前的所有历史（\(\bar{A}_{t-1} = (A_0, \ldots, A_{t-1})\)）。
目标参数（Estimand）：在时间 0 启动“永远治疗”策略（regime \(g\): \(A_0 = 1, A_1 = 1\)）与“永远不治疗”策略（\(A_0 = 0, A_1 = 0\)）之间的因果效应对比。
- \(\psi = \mathbb{E}[Y^{(1,1)}] - \mathbb{E}[Y^{(0,0)}]\)。其中 \(Y^{(a_0,a_1)}\) 是反事实结局。

核心模型——“Do-What-You-Did-Last-Time” 规则（这是 Robins 的关键洞见）：

考虑一个动态治疗规则 \(g\)：“在时间 t，治疗分配等于上一时刻的你实际使用的治疗”。 - 对时间 1 (\(t=1\))：你的历史 \(H_1\) 已经包含了 \(A_0\)。这个规则告诉你“取 \(A_1^d = A_0\)”。 - 对时间 0 (\(t=0\))：没有“上一时刻”，所以规则指定一个固定值。在“永远治疗”实例中，固定 \(A_0^d = 1\)；在“永远不治疗”的实例中（\(A_0^d = 0\)）。这是为了可以构造出与“永远治疗 vs 永不治疗”对比一致的贝叶斯框架。

SnMM 的 Blip 函数（核心思想）：定义一个blip (或叫 treatment effect component) 函数 \(\gamma_t(H_t, a_t; \beta)\)，它量化了“在历史 \(H_t\) 下，此刻使用治疗 \(a_t\) 并在之后最优地（或按规则 g）行事，与此刻不使用治疗并使用规则 g，期望结局的差异”。

对于时间 1 (\(t=1\))：
- \(\gamma_1(H_1, a_1=1; \beta) = \mathbb{E}[Y^{(a_0, 1)} - Y^{(a_0, 0)} | H_1]\)。即给定 \(H_1\)（包含 \(A_0\)），在时间 1 使用一次治疗的效果。
对于时间 0 (\(t=0\))：
- 此时的“规则 g”指定了 \(A_1 = A_0\)。
- \(\gamma_0(H_0, a_0=1; \beta) = \mathbb{E}[Y^{(1, A_1^d=1)} - Y^{(0, A_1^d=0)} | H_0]\)。即给定 \(H_0 = L_0\)，在时间 0 启动“一直用”或“一直不用”的长期策略的差异。（细节上，因为 \(A_1^d = A_0\)，所以第一个反事实是 \((1,1)\) 路径，第二个是 \((0,0)\) 路径）。这正是我们目标因果参数的一个条件版本。

估计与递归（如何不用审查，且只用均值）：

向后递推：从最后一个治疗时间点（\(t=1\)）开始。识别 \(\gamma_1(H_1, a_1=1; \beta)\)。在顺序条件可忽略（Sequential Ignorability）假设下，\(\gamma_1\) 可以通过标准回归或双重稳健方法被一致估计，因为它等价于给定 \(H_1\) 时，在 \(A_1=1\) 和 \(A_1=0\) 两组观测结局的差异。
“搬”人：对每一个在数据中实际遵循了治疗臂 1（即 \(A_1=1\)）的人，如果我们想模拟他们如果没吃这顿药（但继续之前的时间 0 决策）会怎样，我们就从他的观测结局 Y 中减去估计出的 \(\gamma_1(H_1, a_1=1)\)。反之，如果有人没吃（\(A_1=0\)），并遵循规则，则不动（因为其对效应没有贡献）。我们定义一个新“伪结局”：
- \(Y^*(H_1) = Y - \hat{\gamma}_1(H_1, A_1) \cdot \mathbb{1}(A_1 \neq g_1(H_1))\)。（这里 \(g_1(H_1) = A_0\)）。如果一个人遵循了规则（即 \(A_1 = A_0\)），矫正项为零；如果“规则要求治疗，而实际上未治疗”，则需加上 \(\gamma_1\)（或用更通用的逆向推导）。这个新变量 \(Y^*\) 不依赖于时间 1 的决策。
评估初始时间 0 效应：我们现在只剩下需要评估时间 0 的治疗效果。所有个体现在都有了一个与 \(A_1\) 无关的新结局 \(Y^*_i\)。我们只需比较基线 \(A_0=1\) 和 \(A_0=0\) 组的 \(Y^*\) 的均值（或在给定 \(L_0\) 下的条件均值），就可以得到 \(\psi\) 的估计。最关键的是：我们未曾丢弃任何不遵循规则的个体（即虽然 \(A_1=1\) 但 \(A_0=0\) 的人），而是用 \(\gamma_1\) 把他们的结局数值平移到了他们“假如遵循策略”下会有的数值。这正是比传统的 IPCW 方法更高效的核心机制。

这个双时间点例子清晰地表明，SNMM 的递归“搬人”无需审查每个人，并通过平均而不是建模 L 的分布来规避维数灾难。

三、报告主体：讲者讲了什么¶

[0:00-0:05] 引言与开场 - 讲者（James Robins）被盛赞为因果推断的奠基人，贡献包括 G-formula、结构嵌套模型（SNM）、边缘结构模型（MSM）、双重稳健估计、SWIGs、高阶影响函数等。 - 原定大演讲题“40 年因果推断：曾祖父的汇报”，但因——[0:02:46] 讲者临时修改主题，更聚焦于靶向试验模拟（Target Trial Emulation），并认为这才是他真正想讲的内容。 - 他反复提及一个比喻：把 SNMM 比作他“最初美丽的孩子”，而靶向试验则是一个他“一度嫌弃其脏污丑陋的弃儿”。直到 16 年后，他才发现这个肮脏的孩子其实就是他美丽的亲生子——靶向试验就是 SNMM 的另一种表达。

[0:08:18-0:10:05] 靶向试验的定义与两个具体案例 - 定义：一个靶向试验描述了我们希望进行的理想 RCT，但由于伦理、财务等原因无法实施。目标是利用观测数据来“模拟”它。 - 具体案例：Ozempic 治疗对糖尿病视网膜病变（0-100 量表，高值差）的影响。 - 试验 1 (Treat 1 Year)：在起始时间 T 开始服用Ozempic 一年，此后永不服用。 - 试验 2 (Treat Continuously)：在 T 开始始终服用，永不停止。 - 符号：\(T\) 为随机化时间（相对 2020/01/01 的年份）；\(A_t\) 为 t 时间服用状态 (0/1)；\(L_t\) 为时变协变量；\(Y_k\) 为结局；\(H_t\) 为 t 之前的全历史。 - 因果对比：条件性效应（对比历史 H 下的接受与不接受）。

[0:10:50-0:12:30] 关键问题：如何处理不遵从指定治疗策略的个体 - 在靶向试验框架下，一个核心操作是审查（Censoring）那些未遵循指定策略（如“不一定用药”的却在第二年停药）的个体，再通过 IPCW 为继续遵循的个体赋予权重，来模拟如果所有人都坚持治疗会怎样。这是当时几乎所有靶向试验论文的处理方式。

[0:14:35-0:17:20] 揭示“靶向试验模拟”和“结构嵌套模型”的统一性 - 讲者指出：“永远治疗 vs 永不治疗”这种最普遍的做法，实际上对应一个简单的动态治疗规则 \(G\)：Do what you did last time (做你上次做的事)。 - 如果以 \(t=0\) 起始，上一时刻为负，于是我们人为设定恒定策略（“从 T 开始，始终服用” vs “永不服用”），但这两种特例都可被一个特殊规则囊括。 - 落入 SNM 框架后，得到的一个重大收益是变差独立性 (variation independence)。 - 不同起始时间 \(T\) 的靶向试验估计的是同一个因果模型的不同参数。 - 如果过度参数化（over parameterization），例如，一个参数告诉你起始时间 3 治疗是益（+16），而起始时间 4 则是害（-18），用早期 IPCW 方法你无法知道哪个该信。但在 SNM 中，由于这是同一个结构模型的两个变差独立的分量，这种内部矛盾不可能发生。Robin 认为这是解决了框架最初的最大担忧（[0:33:00] 提到的“我是担心的”）。

[0:22:50-0:38:00] 理论核心：作为 SNM 的靶向试验估计量 - 反向递推估计 (Recursive Backwards Estimation)： 1. 从最后一个治疗时间点 \(t=K\) 开始。（报告假设总时间 K=21，结局在 K+1）。 2. 识别所谓的“blip 效应”（\(Y^{(a_K=1)} - Y^{(a_K=0)}\) ）。在可忽略性假设下，它可以通过直接的回归（或双重稳健方法）由观测数据估计出。 3. 关键的递推：得到 \(t=K\) 的 blip 效应后，讲者定义一个伪结局（modified outcome）\(U_g\)。对每个个体，如果他们实际治疗 \(a_t\) 不匹配策略要求的 \(g(h_t)\)，则减去该 blip 效应，把结局“搬上”反事实路径。对匹配的，则保留原结局。 4. 使用这个新的 \(U_g\)，向下一个时间点 \(t=K-1\) 重复：基于新的“反事实结局”与当前历史，再估计修正版 blip，并进一步矫正结局。 5. 最后回到 \(t=0\)，得到完全反事实路径下的结局 \(U_g\) 的平均差异，即目标因果对比。 - 效率来源：传统 IPCW 在某人偏离指定策略的时刻立即将其审查，丧失了这些数据。SNM 方法则“把偏离策略的人通过修正结局数值‘拉回到’正轨”，保留所有数据点（[0:23:46]：'We use everybody in the trial, every bit of their data'）。这会带来显著效率提升。

[0:45:00-0:52:00] 主要结论与权衡 - 优势：效率更高；框架自带相干性（变差独立）；可在更细的粒度上做等价测试（如检验所有 blip 效应）。 - 关键权衡： - 模型误设下的性能（[0:52:00-0:53:20]）：递归地纠正结局会把早期时间点估计的模型误设误差向前传播（propagation of errors）。如果你在时间点 K 错误估计了 blip 效应，那么它对所有人赋值的伪结局就错了，而这又会影响到对所有 K-1 及更往前效应的估计。 - 相比，老的基于 IPCW 的方法（一次审查，一次权重）对该时间点的误设较为隔离，不会影响其他时间点。在模拟中，虽然新方法更高效，但一旦模型误设，它带来的偏差更大。 - 结论：尽管我们现在知道旧方法的低效，鉴于误设风险，这不意味着应该改变当前的分析方式。这是一个典型的 Bias-Variance 与 robustness 之间的 trade-off。

[0:53:30-0:59:56] 简洁的计算例子 (2 个时间点 + 治疗臂树状图) - 汇报者以时间点为 0、1、结局时间点 2 为例，演示了两类个体的数据流动（完全遵循 vs. 不遵循）。 - 例子量化了“搬人”步骤：例子中，在某一历史上，服药的人 Y=12，不服药的人 Y=9，因此 blip 效应是+3。在时间点1，策略要求服用，但有人实际没服用（即 \(Y=9\)），我们就把他的Y从9调整为12（加上3），这样他就能和遵循策略的人员一起进入下一层期望的估计。

[1:00:00-1:07:50] Q&A 环节议题 - 问（关于模型在零假设下的保护性）：如果整个模型错误，特别是设置不同对比时效应在同质假设下会怎样？ - 答：这是SNM的巨大优点：零假设对应于全局无因果效应。如果你的blip函数都为零（null），那么即使你用错的模型测试，它也会保障第一类错误率（alpha level），因为你的模型完全正确（未设非零参数）。这仅能发生在对立假设下，这一特性具有类似双重稳健性的保护，也测试了没有任何单一反事实策略有差异的强零假设（因为所有动态策略的平均差为零）。 - 问（关于变差依赖性的有用性）：有没有时变依赖参数结构的场景这种变化依赖性是有用的（例如，嵌套马尔可夫模型中）? - 答：不确定是否总是能重新参数化为变差独立格式，这仍然是统计建模中的一个有意思的开放问题。

四、对应论文与开放问题¶

(a) 对应论文¶

本报告是一次对已有工作线的总结、反思和理论统一，没有明确点出一篇独立的单一论文。但根据内容和语境，可对应以下关键文献（全部需要参照核对）：

靶向试验模拟的方法论文奠基：
- Hernán MA, et al. Specifying a target trial prevents immortal time bias and other self-inflicted injuries in observational analyses. J Clin Epidemiol. 2016 Nov;79:70-75. (Hernán 的首篇靶向试验方法论文章，可能是转写中提及的“2016 年主要论文”)。
- Hernán MA, Robins JM. Causal Inference: What If. 2020/2023. 该书第九章全面介绍了靶向试验模拟。
结构嵌套模型 (SNM) 的标准理论：
- Robins JM. Correcting for non-compliance in randomized trials using structural nested mean models. Communications in Statistics-Theory and Methods. 1994;23(8):2379-2412. (SNM的基础论文)
- Robins JM. A new approach to causal inference in mortality studies with a sustained exposure period---application to control of the healthy worker survivor effect. Mathematical Modelling. 1986;7(9-12):1393-1512. (G-formula 和 SNM 的早期来源)。
将靶向试验与 SNM 统一（报告核心）：
- 转写中未给出具体 arXiv/合作者。考虑到 Robins 提到讲稿用了 ChatGPT 生成了部分（可能有误），这很可能是他将要在 2024/2025 年左右写成的某个笔记或论文的一部分。最关键的合作者可能包括 Larry Han (UVA) 或 Eric Tchetgen Tchetgen (Wharton，转写中提到）。请在 YouTube 评论或后续讲者预印本中搜索相关标题，如：“Structural Nested Mean Model Representation of Target Trial Emulation” 或类似标题。（转写中, [0:57:00] 提到 “Matt and I”。Matt 指 Matt Sperrin，英统计学家，已故，同事，所以可能给出一个论文草稿。）

(b) 开放问题（扎根于转写）¶

顺递误差 vs. 谨慎建模的宏观指导（[0:52:00-0:53:20]）：当使用高阶递推的 SNM 方法时，早期时间点模型的误设会向前传播，造成后期估计的偏倚。该导报提出一个宏观实践原则：这不意味着我们应该弃用当前的低效方法。是否存在一个理论上的联邦准则或数据驱动的方法，可以在特定数据集上量化这两个方法的偏倚-方差权衡，从而在“高增益（如果模型都正确）”与“被传播的误设（如果错了）”之间做出明智选择？这本质上是一个鲁棒性与效率的决策理论问题。
有限/马尔可夫历史下的变差独立性存疑（[0:28:30-0:30:25]）：为了应对高维协变量，你不会完全控制全部过去历史。你可能只会控制最近MODEL 3个时间点的协变量（马尔可夫假设）。但 Robins声称，只要你“深层”的SNM是定义在有完整递推上的，这种简约化的对协变量集的取子集的估计依然不会产生不相容。然而，这个过程并非标准G-计算中的鞅表示。其具体的辛空间和相应方差形式（当你混总了不同初始时间点的历史时），这仍是一个未完全理论化的领域。特别是对不同马尔可夫阶数与因果对比的参数形式如何交互，尚有学问。
非二元治疗的推广（未明说但传统）：整场报告基于治疗A是二元的。如果将SNM框架扩展到多范畴连续治疗或复杂多治疗时序，靶向试验的“搬人”策略的因果算法如何设计？效率增益和误差传播特性又分别如何？
靶向试验作为“假阳性”(Test of global null)的风险（[1:01:00-1:02:30]）：报告中已经指出，由于SNM的blip函数在零假设下自然全为零（模型设定正确，因零是真实值的特例），可以保护 I 型错误率。但一个隐含的假设是，用于估计blip的两组、或者模型所采用的属性之间不存在已识别的变异性。如果估算blip的数学模型错误到一定程度，以至于在真实效应为零时，但模型强加了与数据不符的交互项（如高次项），这种自动的“type I 控制”是否不再成立？在非实验数据中，零假设保护性的边界和强度，是一个待解的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub