Keynote¶
讲者: James M. Robins
来源: University of Cambridge
日期: 2026-06
主题: 因果推断
视频: https://www.youtube.com/watch?v=9qSjwIOpvZw
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
-
核心追问:如何利用观测数据(如电子健康记录)系统性地模拟(emulate)一个理想的随机对照试验(RCT),从而估计随时间变化的治疗(time-varying treatment)的因果效应?这些估计应当在何种统计模型框架下进行,以保证参数的可解释性与模型的内部一致性?
-
子方向定位:这场报告属于「因果推断中的观测数据研究设计」与「纵向数据的因果模型」的交汇处。该领域试图回答:当人们因伦理或成本原因无法做 RCT 时,如何把观测数据“当作”一个(系列)靶向试验的随机化数据来使用。
-
奠基与主流路线:
- G 公式 (G-computation formula) —— Robins (1986):通过条件分布公式直接计算反事实均值,但要求对高维协变量的条件分布建模,计算复杂且在模型误设时偏倚大。
- 逆概率加权 (IPW) —— Robins, Hernán & Brumback (2000):通过倾向性得分加权调整时依混杂因子,常见于边缘结构模型(Marginal Structural Models, MSMs)的应用。
- 结构嵌套模型 (Structural Nested Mean Models, SNMMs) —— Robins (1989, 1994):直接对“当前治疗”的对比效应(blip effect)进行参数化建模,递归地从观测数据中“剥离”治疗效应,从而恢复反事实结果。这一模型具备自然的内部一致性与变差独立(variation independence)特性。
- 双重稳健估计 (Doubly Robust Estimation) —— Robins, Rotnitzky & van der Laan (1994); Bang & Robins (2005):结合了倾向性得分模型与结果回归模型,只要其中一个正确,估计就是一致的,提供了对误设的更高容错性。
-
当前 frontier 与报告位置:
- 主流实践层:Miguel Hernán 团队自 2016 年(Hernán & Robins, 2016 的文章)起大力推广“靶向试验模拟”(Target Trial Emulation, TTE)。它已成为疫情期间(如 COVID-19 治疗效应的评估)乃至日常医学决策中产出大量实证论文的标准框架。其具体实践包括:定义试验的 eligibility、处理 arms(例如“连续用药 vs. 永不用药”)、通过信息审查 + 逆概率截尾加权(IPCW)处理受试者偏离指定治疗策略的问题。
- 理论与统一化层:Robins 在本报告中的核心工作是将「靶向试验模拟」的实践框架,重新识别为一个特定但自然的结构嵌套模型(SNMM)。具体来说,他强调,实践中常用的治疗臂(如“永远用药 vs. 永不治疗”)其实可以视作一个动态治疗规则(dynamic regime)——“do what you did last time”(永远跟随上一时刻自己的实际治疗值)。当你写下这个规则的 blip effect(即该规则下,与不遵循该规则的反事实差),你发现它正是 TTE 所估计的因果对比。这一重新识别具有以下影响:
- 内部一致性(Insight 1):由于 SNMM 的所有参数间存在天然的变差独立性(variation independence),这意味着不同治疗起始时间 T 所对应的因果参数不会互相矛盾。例如,不会出现“治疗于时间点 3 启动效应为 +16,而治疗于时间点 4 启动效应为 -18”的逻辑矛盾(即 over-parameterization 问题)。这解决了 Robins 本人最初对该框架(约 2005 年)时是否“coherent”的担忧。
- 效率改进(Insight 2):传统的 TTE 通过审查(censoring)来处理不符合指定治疗策略的个体,这浪费了大量数据。SNMM 的递归结构允许一个更高效的“反事实搬运”策略:对于在后续时间点背离指定治疗规则的个体,不必丢弃(审查掉)他们的数据,而可以利用先前估计得到的 blip effect 直接对他们的观测结局 Y 进行“矫正”(correction),将他们反向带回到遵循规则的“反事实路径”上,依旧参与分析。理论上,这避免了数据的浪费,有望极大提升估计效率(尤其在高维数据中)。
- 保护性(Insight 3):即使在建模实践上,出于处理高维历史的实际困难(无人真正会去控制全部历史),人们退而使用有限的马尔可夫历史(如只控制最近 3 个时间点的协变量),但只要“底层的”SNM 模型是设定完整的,这种简化的混合过程(因为不同起始时间 T 的不同限定历史会“汇总”参数)并不会导致模型不兼容。但,效率改进背后有代价:由于递归地使用之前时间点估计的 blip 参数来“矫正”后续时间点的 Y,若这些 blip 函数本身被严重误设,则这种误设误差会向前传播,反而可能比带有审查的传统方式产生更大偏误。Robins 直言,这并不意味着我们应该改变当下的分析方式——即使我们知道了其效率损失。
二、最小内核 / 一个最简例子¶
符号与可观测数据(两个时间点,结局在最后一个时间点测量):
- 时间点:0, 1, 2(结局在时间点 2 测量 Y)。
- 可观测数据:每个个体 i 的轨迹为 \((\bar{A}_2, \bar{L}_2, Y)\)。
- \(A_t\):在时间 t 的治疗(二值,0/1)。
- \(L_t\):在时间 t 测量得到的时变协变量(例如血糖水平、体重)。
- \(Y\):最终结局(例如视网膜病变评分,值越大越差)。
- 定义 \(H_t = (\bar{A}_{t-1}, \bar{L}_t)\) 为在治疗 \(A_t\) 前的所有历史(\(\bar{A}_{t-1} = (A_0, \ldots, A_{t-1})\))。
- 目标参数(Estimand):在时间 0 启动“永远治疗”策略(regime \(g\): \(A_0 = 1, A_1 = 1\))与“永远不治疗”策略(\(A_0 = 0, A_1 = 0\))之间的因果效应对比。
- \(\psi = \mathbb{E}[Y^{(1,1)}] - \mathbb{E}[Y^{(0,0)}]\)。其中 \(Y^{(a_0,a_1)}\) 是反事实结局。
核心模型——“Do-What-You-Did-Last-Time” 规则(这是 Robins 的关键洞见):
考虑一个动态治疗规则 \(g\):“在时间 t,治疗分配等于上一时刻的你实际使用的治疗”。 - 对时间 1 (\(t=1\)):你的历史 \(H_1\) 已经包含了 \(A_0\)。这个规则告诉你“取 \(A_1^d = A_0\)”。 - 对时间 0 (\(t=0\)):没有“上一时刻”,所以规则指定一个固定值。在“永远治疗”实例中,固定 \(A_0^d = 1\);在“永远不治疗”的实例中(\(A_0^d = 0\))。这是为了可以构造出与“永远治疗 vs 永不治疗”对比一致的贝叶斯框架。
SnMM 的 Blip 函数(核心思想): 定义一个blip (或叫 treatment effect component) 函数 \(\gamma_t(H_t, a_t; \beta)\),它量化了“在历史 \(H_t\) 下,此刻使用治疗 \(a_t\) 并在之后最优地(或按规则 g)行事,与此刻不使用治疗并使用规则 g,期望结局的差异”。
- 对于时间 1 (\(t=1\)):
- \(\gamma_1(H_1, a_1=1; \beta) = \mathbb{E}[Y^{(a_0, 1)} - Y^{(a_0, 0)} | H_1]\)。即给定 \(H_1\)(包含 \(A_0\)),在时间 1 使用一次治疗的效果。
- 对于时间 0 (\(t=0\)):
- 此时的“规则 g”指定了 \(A_1 = A_0\)。
- \(\gamma_0(H_0, a_0=1; \beta) = \mathbb{E}[Y^{(1, A_1^d=1)} - Y^{(0, A_1^d=0)} | H_0]\)。即给定 \(H_0 = L_0\),在时间 0 启动“一直用”或“一直不用”的长期策略的差异。(细节上,因为 \(A_1^d = A_0\),所以第一个反事实是 \((1,1)\) 路径,第二个是 \((0,0)\) 路径)。这正是我们目标因果参数的一个条件版本。
估计与递归(如何不用审查,且只用均值):
-
向后递推:从最后一个治疗时间点(\(t=1\))开始。识别 \(\gamma_1(H_1, a_1=1; \beta)\)。在顺序条件可忽略(Sequential Ignorability)假设下,\(\gamma_1\) 可以通过标准回归或双重稳健方法被一致估计,因为它等价于给定 \(H_1\) 时,在 \(A_1=1\) 和 \(A_1=0\) 两组观测结局的差异。
-
“搬”人:对每一个在数据中实际遵循了治疗臂 1(即 \(A_1=1\))的人,如果我们想模拟他们如果没吃这顿药(但继续之前的时间 0 决策)会怎样,我们就从他的观测结局 Y 中减去估计出的 \(\gamma_1(H_1, a_1=1)\)。反之,如果有人没吃(\(A_1=0\)),并遵循规则,则不动(因为其对效应没有贡献)。我们定义一个新“伪结局”:
- \(Y^*(H_1) = Y - \hat{\gamma}_1(H_1, A_1) \cdot \mathbb{1}(A_1 \neq g_1(H_1))\)。(这里 \(g_1(H_1) = A_0\))。如果一个人遵循了规则(即 \(A_1 = A_0\)),矫正项为零;如果“规则要求治疗,而实际上未治疗”,则需加上 \(\gamma_1\)(或用更通用的逆向推导)。这个新变量 \(Y^*\) 不依赖于时间 1 的决策。
-
评估初始时间 0 效应:我们现在只剩下需要评估时间 0 的治疗效果。所有个体现在都有了一个与 \(A_1\) 无关的新结局 \(Y^*_i\)。我们只需比较基线 \(A_0=1\) 和 \(A_0=0\) 组的 \(Y^*\) 的均值(或在给定 \(L_0\) 下的条件均值),就可以得到 \(\psi\) 的估计。最关键的是:我们未曾丢弃任何不遵循规则的个体(即虽然 \(A_1=1\) 但 \(A_0=0\) 的人),而是用 \(\gamma_1\) 把他们的结局数值平移到了他们“假如遵循策略”下会有的数值。这正是比传统的 IPCW 方法更高效的核心机制。
这个双时间点例子清晰地表明,SNMM 的递归“搬人”无需审查每个人,并通过平均而不是建模 L 的分布来规避维数灾难。
三、报告主体:讲者讲了什么¶
[0:00-0:05] 引言与开场 - 讲者(James Robins)被盛赞为因果推断的奠基人,贡献包括 G-formula、结构嵌套模型(SNM)、边缘结构模型(MSM)、双重稳健估计、SWIGs、高阶影响函数等。 - 原定大演讲题“40 年因果推断:曾祖父的汇报”,但因——[0:02:46] 讲者临时修改主题,更聚焦于靶向试验模拟(Target Trial Emulation),并认为这才是他真正想讲的内容。 - 他反复提及一个比喻:把 SNMM 比作他“最初美丽的孩子”,而靶向试验则是一个他“一度嫌弃其脏污丑陋的弃儿”。直到 16 年后,他才发现这个肮脏的孩子其实就是他美丽的亲生子——靶向试验就是 SNMM 的另一种表达。
[0:08:18-0:10:05] 靶向试验的定义与两个具体案例 - 定义:一个靶向试验描述了我们希望进行的理想 RCT,但由于伦理、财务等原因无法实施。目标是利用观测数据来“模拟”它。 - 具体案例:Ozempic 治疗对糖尿病视网膜病变(0-100 量表,高值差)的影响。 - 试验 1 (Treat 1 Year):在起始时间 T 开始服用Ozempic 一年,此后永不服用。 - 试验 2 (Treat Continuously):在 T 开始始终服用,永不停止。 - 符号:\(T\) 为随机化时间(相对 2020/01/01 的年份);\(A_t\) 为 t 时间服用状态 (0/1);\(L_t\) 为时变协变量;\(Y_k\) 为结局;\(H_t\) 为 t 之前的全历史。 - 因果对比:条件性效应(对比历史 H 下的接受与不接受)。
[0:10:50-0:12:30] 关键问题:如何处理不遵从指定治疗策略的个体 - 在靶向试验框架下,一个核心操作是审查(Censoring)那些未遵循指定策略(如“不一定用药”的却在第二年停药)的个体,再通过 IPCW 为继续遵循的个体赋予权重,来模拟如果所有人都坚持治疗会怎样。这是当时几乎所有靶向试验论文的处理方式。
[0:14:35-0:17:20] 揭示“靶向试验模拟”和“结构嵌套模型”的统一性 - 讲者指出:“永远治疗 vs 永不治疗”这种最普遍的做法,实际上对应一个简单的动态治疗规则 \(G\):Do what you did last time (做你上次做的事)。 - 如果以 \(t=0\) 起始,上一时刻为负,于是我们人为设定恒定策略(“从 T 开始,始终服用” vs “永不服用”),但这两种特例都可被一个特殊规则囊括。 - 落入 SNM 框架后,得到的一个重大收益是变差独立性 (variation independence)。 - 不同起始时间 \(T\) 的靶向试验估计的是同一个因果模型的不同参数。 - 如果过度参数化(over parameterization),例如,一个参数告诉你起始时间 3 治疗是益(+16),而起始时间 4 则是害(-18),用早期 IPCW 方法你无法知道哪个该信。但在 SNM 中,由于这是同一个结构模型的两个变差独立的分量,这种内部矛盾不可能发生。Robin 认为这是解决了框架最初的最大担忧([0:33:00] 提到的“我是担心的”)。
[0:22:50-0:38:00] 理论核心:作为 SNM 的靶向试验估计量 - 反向递推估计 (Recursive Backwards Estimation): 1. 从最后一个治疗时间点 \(t=K\) 开始。(报告假设总时间 K=21,结局在 K+1)。 2. 识别所谓的“blip 效应”(\(Y^{(a_K=1)} - Y^{(a_K=0)}\) )。在可忽略性假设下,它可以通过直接的回归(或双重稳健方法)由观测数据估计出。 3. 关键的递推:得到 \(t=K\) 的 blip 效应后,讲者定义一个伪结局(modified outcome)\(U_g\)。对每个个体,如果他们实际治疗 \(a_t\) 不匹配策略要求的 \(g(h_t)\),则减去该 blip 效应,把结局“搬上”反事实路径。对匹配的,则保留原结局。 4. 使用这个新的 \(U_g\),向下一个时间点 \(t=K-1\) 重复:基于新的“反事实结局”与当前历史,再估计修正版 blip,并进一步矫正结局。 5. 最后回到 \(t=0\),得到完全反事实路径下的结局 \(U_g\) 的平均差异,即目标因果对比。 - 效率来源:传统 IPCW 在某人偏离指定策略的时刻立即将其审查,丧失了这些数据。SNM 方法则“把偏离策略的人通过修正结局数值‘拉回到’正轨”,保留所有数据点([0:23:46]:'We use everybody in the trial, every bit of their data')。这会带来显著效率提升。
[0:45:00-0:52:00] 主要结论与权衡 - 优势:效率更高;框架自带相干性(变差独立);可在更细的粒度上做等价测试(如检验所有 blip 效应)。 - 关键权衡: - 模型误设下的性能([0:52:00-0:53:20]):递归地纠正结局会把早期时间点估计的模型误设误差向前传播(propagation of errors)。如果你在时间点 K 错误估计了 blip 效应,那么它对所有人赋值的伪结局就错了,而这又会影响到对所有 K-1 及更往前效应的估计。 - 相比,老的基于 IPCW 的方法(一次审查,一次权重)对该时间点的误设较为隔离,不会影响其他时间点。在模拟中,虽然新方法更高效,但一旦模型误设,它带来的偏差更大。 - 结论:尽管我们现在知道旧方法的低效,鉴于误设风险,这不意味着应该改变当前的分析方式。这是一个典型的 Bias-Variance 与 robustness 之间的 trade-off。
[0:53:30-0:59:56] 简洁的计算例子 (2 个时间点 + 治疗臂树状图) - 汇报者以时间点为 0、1、结局时间点 2 为例,演示了两类个体的数据流动(完全遵循 vs. 不遵循)。 - 例子量化了“搬人”步骤:例子中,在某一历史上,服药的人 Y=12,不服药的人 Y=9,因此 blip 效应是+3。在时间点1,策略要求服用,但有人实际没服用(即 \(Y=9\)),我们就把他的Y从9调整为12(加上3),这样他就能和遵循策略的人员一起进入下一层期望的估计。
[1:00:00-1:07:50] Q&A 环节议题 - 问(关于模型在零假设下的保护性):如果整个模型错误,特别是设置不同对比时效应在同质假设下会怎样? - 答:这是SNM的巨大优点:零假设对应于全局无因果效应。如果你的blip函数都为零(null),那么即使你用错的模型测试,它也会保障第一类错误率(alpha level),因为你的模型完全正确(未设非零参数)。 这仅能发生在对立假设下,这一特性具有类似双重稳健性的保护,也测试了没有任何单一反事实策略有差异的强零假设(因为所有动态策略的平均差为零)。 - 问(关于变差依赖性的有用性):有没有时变依赖参数结构的场景这种变化依赖性是有用的(例如,嵌套马尔可夫模型中)? - 答:不确定是否总是能重新参数化为变差独立格式,这仍然是统计建模中的一个有意思的开放问题。
四、对应论文与开放问题¶
(a) 对应论文¶
本报告是一次对已有工作线的总结、反思和理论统一,没有明确点出一篇独立的单一论文。但根据内容和语境,可对应以下关键文献(全部需要参照核对):
- 靶向试验模拟的方法论文奠基:
- Hernán MA, et al. Specifying a target trial prevents immortal time bias and other self-inflicted injuries in observational analyses. J Clin Epidemiol. 2016 Nov;79:70-75. (Hernán 的首篇靶向试验方法论文章,可能是转写中提及的“2016 年主要论文”)。
- Hernán MA, Robins JM. Causal Inference: What If. 2020/2023. 该书第九章全面介绍了靶向试验模拟。
- 结构嵌套模型 (SNM) 的标准理论:
- Robins JM. Correcting for non-compliance in randomized trials using structural nested mean models. Communications in Statistics-Theory and Methods. 1994;23(8):2379-2412. (SNM的基础论文)
- Robins JM. A new approach to causal inference in mortality studies with a sustained exposure period---application to control of the healthy worker survivor effect. Mathematical Modelling. 1986;7(9-12):1393-1512. (G-formula 和 SNM 的早期来源)。
- 将靶向试验与 SNM 统一(报告核心):
- 转写中未给出具体 arXiv/合作者。考虑到 Robins 提到讲稿用了 ChatGPT 生成了部分(可能有误),这很可能是他将要在 2024/2025 年左右写成的某个笔记或论文的一部分。最关键的合作者可能包括 Larry Han (UVA) 或 Eric Tchetgen Tchetgen (Wharton, 转写中提到)。请在 YouTube 评论或后续讲者预印本中搜索相关标题,如:“Structural Nested Mean Model Representation of Target Trial Emulation” 或类似标题。(转写中, [0:57:00] 提到 “Matt and I”。Matt 指 Matt Sperrin,英统计学家,已故,同事,所以可能给出一个论文草稿。)
(b) 开放问题(扎根于转写)¶
-
顺递误差 vs. 谨慎建模的宏观指导([0:52:00-0:53:20]):当使用高阶递推的 SNM 方法时,早期时间点模型的误设会向前传播,造成后期估计的偏倚。该导报提出一个宏观实践原则:这不意味着我们应该弃用当前的低效方法。是否存在一个理论上的联邦准则或数据驱动的方法,可以在特定数据集上量化这两个方法的偏倚-方差权衡,从而在“高增益(如果模型都正确)”与“被传播的误设(如果错了)”之间做出明智选择?这本质上是一个鲁棒性与效率的决策理论问题。
-
有限/马尔可夫历史下的变差独立性存疑([0:28:30-0:30:25]):为了应对高维协变量,你不会完全控制全部过去历史。你可能只会控制最近MODEL 3个时间点的协变量(马尔可夫假设)。但 Robins声称,只要你“深层”的SNM是定义在有完整递推上的,这种简约化的对协变量集的取子集的估计依然不会产生不相容。然而,这个过程并非标准G-计算中的鞅表示。其具体的辛空间和相应方差形式(当你混总了不同初始时间点的历史时),这仍是一个未完全理论化的领域。特别是对不同马尔可夫阶数与因果对比的参数形式如何交互,尚有学问。
-
非二元治疗的推广(未明说但传统):整场报告基于治疗A是二元的。如果将SNM框架扩展到多范畴连续治疗或复杂多治疗时序,靶向试验的“搬人”策略的因果算法如何设计?效率增益和误差传播特性又分别如何?
-
靶向试验作为“假阳性”(Test of global null)的风险([1:01:00-1:02:30]):报告中已经指出,由于SNM的blip函数在零假设下自然全为零(模型设定正确,因零是真实值的特例),可以保护 I 型错误率。但一个隐含的假设是,用于估计blip的两组、或者模型所采用的属性之间不存在已识别的变异性。如果估算blip的数学模型错误到一定程度,以至于在真实效应为零时,但模型强加了与数据不符的交互项(如高次项),这种自动的“type I 控制”是否不再成立?在非实验数据中,零假设保护性的边界和强度,是一个待解的问题。
Maintained by 陈星宇 · Homepage · Source on GitHub