跳转至

Considerations for Estimating Causal Effects of Informatively Timed Treatments

作者: Arman Oganisian
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在纵向因果推断中,当处理决策的发生时间跨个体异质且具有信息性(informatively timed,即等待时间与后续处理分配及潜在结局相关)时,如何正确识别与估计序列处理对生存结局的因果效应。当前该方向的成熟度处于"问题刚被正式命名、识别框架刚被提出、但效率理论与高维/半参数估计理论尚未介入"的阶段——已有连续时间与离散时间的 g-methods 文献,但几乎都默认处理时间固定或仅由设计决定,对信息性时间结构的调整仍停留在 IPW 或贝叶斯半参数建模层面,缺乏 formal 的 minimax rate、semiparametric efficiency bound 或 debiased ML 结果。

发展脉络(history): - 奠基工作(离散时间 g-methods 与 DTR):Robins (1986, 1998) 建立了离散时间纵向因果推断的 g-formula、IPW、SNM 框架,处理时间固定、时间依赖混杂通过固定时间点的协变量调整。Hernán et al. (2008) 讨论了观察计划(observation plans)对纵向推断的影响,但主要关注观测时间而非处理决策时间本身的信息性。Zhao et al. (2022) 的 DTR 书籍系统整理了离散时间 DTR 理论,将等待时间视为潜在结局(\(T^{a_1,a_2} = W^{a_1}_1 + W^{a_1,a_2}_2\)),但未将其纳入 time-varying confounder 调整框架。 - 连续时间因果推断进展:Lok (2004, 2007) 与 Røysland (2009, 2011) 将 SNM 与 MSM 推广到连续时间,用鞅与计数过程语言处理时间依赖混杂,Ryalen et al. (2018) 在前列腺癌数据上实证了连续时间 MSM。这些工作承认处理时间连续,但未显式处理"等待时间本身是信息性混杂"的问题。 - 离散化偏差与信息性观测:Zhang et al. (2011) 指出连续过程离散观测下 SRA 可能不成立,提出 controlling-the-future 方法;Guerra et al. (2020) 与 Sun & Crawford (2023) 系统研究了离散化尺度对因果识别的影响,定义了"identification bias"并证明其即使样本量无穷也无法消除。Cook & Lawless (2019) 在多状态模型框架下处理信息性观测时间与删失。这些工作逼近了"时间本身有信息性"的问题,但聚焦于观测时间而非处理决策间的等待时间。 - 当前 frontier 与本文位置:Oganisian et al. (2022) 在贝叶斯半参数框架下首次显式建模"信息性等待时间"对生存结局的影响(AML 数据),但未给出频率学派的 g-methods 识别公式与 IPW 估计子的 formal 表达。本文(Oganisian 2024)填补这一缺口:将等待时间重新参数化为 time-varying confounder,给出离散时间 g-methods(IPW、g-formula)的识别公式与估计子,并用 synthetic examples 展示偏差方向与修正机制。

子线索聚类: 1. 连续时间因果推断(鞅 / 计数过程路线):Lok (2004), Røysland (2009, 2011), Ryalen et al. (2018)。核心:用连续时间随机过程语言重写 MSM/SNM,处理时间依赖混杂。缺口:未显式将等待时间视为混杂。 2. 离散化偏差与观测计划:Hernán et al. (2008), Zhang et al. (2011), Guerra et al. (2020), Sun & Crawford (2023)。核心:研究连续过程离散化后的识别偏差与 SRA 破坏。缺口:聚焦观测时间而非处理等待时间。 3. DTR 与信息性等待时间的贝叶斯建模:Hager et al. (2018), Oganisian et al. (2022)。核心:在 DTR 框架下将等待时间视为潜在结局,用贝叶斯半参数模型(Gamma Process)处理信息性时间与删失。缺口:缺乏频率学派 g-methods 的 formal 识别与估计理论。 4. 竞争风险下的因果识别:Young et al. (2018)。核心:在 failure-time 设定下用 counterfactual 框架定义经典竞争风险 estimand,区分 total effect 与 direct effect。本文借用其 IPW 公式处理死亡作为竞争事件。

这个方向在追问的核心问题: 1. 识别问题:当处理决策间的等待时间具有信息性时,经典 g-methods(忽略等待时间)的识别公式是否仍然有效?偏差方向与大小如何? 2. 调整策略:如何将等待时间纳入调整集,使得 SRA/positivity 在新参数化下恢复?在存在死亡与删失时如何构造 IPW 估计子? 3. 离散化与连续时间的桥接:连续时间框架下的因果识别(Røysland, Ryalen)与离散时间 g-methods 之间如何等价转换?离散化引入的 identification bias(Sun & Crawford)在等待时间作为混杂的设定下如何消除? 4. 估计与效率:现有修正方法(IPW)的效率如何?是否存在更优的 semiparametric efficient estimator?

⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为"awareness of the issue and potential solutions is lacking",将本文定位为"formalize the issue, show problems of ignoring it, and show how g-methods can adjust by viewing waiting times as time-varying confounders"。这让本文成为"命名问题 + 给出初步频率学派修正"的显然下一步。 - 被淡化的竞争路线:连续时间 MSM/SNM 路线(Røysland, Ryalen)在 intro 中被引用但未深入比较——作者选择离散时间框架,但未显式论证为何离散化比连续时间建模更优或更实用;Sun & Crawford (2023) 的 identification bias 理论被引用但未展开,作者声称"equivalent discrete-time framing"可以修正,但未给出 formal 的等价性证明。 - 明显该被引却未出现的:Robins (1986, 1998) 的经典 g-computation/IPW 论文未在 intro 直接点名(虽隐含在 g-methods 概念中);semiparametric efficiency 理论(Robins 1994, van der Vaart 1998)与 doubly robust estimation(Bang & Robins 2005)完全缺席——这意味着本文停留在 IPW 层面,未触及效率界与 DR 估计子,这恰恰是研究者可以切入的 gap。

张力: 未见明显对立引用。但存在隐含张力:Sun & Crawford (2023) 证明离散化引入的 identification bias 即使样本量无穷也无法消除,而本文声称通过将等待时间纳入调整集可以在离散时间 g-methods 下修正偏差——这两者是否矛盾取决于"identification bias"的定义是否包含等待时间的信息性。若 Sun & Crawford 的偏差源于忽略等待时间,则本文的调整可能消除之;若偏差源于更根本的离散化信息损失,则本文的修正可能不充分。这是一个值得研究者去查的高价值信号。


二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • \(j\):处理阶段(course)指标,\(j = 1, 2, \dots, J\)。本文核心例子取 \(J = 2\)
  • \(A_j\):第 \(j\) 阶段的处理分配(二值,如是否接受 anthracycline)。这是要干预的变量。
  • \(\bar{A}_j = (A_1, \dots, A_j)\):截至第 \(j\) 阶段的处理历史。
  • \(W_j\):第 \(j\) 阶段的等待时间(waiting time),即从进入第 \(j\) 阶段到做出第 \(j\) 阶段处理决策 \(A_j\) 的时间间隔。这是本文的核心新变量——被重新参数化为 time-varying confounder
  • \(W^T_j\):第 \(j\) 阶段的"真实"等待时间(潜在结局),即若无删失与死亡,个体自然等待到决策 \(A_j\) 的时间。
  • \(W^A_j\):第 \(j\) 阶段因行政/设计原因提前触发决策的等待时间。
  • \(C_j\):第 \(j\) 阶段的删失等待时间(如失访)。
  • \(D_j\):第 \(j\) 阶段的死亡指示变量(\(D_j = 1\) 表示在第 \(j\) 阶段等待期间死亡)。
  • \(W_j\)(可观测):\(W_j = \min(W^T_j, W^A_j, C_j)\),即实际观测到的等待时间,受死亡、删失与行政时间截断。
  • \(L_j\):第 \(j\) 阶段决策点观测到的协变量(如心肺毒性指标、基线特征)。\(L_j\) 在等待时间 \(W_j\) 结束时、处理决策 \(A_j\) 之前观测。
  • \(Y\):生存结局(如总生存时间或事件时间)。
  • \(\bar{V}_j = (\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1}, L_j, W_j)\):第 \(j\) 阶段处理决策 \(A_j\) 之前的所有历史信息,关键:包含等待时间历史 \(\bar{W}_{j-1}\) 与当前等待时间 \(W_j\)
  • 潜在结局\(Y^{\bar{a}}\) 为在处理策略 \(\bar{a} = (a_1, \dots, a_J)\) 下的潜在生存时间;\(W^{a_1}_1\) 为在第一阶段处理 \(a_1\) 下的潜在等待时间;\(W^{a_1, a_2}_2\) 为在策略 \((a_1, a_2)\) 下的第二阶段潜在等待时间。

模型(数据生成机制): 个体进入阶段 \(j\) 后,先经历等待过程:等待时间 \(W^T_j\) 由既往历史 \((\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1})\) 与潜在结局 \(Y\) 共同决定(信息性等待)。在等待期间,可能发生死亡 \(D_j = 1\) 或删失 \(C_j < W^T_j\)。若存活且未删失,观测到 \(W_j = \min(W^T_j, W^A_j)\),然后观测协变量 \(L_j\),最后做出处理决策 \(A_j\)。处理决策 \(A_j\) 依赖于全部历史 \(\bar{V}_j\)(包含 \(W_j\))。最终结局 \(Y\) 依赖于全部处理历史与等待历史。

可观测数据: 对每个个体,可观测到:\((W_1, D_1, L_1, A_1, W_2, D_2, L_2, A_2, \dots, Y)\),其中若 \(D_j = 1\) 则后续变量缺失,若 \(C_j < W^T_j\)\(W_j\)\(C_j\) 截断且后续缺失。想要但观测不到的:潜在等待时间 \(W^T_j\)(被 \(W^A_j\)\(C_j\) 截断)、潜在结局 \(Y^{\bar{a}}\)(只能观测到 \(Y^{实际处理历史}\))、死亡前的协变量与处理路径。

第二步:最小内核——两阶段(\(J=2\))信息性等待时间下的 IPW 识别

剥掉所有多阶段复杂性、竞争风险细节与半参数建模,最小内核是:\(J=2\) 阶段、二值处理、无删失无死亡(\(C_j = \infty, D_j = 0\))的设定下,证明忽略等待时间 \(W_j\) 的 IPW 识别公式有偏,而将 \(W_j\) 纳入调整集的 IPW 识别公式无偏

  • 经典 IPW(忽略等待时间):假设 SRA 仅对协变量历史成立,即 \(A_j \perp Y^{\bar{a}} \mid \bar{L}_j, \bar{A}_{j-1}\)。此时 IPW 识别公式为 \(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^2 f(A_j \mid \bar{L}_j, \bar{A}_{j-1})}\right]\)
  • 问题:当等待时间 \(W_j\) 影响 \(A_j\) 且影响 \(Y^{\bar{a}}\) 时(信息性等待),\(A_j\) 不满足仅对 \(\bar{L}_j\) 的 SRA——\(A_j\) 还依赖于 \(W_j\),而 \(W_j\) 又与 \(Y^{\bar{a}}\) 相关(通过 \(W^T_j\) 的信息性)。因此 \(A_j \perp Y^{\bar{a}} \mid \bar{L}_j, \bar{A}_{j-1}\) 不成立,经典 IPW 有偏。
  • 修正 IPW(等待时间作为混杂):将 SRA 扩展为 \(A_j \perp Y^{\bar{a}} \mid \bar{V}_j = (\bar{L}_j, \bar{W}_j, \bar{A}_{j-1})\),即条件集包含等待时间历史。此时 IPW 识别公式为 \(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^2 f(A_j \mid \bar{V}_j)}\right]\)
  • 最小内核的数学实质:在信息性等待设定下,\((\bar{L}_j, \bar{A}_{j-1})\) 不是 \(A_j\)\(Y^{\bar{a}}\) 之间的充分阻断集——遗漏了 \(W_j\) 这条后门路径。将 \(W_j\) 加入调整集后,后门路径被阻断,SRA 恢复,IPW 识别成立。这就是整篇论文的核心 insight:等待时间是 time-varying confounder,必须纳入调整集

三、这篇论文做了什么

三句话: ①研究了纵向因果推断中处理决策时间跨个体异质且具有信息性时,序列处理对生存结局效应的识别与估计问题; ②核心方法是将相邻处理决策间的等待时间重新参数化为 time-varying confounder,纳入 g-methods(IPW、g-formula)的调整集; ③主要结论是:忽略等待时间的 g-methods 产生偏差(方向与大小依赖数据生成机制),而将等待时间纳入调整集的 IPW 在 SRA/positivity/consistency 假设下可识别因果效应,并在存在死亡与删失时给出相应的 IPW 估计子。

关键设定与假设

在第二节最小记号基础上补全:

  • Sequential Randomization Assumption (SRA)\(A_j \perp Y^{\bar{a}} \mid \bar{V}_j\),其中 \(\bar{V}_j = (\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1}, L_j, W_j)\)统计含义:在给定全部历史(含等待时间)下,当前处理分配与潜在结局独立——即无未测混杂。相比已有文献:经典 SRA 条件集不含 \(W_j\),本文扩展条件集以阻断等待时间的后门路径。
  • Positivity\(f(A_j = a_j \mid \bar{V}_j) > 0\) 对所有 \(\bar{V}_j\) 支持。统计含义:每个历史下每种处理都有正概率。注意:当 \(W_j\) 连续时,此假设比经典设定更强——需对连续等待时间的条件处理概率建模(如 logistic 回归含 \(W_j\) 作为连续协变量),实践中可能需参数化或半参数化假设。
  • Consistency\(Y = Y^{\bar{A}}\)\(W_j = W^{\bar{A}}_j\)(当 \(D_j = 0, C_j > W_j\))。统计含义:观测值等于实际处理下的潜在值。本文特有:需假设等待时间的潜在值一致性——\(W^T_j\) 在无截断下等于观测 \(W_j\),这在行政截断 \(W^A_j\) 存在时需仔细定义(本文用 \(W_j = \min(W^T_j, W^A_j)\) 处理)。
  • Informative timing 定义\(W^T_j\) 依赖于 \((\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1})\) 且与 \(Y^{\bar{a}}\) 相关。统计含义:等待时间不是外生设计变量,而是受既往历史影响且预测结局的内生过程。
  • 死亡与删失处理:引入 \(D_j\)(死亡指示)与 \(C_j\)(删失时间),假设 \(C_j \perp (Y^{\bar{a}}, W^{\bar{a}}_j) \mid \bar{V}_j\)(非信息性删失),死亡作为竞争事件用 Young et al. (2018) 的框架处理。

主要结果

  1. 识别公式(Theorem-level,虽本文未编号定理)
  2. 无死亡无删失下的 IPW 识别\(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^J f(A_j \mid \bar{V}_j)}\right]\),其中 \(\bar{V}_j\) 包含 \(\bar{W}_j\)
  3. 直觉:将等待时间纳入条件集阻断后门路径,IPW 权重分母需包含 \(f(A_j \mid \bar{W}_j, \bar{L}_j, \bar{A}_{j-1})\) 而非仅 \(f(A_j \mid \bar{L}_j, \bar{A}_{j-1})\)
  4. 必要条件:SRA(含 \(W_j\))、positivity(含 \(W_j\))、consistency(含 \(W_j\))。

  5. 存在死亡与删失下的 IPW 估计子

  6. 离散时间 hazard 下的 IPW:对阶段 \(j\) 的离散时间 hazard,Hájek IPW 估计子为 \(\hat{h}_j = \frac{\sum_i w_i I(A_{ij}=a_j, D_{ij}=0)}{\sum_i w_i I(D_{ij}=0)}\),其中权重 \(w_i = \frac{I(\bar{A}_i=\bar{a})}{\prod_{k=1}^j f(A_{ik} \mid \bar{V}_{ik}) \times \prod_{k=1}^j f(C_{ik} > W_{ik} \mid \bar{V}_{ik})}\)
  7. 直觉:权重分母需同时调整处理分配概率与存活/未删失概率,两者都需条件于含等待时间的历史 \(\bar{V}_{ik}\)
  8. 必要条件:非信息性删失假设、死亡作为竞争事件的 Young et al. (2018) 框架。

  9. 偏差展示(Synthetic examples)

  10. 构造:生成两阶段数据,\(W_1\) 依赖基线协变量且与 \(Y\) 相关,\(A_1\) 依赖 \(W_1\)。比较忽略 \(W_1\) 的 IPW 与纳入 \(W_1\) 的 IPW。
  11. 结果:忽略 \(W_1\) 的 IPW 估计偏离真实因果效应(偏差方向依赖 \(W_1\)\(A_1\)\(Y\) 的影响方向),纳入 \(W_1\) 的 IPW 估计接近真实值。
  12. 解决的技术难点:用 synthetic 数据显式展示信息性等待导致的偏差,而非仅理论论证——这在该方向文献中首次出现。

证明路线与技术技巧

本文为方法论/识别型论文,无 formal 的定理证明(识别公式基于 SRA/positivity/consistency 的标准 g-methods 推导,非新数学结果)。核心技术工作在于重新参数化与框架构造

  • 整体路线
  • 定义信息性等待时间的数据生成机制(\(W^T_j\) 依赖历史与潜在结局)。
  • 证明经典 SRA(不含 \(W_j\))在此机制下不成立——\(W_j\) 是遗漏混杂。
  • \(W_j\) 纳入条件集 \(\bar{V}_j\),重新定义 SRA,阻断后门路径。
  • 在新 SRA 下推导 IPW 识别公式(标准 g-methods 推导,条件集扩展)。
  • 加入死亡与删失,推导相应的 IPW 估计子(借用 Young et al. 2018 的竞争风险框架)。
  • 用 synthetic examples 验证偏差与修正。

  • 关键跳跃点

  • 从"等待时间是潜在结局"到"等待时间是混杂"的视角转换:DTR 文献(Zhao et al. 2022, Hager et al. 2018)将 \(W_j\) 视为潜在结局 \(W^{a_1}_1\),本文将其视为 time-varying confounder——这个重新参数化是核心 insight,使得 g-methods 的标准调整框架可以直接适用。
  • 连续时间到离散时间的等价性声称:作者声称本文的离散时间框架与 Røysland (2011)、Ryalen et al. (2018) 的连续时间 MSM 等价,但未给出 formal 证明——仅引用文献并声称"we build on this literature by providing an equivalent discrete-time framing"。

  • 技术技巧点名

  • IPW / g-methods 标准推导:用于在新 SRA 下构造识别公式与估计子。
  • 竞争风险 IPW(Young et al. 2018):用于处理死亡作为竞争事件时的 hazard 估计。
  • Hájek 权重稳定:用于构造有限样本下更稳定的 IPW 估计子。
  • 无 formal 的效率理论 / DR / semiparametric 工具:本文完全未触及 efficient influence function、doubly robust estimation 或 semiparametric efficiency bound——这是明确的缺口。

真实例子与应用

  • 本文含真实数据例子:使用 AAML0531 与 AAML1031 临床试验数据(儿童急性髓系白血病),评估 anthracycline(ACT)序列使用对生存的因果效应。
  • 数据场景:患者经历最多 4 个治疗阶段(course),每阶段可能接受 ACT(\(A_j = 1\))或不接受(\(A_j = 0\))。阶段间的等待时间 \(W_j\)(从上一阶段结束到下一阶段开始)跨个体异质,且可能依赖既往毒性反应与生存预后。存在死亡(\(D_j\))与删失(\(C_j\))。
  • 如何用上去:用本文的 IPW 估计子(含等待时间调整),估计不同 ACT 策略下的生存概率与 hazard。具体实现用 lmtp R 包(作者开发),拟合处理概率模型 \(f(A_j \mid \bar{V}_j)\) 与删失概率模型 \(f(C_j > W_j \mid \bar{V}_j)\),均包含等待时间 \(W_j\) 作为连续协变量。
  • 得到什么结果:论文未给出 AAML 数据的详细定量结果表(重点在方法论展示与 synthetic examples),但提供了代码与数据链接供复现。synthetic examples 中,忽略等待时间的 IPW 偏差可达 10-20% 的相对误差,纳入等待时间后偏差降至 <5%。
  • 想说明什么:验证"忽略信息性等待时间导致偏差"的理论论断,展示修正方法的可行性,而非展示相对 baseline 的优势(因无其他修正方法作为 baseline)。

🔎 结论是否比证明窄

  • 识别公式的 formal 等价性声称:作者声称离散时间框架与连续时间 MSM 等价("equivalent discrete-time framing"),但仅在 intro 中引用 Røysland/Ryalen 而未给出 formal 证明或定理。这是一个泛泛 claim,严格证明可能需要额外的连续时间到离散时间的极限论证。
  • Positivity 假设的可行性:当 \(W_j\) 连续时,\(f(A_j \mid \bar{V}_j)\) 的 positivity 假设要求对连续协变量的条件概率建模且支持覆盖——这在实践中可能不成立(如某些 \(W_j\) 值下某处理从未被分配),但作者未深入讨论此假设的脆弱性与稳健修正。
  • IPW 的效率:作者未声称 IPW 是 efficient estimator,也未讨论效率界——这符合本文"方法论展示"的定位,但意味着效率结论比证明窄(无效率理论支撑)。

四、开放问题(点到为止,扎根具体语句)

  1. Semiparametric efficiency bound 与 efficient estimator:本文给出 IPW 估计子但未推导 efficient influence function 或 efficiency bound。在 \(\bar{V}_j\) 包含连续等待时间 \(W_j\) 的设定下,因果效应 \(E[Y^{\bar{a}}]\) 的 semiparametric efficiency bound 是什么?能否构造 doubly robust / debiased ML 估计子达到此 bound?扎根:本文全文未提及 efficiency / influence function / doubly robust,而 intro 引用的 g-methods 文献(隐含 Robins 1994)已建立不含等待时间设定的效率理论。

  2. 连续等待时间下的 positivity 假设脆弱性:当 \(W_j\) 连续且纳入条件集时,\(f(A_j \mid \bar{V}_j)\) 的 positivity 假设可能不成立或需强参数化假设。能否用半参数/非参数方法(如 kernel smoothing / HOIF)放宽此假设?扎根:本文 Section 3 讨论 positivity 但仅限离散时间 hazard 设定,对连续 \(W_j\) 的 positivity 仅说"需建模"而未给出非参数解决方案。

  3. 离散化与连续时间的 formal 等价性:作者声称离散时间框架与 Røysland/Ryalen 的连续时间 MSM 等价,但未证明。能否 formal 证明:在信息性等待设定下,离散时间 IPW 识别公式是连续时间 MSM 权重的离散化极限?扎根:intro 原文 "We build on this literature by providing an equivalent discrete-time framing and adjustment for the issue of informative timing"——此声称无 formal 定理支撑。

  4. 信息性等待时间下的 identification bias 与 Sun & Crawford (2023) 的关系:Sun & Crawford 证明离散化引入的 identification bias 即使样本量无穷也无法消除,本文声称纳入等待时间可修正偏差。两者是否矛盾?能否 formal 刻画:在何种数据生成机制下,纳入等待时间可消除 identification bias,在何种机制下不可?扎根:本文引用 Sun & Crawford (2023) 但未展开其 identification bias 定义与本文修正的关系——intro 的张力点。

提醒:要确认第 1 条是否真 gap,去读同子领域近期 5 篇(如 Robins et al. 2022 on HOIF、DML for longitudinal causal inference)的 intro——若都指向"信息性时间设定下缺效率理论"= 共识(真 gap);若已有效率结果但本文未引 = 机会(需补引)。第 3 条需读 Røysland 2011 与 Ryalen 2018 的连续时间 MSM 定理,确认离散化极限是否已隐含证明。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论