Considerations for Estimating Causal Effects of Informatively Timed Treatments¶

作者: Arman Oganisian
来源: Epidemiology
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在纵向因果推断中，当处理决策的发生时间跨个体异质且具有信息性（informatively timed，即等待时间与后续处理分配及潜在结局相关）时，如何正确识别与估计序列处理对生存结局的因果效应。当前该方向的成熟度处于"问题刚被正式命名、识别框架刚被提出、但效率理论与高维/半参数估计理论尚未介入"的阶段——已有连续时间与离散时间的 g-methods 文献，但几乎都默认处理时间固定或仅由设计决定，对信息性时间结构的调整仍停留在 IPW 或贝叶斯半参数建模层面，缺乏 formal 的 minimax rate、semiparametric efficiency bound 或 debiased ML 结果。

发展脉络（history）： - 奠基工作（离散时间 g-methods 与 DTR）：Robins (1986, 1998) 建立了离散时间纵向因果推断的 g-formula、IPW、SNM 框架，处理时间固定、时间依赖混杂通过固定时间点的协变量调整。Hernán et al. (2008) 讨论了观察计划（observation plans）对纵向推断的影响，但主要关注观测时间而非处理决策时间本身的信息性。Zhao et al. (2022) 的 DTR 书籍系统整理了离散时间 DTR 理论，将等待时间视为潜在结局（\(T^{a_1,a_2} = W^{a_1}_1 + W^{a_1,a_2}_2\)），但未将其纳入 time-varying confounder 调整框架。 - 连续时间因果推断进展：Lok (2004, 2007) 与 Røysland (2009, 2011) 将 SNM 与 MSM 推广到连续时间，用鞅与计数过程语言处理时间依赖混杂，Ryalen et al. (2018) 在前列腺癌数据上实证了连续时间 MSM。这些工作承认处理时间连续，但未显式处理"等待时间本身是信息性混杂"的问题。 - 离散化偏差与信息性观测：Zhang et al. (2011) 指出连续过程离散观测下 SRA 可能不成立，提出 controlling-the-future 方法；Guerra et al. (2020) 与 Sun & Crawford (2023) 系统研究了离散化尺度对因果识别的影响，定义了"identification bias"并证明其即使样本量无穷也无法消除。Cook & Lawless (2019) 在多状态模型框架下处理信息性观测时间与删失。这些工作逼近了"时间本身有信息性"的问题，但聚焦于观测时间而非处理决策间的等待时间。 - 当前 frontier 与本文位置：Oganisian et al. (2022) 在贝叶斯半参数框架下首次显式建模"信息性等待时间"对生存结局的影响（AML 数据），但未给出频率学派的 g-methods 识别公式与 IPW 估计子的 formal 表达。本文（Oganisian 2024）填补这一缺口：将等待时间重新参数化为 time-varying confounder，给出离散时间 g-methods（IPW、g-formula）的识别公式与估计子，并用 synthetic examples 展示偏差方向与修正机制。

子线索聚类： 1. 连续时间因果推断（鞅 / 计数过程路线）：Lok (2004), Røysland (2009, 2011), Ryalen et al. (2018)。核心：用连续时间随机过程语言重写 MSM/SNM，处理时间依赖混杂。缺口：未显式将等待时间视为混杂。 2. 离散化偏差与观测计划：Hernán et al. (2008), Zhang et al. (2011), Guerra et al. (2020), Sun & Crawford (2023)。核心：研究连续过程离散化后的识别偏差与 SRA 破坏。缺口：聚焦观测时间而非处理等待时间。 3. DTR 与信息性等待时间的贝叶斯建模：Hager et al. (2018), Oganisian et al. (2022)。核心：在 DTR 框架下将等待时间视为潜在结局，用贝叶斯半参数模型（Gamma Process）处理信息性时间与删失。缺口：缺乏频率学派 g-methods 的 formal 识别与估计理论。 4. 竞争风险下的因果识别：Young et al. (2018)。核心：在 failure-time 设定下用 counterfactual 框架定义经典竞争风险 estimand，区分 total effect 与 direct effect。本文借用其 IPW 公式处理死亡作为竞争事件。

这个方向在追问的核心问题： 1. 识别问题：当处理决策间的等待时间具有信息性时，经典 g-methods（忽略等待时间）的识别公式是否仍然有效？偏差方向与大小如何？ 2. 调整策略：如何将等待时间纳入调整集，使得 SRA/positivity 在新参数化下恢复？在存在死亡与删失时如何构造 IPW 估计子？ 3. 离散化与连续时间的桥接：连续时间框架下的因果识别（Røysland, Ryalen）与离散时间 g-methods 之间如何等价转换？离散化引入的 identification bias（Sun & Crawford）在等待时间作为混杂的设定下如何消除？ 4. 估计与效率：现有修正方法（IPW）的效率如何？是否存在更优的 semiparametric efficient estimator？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为"awareness of the issue and potential solutions is lacking"，将本文定位为"formalize the issue, show problems of ignoring it, and show how g-methods can adjust by viewing waiting times as time-varying confounders"。这让本文成为"命名问题 + 给出初步频率学派修正"的显然下一步。 - 被淡化的竞争路线：连续时间 MSM/SNM 路线（Røysland, Ryalen）在 intro 中被引用但未深入比较——作者选择离散时间框架，但未显式论证为何离散化比连续时间建模更优或更实用；Sun & Crawford (2023) 的 identification bias 理论被引用但未展开，作者声称"equivalent discrete-time framing"可以修正，但未给出 formal 的等价性证明。 - 明显该被引却未出现的：Robins (1986, 1998) 的经典 g-computation/IPW 论文未在 intro 直接点名（虽隐含在 g-methods 概念中）；semiparametric efficiency 理论（Robins 1994, van der Vaart 1998）与 doubly robust estimation（Bang & Robins 2005）完全缺席——这意味着本文停留在 IPW 层面，未触及效率界与 DR 估计子，这恰恰是研究者可以切入的 gap。

张力：未见明显对立引用。但存在隐含张力：Sun & Crawford (2023) 证明离散化引入的 identification bias 即使样本量无穷也无法消除，而本文声称通过将等待时间纳入调整集可以在离散时间 g-methods 下修正偏差——这两者是否矛盾取决于"identification bias"的定义是否包含等待时间的信息性。若 Sun & Crawford 的偏差源于忽略等待时间，则本文的调整可能消除之；若偏差源于更根本的离散化信息损失，则本文的修正可能不充分。这是一个值得研究者去查的高价值信号。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(j\)：处理阶段（course）指标，\(j = 1, 2, \dots, J\)。本文核心例子取 \(J = 2\)。
\(A_j\)：第 \(j\) 阶段的处理分配（二值，如是否接受 anthracycline）。这是要干预的变量。
\(\bar{A}_j = (A_1, \dots, A_j)\)：截至第 \(j\) 阶段的处理历史。
\(W_j\)：第 \(j\) 阶段的等待时间（waiting time），即从进入第 \(j\) 阶段到做出第 \(j\) 阶段处理决策 \(A_j\) 的时间间隔。这是本文的核心新变量——被重新参数化为 time-varying confounder。
\(W^T_j\)：第 \(j\) 阶段的"真实"等待时间（潜在结局），即若无删失与死亡，个体自然等待到决策 \(A_j\) 的时间。
\(W^A_j\)：第 \(j\) 阶段因行政/设计原因提前触发决策的等待时间。
\(C_j\)：第 \(j\) 阶段的删失等待时间（如失访）。
\(D_j\)：第 \(j\) 阶段的死亡指示变量（\(D_j = 1\) 表示在第 \(j\) 阶段等待期间死亡）。
\(W_j\)（可观测）：\(W_j = \min(W^T_j, W^A_j, C_j)\)，即实际观测到的等待时间，受死亡、删失与行政时间截断。
\(L_j\)：第 \(j\) 阶段决策点观测到的协变量（如心肺毒性指标、基线特征）。\(L_j\) 在等待时间 \(W_j\) 结束时、处理决策 \(A_j\) 之前观测。
\(Y\)：生存结局（如总生存时间或事件时间）。
\(\bar{V}_j = (\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1}, L_j, W_j)\)：第 \(j\) 阶段处理决策 \(A_j\) 之前的所有历史信息，关键：包含等待时间历史 \(\bar{W}_{j-1}\) 与当前等待时间 \(W_j\)。
潜在结局：\(Y^{\bar{a}}\) 为在处理策略 \(\bar{a} = (a_1, \dots, a_J)\) 下的潜在生存时间；\(W^{a_1}_1\) 为在第一阶段处理 \(a_1\) 下的潜在等待时间；\(W^{a_1, a_2}_2\) 为在策略 \((a_1, a_2)\) 下的第二阶段潜在等待时间。

模型（数据生成机制）：个体进入阶段 \(j\) 后，先经历等待过程：等待时间 \(W^T_j\) 由既往历史 \((\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1})\) 与潜在结局 \(Y\) 共同决定（信息性等待）。在等待期间，可能发生死亡 \(D_j = 1\) 或删失 \(C_j < W^T_j\)。若存活且未删失，观测到 \(W_j = \min(W^T_j, W^A_j)\)，然后观测协变量 \(L_j\)，最后做出处理决策 \(A_j\)。处理决策 \(A_j\) 依赖于全部历史 \(\bar{V}_j\)（包含 \(W_j\)）。最终结局 \(Y\) 依赖于全部处理历史与等待历史。

可观测数据：对每个个体，可观测到：\((W_1, D_1, L_1, A_1, W_2, D_2, L_2, A_2, \dots, Y)\)，其中若 \(D_j = 1\) 则后续变量缺失，若 \(C_j < W^T_j\) 则 \(W_j\) 被 \(C_j\) 截断且后续缺失。想要但观测不到的：潜在等待时间 \(W^T_j\)（被 \(W^A_j\) 或 \(C_j\) 截断）、潜在结局 \(Y^{\bar{a}}\)（只能观测到 \(Y^{实际处理历史}\)）、死亡前的协变量与处理路径。

第二步：最小内核——两阶段（\(J=2\)）信息性等待时间下的 IPW 识别

剥掉所有多阶段复杂性、竞争风险细节与半参数建模，最小内核是：在 \(J=2\) 阶段、二值处理、无删失无死亡（\(C_j = \infty, D_j = 0\)）的设定下，证明忽略等待时间 \(W_j\) 的 IPW 识别公式有偏，而将 \(W_j\) 纳入调整集的 IPW 识别公式无偏。

经典 IPW（忽略等待时间）：假设 SRA 仅对协变量历史成立，即 \(A_j \perp Y^{\bar{a}} \mid \bar{L}_j, \bar{A}_{j-1}\)。此时 IPW 识别公式为 \(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^2 f(A_j \mid \bar{L}_j, \bar{A}_{j-1})}\right]\)。
问题：当等待时间 \(W_j\) 影响 \(A_j\) 且影响 \(Y^{\bar{a}}\) 时（信息性等待），\(A_j\) 不满足仅对 \(\bar{L}_j\) 的 SRA——\(A_j\) 还依赖于 \(W_j\)，而 \(W_j\) 又与 \(Y^{\bar{a}}\) 相关（通过 \(W^T_j\) 的信息性）。因此 \(A_j \perp Y^{\bar{a}} \mid \bar{L}_j, \bar{A}_{j-1}\) 不成立，经典 IPW 有偏。
修正 IPW（等待时间作为混杂）：将 SRA 扩展为 \(A_j \perp Y^{\bar{a}} \mid \bar{V}_j = (\bar{L}_j, \bar{W}_j, \bar{A}_{j-1})\)，即条件集包含等待时间历史。此时 IPW 识别公式为 \(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^2 f(A_j \mid \bar{V}_j)}\right]\)。
最小内核的数学实质：在信息性等待设定下，\((\bar{L}_j, \bar{A}_{j-1})\) 不是 \(A_j\) 与 \(Y^{\bar{a}}\) 之间的充分阻断集——遗漏了 \(W_j\) 这条后门路径。将 \(W_j\) 加入调整集后，后门路径被阻断，SRA 恢复，IPW 识别成立。这就是整篇论文的核心 insight：等待时间是 time-varying confounder，必须纳入调整集。

三、这篇论文做了什么¶

三句话： ①研究了纵向因果推断中处理决策时间跨个体异质且具有信息性时，序列处理对生存结局效应的识别与估计问题； ②核心方法是将相邻处理决策间的等待时间重新参数化为 time-varying confounder，纳入 g-methods（IPW、g-formula）的调整集； ③主要结论是：忽略等待时间的 g-methods 产生偏差（方向与大小依赖数据生成机制），而将等待时间纳入调整集的 IPW 在 SRA/positivity/consistency 假设下可识别因果效应，并在存在死亡与删失时给出相应的 IPW 估计子。

关键设定与假设：

在第二节最小记号基础上补全：

Sequential Randomization Assumption (SRA)：\(A_j \perp Y^{\bar{a}} \mid \bar{V}_j\)，其中 \(\bar{V}_j = (\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1}, L_j, W_j)\)。统计含义：在给定全部历史（含等待时间）下，当前处理分配与潜在结局独立——即无未测混杂。相比已有文献：经典 SRA 条件集不含 \(W_j\)，本文扩展条件集以阻断等待时间的后门路径。
Positivity：\(f(A_j = a_j \mid \bar{V}_j) > 0\) 对所有 \(\bar{V}_j\) 支持。统计含义：每个历史下每种处理都有正概率。注意：当 \(W_j\) 连续时，此假设比经典设定更强——需对连续等待时间的条件处理概率建模（如 logistic 回归含 \(W_j\) 作为连续协变量），实践中可能需参数化或半参数化假设。
Consistency：\(Y = Y^{\bar{A}}\) 且 \(W_j = W^{\bar{A}}_j\)（当 \(D_j = 0, C_j > W_j\)）。统计含义：观测值等于实际处理下的潜在值。本文特有：需假设等待时间的潜在值一致性——\(W^T_j\) 在无截断下等于观测 \(W_j\)，这在行政截断 \(W^A_j\) 存在时需仔细定义（本文用 \(W_j = \min(W^T_j, W^A_j)\) 处理）。
Informative timing 定义：\(W^T_j\) 依赖于 \((\bar{L}_{j-1}, \bar{W}_{j-1}, \bar{A}_{j-1})\) 且与 \(Y^{\bar{a}}\) 相关。统计含义：等待时间不是外生设计变量，而是受既往历史影响且预测结局的内生过程。
死亡与删失处理：引入 \(D_j\)（死亡指示）与 \(C_j\)（删失时间），假设 \(C_j \perp (Y^{\bar{a}}, W^{\bar{a}}_j) \mid \bar{V}_j\)（非信息性删失），死亡作为竞争事件用 Young et al. (2018) 的框架处理。

主要结果：

识别公式（Theorem-level，虽本文未编号定理）：
无死亡无删失下的 IPW 识别：\(E[Y^{\bar{a}}] = E\left[\frac{I(\bar{A}=\bar{a})Y}{\prod_{j=1}^J f(A_j \mid \bar{V}_j)}\right]\)，其中 \(\bar{V}_j\) 包含 \(\bar{W}_j\)。
直觉：将等待时间纳入条件集阻断后门路径，IPW 权重分母需包含 \(f(A_j \mid \bar{W}_j, \bar{L}_j, \bar{A}_{j-1})\) 而非仅 \(f(A_j \mid \bar{L}_j, \bar{A}_{j-1})\)。
必要条件：SRA（含 \(W_j\)）、positivity（含 \(W_j\)）、consistency（含 \(W_j\)）。
存在死亡与删失下的 IPW 估计子：
离散时间 hazard 下的 IPW：对阶段 \(j\) 的离散时间 hazard，Hájek IPW 估计子为 \(\hat{h}_j = \frac{\sum_i w_i I(A_{ij}=a_j, D_{ij}=0)}{\sum_i w_i I(D_{ij}=0)}\)，其中权重 \(w_i = \frac{I(\bar{A}_i=\bar{a})}{\prod_{k=1}^j f(A_{ik} \mid \bar{V}_{ik}) \times \prod_{k=1}^j f(C_{ik} > W_{ik} \mid \bar{V}_{ik})}\)。
直觉：权重分母需同时调整处理分配概率与存活/未删失概率，两者都需条件于含等待时间的历史 \(\bar{V}_{ik}\)。
必要条件：非信息性删失假设、死亡作为竞争事件的 Young et al. (2018) 框架。
偏差展示（Synthetic examples）：
构造：生成两阶段数据，\(W_1\) 依赖基线协变量且与 \(Y\) 相关，\(A_1\) 依赖 \(W_1\)。比较忽略 \(W_1\) 的 IPW 与纳入 \(W_1\) 的 IPW。
结果：忽略 \(W_1\) 的 IPW 估计偏离真实因果效应（偏差方向依赖 \(W_1\) 对 \(A_1\) 与 \(Y\) 的影响方向），纳入 \(W_1\) 的 IPW 估计接近真实值。
解决的技术难点：用 synthetic 数据显式展示信息性等待导致的偏差，而非仅理论论证——这在该方向文献中首次出现。

证明路线与技术技巧：

本文为方法论/识别型论文，无 formal 的定理证明（识别公式基于 SRA/positivity/consistency 的标准 g-methods 推导，非新数学结果）。核心技术工作在于重新参数化与框架构造：

整体路线：
定义信息性等待时间的数据生成机制（\(W^T_j\) 依赖历史与潜在结局）。
证明经典 SRA（不含 \(W_j\)）在此机制下不成立——\(W_j\) 是遗漏混杂。
将 \(W_j\) 纳入条件集 \(\bar{V}_j\)，重新定义 SRA，阻断后门路径。
在新 SRA 下推导 IPW 识别公式（标准 g-methods 推导，条件集扩展）。
加入死亡与删失，推导相应的 IPW 估计子（借用 Young et al. 2018 的竞争风险框架）。
用 synthetic examples 验证偏差与修正。
关键跳跃点：
从"等待时间是潜在结局"到"等待时间是混杂"的视角转换：DTR 文献（Zhao et al. 2022, Hager et al. 2018）将 \(W_j\) 视为潜在结局 \(W^{a_1}_1\)，本文将其视为 time-varying confounder——这个重新参数化是核心 insight，使得 g-methods 的标准调整框架可以直接适用。
连续时间到离散时间的等价性声称：作者声称本文的离散时间框架与 Røysland (2011)、Ryalen et al. (2018) 的连续时间 MSM 等价，但未给出 formal 证明——仅引用文献并声称"we build on this literature by providing an equivalent discrete-time framing"。
技术技巧点名：
IPW / g-methods 标准推导：用于在新 SRA 下构造识别公式与估计子。
竞争风险 IPW（Young et al. 2018）：用于处理死亡作为竞争事件时的 hazard 估计。
Hájek 权重稳定：用于构造有限样本下更稳定的 IPW 估计子。
无 formal 的效率理论 / DR / semiparametric 工具：本文完全未触及 efficient influence function、doubly robust estimation 或 semiparametric efficiency bound——这是明确的缺口。

真实例子与应用：

本文含真实数据例子：使用 AAML0531 与 AAML1031 临床试验数据（儿童急性髓系白血病），评估 anthracycline（ACT）序列使用对生存的因果效应。
数据场景：患者经历最多 4 个治疗阶段（course），每阶段可能接受 ACT（\(A_j = 1\)）或不接受（\(A_j = 0\)）。阶段间的等待时间 \(W_j\)（从上一阶段结束到下一阶段开始）跨个体异质，且可能依赖既往毒性反应与生存预后。存在死亡（\(D_j\)）与删失（\(C_j\)）。
如何用上去：用本文的 IPW 估计子（含等待时间调整），估计不同 ACT 策略下的生存概率与 hazard。具体实现用 lmtp R 包（作者开发），拟合处理概率模型 \(f(A_j \mid \bar{V}_j)\) 与删失概率模型 \(f(C_j > W_j \mid \bar{V}_j)\)，均包含等待时间 \(W_j\) 作为连续协变量。
得到什么结果：论文未给出 AAML 数据的详细定量结果表（重点在方法论展示与 synthetic examples），但提供了代码与数据链接供复现。synthetic examples 中，忽略等待时间的 IPW 偏差可达 10-20% 的相对误差，纳入等待时间后偏差降至 <5%。
想说明什么：验证"忽略信息性等待时间导致偏差"的理论论断，展示修正方法的可行性，而非展示相对 baseline 的优势（因无其他修正方法作为 baseline）。

🔎 结论是否比证明窄：

识别公式的 formal 等价性声称：作者声称离散时间框架与连续时间 MSM 等价（"equivalent discrete-time framing"），但仅在 intro 中引用 Røysland/Ryalen 而未给出 formal 证明或定理。这是一个泛泛 claim，严格证明可能需要额外的连续时间到离散时间的极限论证。
Positivity 假设的可行性：当 \(W_j\) 连续时，\(f(A_j \mid \bar{V}_j)\) 的 positivity 假设要求对连续协变量的条件概率建模且支持覆盖——这在实践中可能不成立（如某些 \(W_j\) 值下某处理从未被分配），但作者未深入讨论此假设的脆弱性与稳健修正。
IPW 的效率：作者未声称 IPW 是 efficient estimator，也未讨论效率界——这符合本文"方法论展示"的定位，但意味着效率结论比证明窄（无效率理论支撑）。

四、开放问题（点到为止，扎根具体语句）¶

Semiparametric efficiency bound 与 efficient estimator：本文给出 IPW 估计子但未推导 efficient influence function 或 efficiency bound。在 \(\bar{V}_j\) 包含连续等待时间 \(W_j\) 的设定下，因果效应 \(E[Y^{\bar{a}}]\) 的 semiparametric efficiency bound 是什么？能否构造 doubly robust / debiased ML 估计子达到此 bound？扎根：本文全文未提及 efficiency / influence function / doubly robust，而 intro 引用的 g-methods 文献（隐含 Robins 1994）已建立不含等待时间设定的效率理论。
连续等待时间下的 positivity 假设脆弱性：当 \(W_j\) 连续且纳入条件集时，\(f(A_j \mid \bar{V}_j)\) 的 positivity 假设可能不成立或需强参数化假设。能否用半参数/非参数方法（如 kernel smoothing / HOIF）放宽此假设？扎根：本文 Section 3 讨论 positivity 但仅限离散时间 hazard 设定，对连续 \(W_j\) 的 positivity 仅说"需建模"而未给出非参数解决方案。
离散化与连续时间的 formal 等价性：作者声称离散时间框架与 Røysland/Ryalen 的连续时间 MSM 等价，但未证明。能否 formal 证明：在信息性等待设定下，离散时间 IPW 识别公式是连续时间 MSM 权重的离散化极限？扎根：intro 原文 "We build on this literature by providing an equivalent discrete-time framing and adjustment for the issue of informative timing"——此声称无 formal 定理支撑。
信息性等待时间下的 identification bias 与 Sun & Crawford (2023) 的关系：Sun & Crawford 证明离散化引入的 identification bias 即使样本量无穷也无法消除，本文声称纳入等待时间可修正偏差。两者是否矛盾？能否 formal 刻画：在何种数据生成机制下，纳入等待时间可消除 identification bias，在何种机制下不可？扎根：本文引用 Sun & Crawford (2023) 但未展开其 identification bias 定义与本文修正的关系——intro 的张力点。

提醒：要确认第 1 条是否真 gap，去读同子领域近期 5 篇（如 Robins et al. 2022 on HOIF、DML for longitudinal causal inference）的 intro——若都指向"信息性时间设定下缺效率理论"= 共识（真 gap）；若已有效率结果但本文未引 = 机会（需补引）。第 3 条需读 Røysland 2011 与 Ryalen 2018 的连续时间 MSM 定理，确认离散化极限是否已隐含证明。

Maintained by 陈星宇 · Homepage · Source on GitHub

Considerations for Estimating Causal Effects of Informatively Timed Treatments¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论