Graphical criteria for the identification of marginal causal effects in continuous-time survival and event-history analyses¶
作者: Kjetil Røysland, Pål C Ryalen, Mari Nygård, Vanessa Didelez
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本问题是:在连续时间的事件历史(如生存、复发、多状态转移)与计数过程框架下,如何从观测数据中非参数地识别出对某个结果过程(如死亡)的因果效应。具体而言,当我们对某个治疗/暴露过程的强度施加一个假想干预时,结果过程的分布会发生何种改变?这种改变能否仅凭观测分布和因果图结构被唯一确定(即识别),而不依赖特定的参数生存模型假设?当前,离散时间下的因果图识别理论(DAG、do-演算)已高度成熟,但连续时间下由于事件可以在任意时刻发生、时变混杂与治疗交织持续存在,且传统的DAG与d-分离无法直接刻画计数过程间的动态不对称依赖,该方向的成熟度远低于离散时间情形,尚处于从“特定参数模型/特定估计方法”向“一般非参数图形识别准则”过渡的阶段。
发展脉络: - 奠基工作(离散时间因果图与识别):Pearl & Robins (1995) 为离散时间序列干预的图形识别奠定了基础,给出了评估序列计划的图形准则与闭式表达;Shpitser & Pearl (2006) 进一步给出了条件干预分布识别的充要图形条件与算法,证明了do-演算的完备性。这些工作确立了“图形准则 → 非参数识别”的范式,但完全基于离散时间DAG与潜在结果。 - 连续时间动态依赖与图论基础:Didelez (2006, 2008) 引入了局部独立性图与δ-分离,这是将Granger非因果性推广到连续时间计数过程的关键,刻画了“某类事件的强度独立于过去某些事件”这种不对称依赖。然而,作者在本文中指出:这些图“so-far, these have lacked an explicit causal semantic despite being used in causal contexts(至今缺乏显式的因果语义,尽管已被用于因果语境)”。Mogensen & Hansen (2020) 发展了扩展的局部独立性图与μ-分离,使其在边际化下封闭,但同样未赋予因果语义。 - 连续时间因果框架与估计方法:在缺乏一般图形识别准则的时期,连续时间因果推断主要依赖特定估计策略。Røysland (2011/2009) 用Girsanov测度变换解释了边际结构模型,将离散时间的IPW权重对应到连续时间的似然比过程;Lok (2004, 2008) 发展了连续时间的结构嵌套失效时间模型与g-估计;Dawid & Didelez (2010) 从决策论视角讨论了动态治疗策略的稳定性与G-计算。这些工作提供了估计工具,但识别条件往往隐含在参数模型或特定假设中,缺乏图形化的显式验证。 - 当前 frontier 与本文位置:当前 frontier 在于如何将离散时间下成熟的“图形识别准则”平移到连续时间的局部独立性图上,同时处理连续时间特有的删失与时变混杂。本文正是填补这一缺口:首次为连续时间局部独立性图赋予因果语义(干预强度),并基于δ-分离给出非参数识别的图形准则,同时显式揭示并图形化验证删失过程的因果假设。
子线索聚类: 1. 离散时间因果图与识别理论:以Pearl的DAG、do-演算、d-分离为核心,研究离散时间序列干预的非参数识别(Shpitser & Pearl 2006; Pearl & Robins 1995)。这一簇在离散设定下已完备,但无法直接处理连续时间的强度与局部独立性。 2. 连续时间局部独立性图:以Didelez的δ-分离与Mogensen的μ-分离为核心,研究多变量计数过程的动态依赖表示(Didelez 2006, 2008; Mogensen & Hansen 2020)。这一簇提供了图论工具,但长期缺乏因果干预语义,只能表示观测下的局部独立性。 3. 连续时间因果估计与测度变换:以Røysland的Girsanov变换、Lok的g-估计、Dawid的决策论为核心,研究如何在特定参数或半参数设定下估计连续时间因果效应(Røysland 2009; Lok 2004; Dawid & Didelez 2010)。这一簇提供了估计器,但识别条件往往隐含且非图形化。
这个方向在追问的核心问题: 1. 因果语义如何定义:在连续时间下,因果干预应定义在什么层面?是替换整个方程(强因果,Sokol & Hansen 2014),还是替换过程的强度(弱因果)?如何保证干预后的过程仍是良定义的计数过程? 2. 识别的图形准则是什么:给定一个带因果语义的局部独立性图,能否像离散时间那样,通过某种分离准则(如δ-分离)读出哪些变量集足以控制时变混杂,从而保证观测分布与干预分布的等价性? 3. 删失的因果假设如何刻画:连续时间生存分析中常见的“独立删失”假设是否足以保证因果识别?是否需要更强的因果层面的独立假设(即删失过程不因果依赖结果过程的未来),且这种假设能否图形化验证?
⚠️ 作者的 framing: - 作者将缺口 frame 为:连续时间因果推断长期缺乏像离散时间DAG那样的显式因果语义与图形识别准则,现有局部独立性图只有观测语义,现有估计方法隐含识别条件。因此,本文的“显然下一步”就是为局部独立性图赋予因果语义,并基于δ-分离给出识别准则。 - 被淡化或回避的竞争路线:作者将基于替换方程的“强因果”路线(Sokol & Hansen 2014; SDE因果解释)仅作为背景提及,明确声明自己采用“替换强度”的弱因果路线,但未深入比较两者在识别能力上的差异。此外,作者提到g-估计与TMLE可作为替代估计方法,但本文只聚焦于G-计算(重加权)路线的识别。 - 明显该被引却未出现的:Committere et al. (2022) 或 Didelez 更早期关于连续时间因果图与干预的探索性工作;连续时间下与do-演算对应的完备性结果(类似Shpitser & Pearl 2006的连续时间版本)未被引用,这可能是因为该领域尚无此类结果,但也可能是作者有意回避了完备性讨论,仅给出充分条件。
张力: 未见明显对立引用。不同路线(强因果 vs 弱因果、δ-分离 vs μ-分离)更多是设定与目标的不同,而非在同一设定下得出相反结论。唯一值得注意的张力是:作者指出“独立删失”在概率层面不够,需要因果层面的独立,这与传统生存分析文献(如Andersen 2005)的默认假设存在张力,但这是补充而非矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 符号与指标:
- \(t\):连续时间指标,\(t \in [0, \tau]\)。
- \(V\):所有可观测过程的集合,分为 \(V = (V_0, V^c, V^a)\),其中 \(V_0\) 为基线协变量(时间0的随机变量),\(V^c\) 为结果与混杂过程(计数过程,如发病、死亡),\(V^a\) 为治疗/暴露过程(计数过程,如用药)。
- \(N_j(t)\):第 \(j\) 个计数过程在时间 \(t\) 前的跳跃次数,\(N_j(t-) = \lim_{s \uparrow t} N_j(s)\)。
- \(\lambda_j(t)\):第 \(j\) 个过程的观测强度,即 \(\lambda_j(t) = \lim_{h \downarrow 0} P(N_j(t+h)-N_j(t)=1 | \mathcal{F}_{t-}) / h\),依赖于过去所有可观测历史 \(\mathcal{F}_{t-}\)。
- \(\tilde{\lambda}_j(t)\):第 \(j\) 个过程的干预强度,即假想干预下该过程的强度,只依赖于干预后允许依赖的过去子集。
- \(\mathcal{F}_t\):观测数据生成的 filtration(包含所有 \(V\) 的历史至 \(t\))。
- \(\mathcal{H}_t\):干预后数据生成的 filtration(只包含干预下允许依赖的过去子集)。
- \(P\):观测分布(对应强度 \(\lambda_j\))。
- \(\tilde{P}\):干预分布(对应强度 \(\tilde{\lambda}_j\))。
- \(Y^c(t)\):删失指示过程,\(Y^c(t)=1\) 表示未被删失,\(Y^c(t)=0\) 表示已删失。
-
\(\delta\)-分离:局部独立性图上的分离准则,类似DAG的d-分离,但针对有向循环图与局部独立性。
-
模型(数据生成机制): 观测数据由多变量计数过程 \(V\) 生成,每个过程的强度 \(\lambda_j(t)\) 依赖于 \(\mathcal{F}_{t-}\)(所有可观测过去)。干预模型定义为:将某个治疗过程 \(V^a\) 的强度从 \(\lambda^a(t)\) 替换为 \(\tilde{\lambda}^a(t)\),后者只依赖于某个指定的过去子集(如只依赖基线与部分混杂,不依赖结果的过去),同时保持其他过程的强度结构不变(但它们现在依赖的过去中,\(V^a\) 的历史由干预后的 \(\tilde{V}^a\) 替代)。干预后的联合分布 \(\tilde{P}\) 由 Girsanov 测度变换生成。
-
可观测数据: 研究者实际能观测到的是 \((V_0, V^c, V^a, Y^c)\) 在时间 \([0, \tau]\) 上的轨迹样本(即 \(n\) 个个体的多变量计数过程轨迹,其中 \(V^c\) 在删失时间后不可观测)。想要但观测不到的是:在假想干预 \(\tilde{\lambda}^a\) 下,结果过程 \(V^c\) 的分布 \(\tilde{P}\)(特别是累积发病率 \(\tilde{P}(N^c(\tau)=1)\))。识别的目标是:仅凭观测分布 \(P\) 与因果图结构,能否唯一确定 \(\tilde{P}\)。
第二步:最小内核——最简特例(单一治疗、单一结果、基线混杂、无删失)
剥掉所有一般性设定(多过程、时变混杂、删失),考虑最简特例: - \(V_0 = L\)(单一基线混杂),\(V^a = A(t)\)(单一治疗计数过程),\(V^c = N(t)\)(单一结果计数过程,如死亡)。 - 观测强度:\(\lambda^A(t)\) 依赖 \(L\) 与 \(N(t-)\)(治疗依赖基线混杂与结果过去,时变混杂);\(\lambda^N(t)\) 依赖 \(L\) 与 \(A(t-)\)(结果依赖基线混杂与治疗过去)。 - 干预:将 \(A(t)\) 的强度替换为 \(\tilde{\lambda}^A(t)\),使其只依赖 \(L\)(即干预后治疗只依赖基线混杂,不依赖结果的过去,消除了时变混杂路径)。 - 目标:识别 \(\tilde{P}(N(\tau)=1)\),即干预治疗下死亡的边际概率。
最小内核的数学问题: 在这个特例下,要证的命题退化成:如果因果图上,从结果过去到治疗现在的路径被基线混杂 \(L\) 阻断(即 \(\delta\)-分离条件成立),那么干预分布 \(\tilde{P}\) 可以通过观测分布 \(P\) 的重加权唯一确定。
证明怎么走、为什么成立: 1. Girsanov 变换:干预分布 \(\tilde{P}\) 与观测分布 \(P\) 的关系由似然比过程 \(W(t) = \frac{\tilde{\lambda}^A(t)}{\lambda^A(t)}\) 给出(只涉及治疗过程的强度比,因为其他过程强度不变)。 2. 识别的关键跳跃:\(\tilde{P}(N(\tau)=1)\) 的期望在 \(\tilde{P}\) 下等于 \(E_P[W(\tau) \cdot I(N(\tau)=1)]\),但 \(W(\tau)\) 依赖于 \(\lambda^A(t)\),后者在观测下依赖 \(N(t-)\)(时变混杂)。如果直接用观测的 \(\lambda^A(t)\) 计算 \(W(\tau)\),则重加权会引入结果过去的依赖,导致偏倚。 3. δ-分离的破局:δ-分离条件保证:在干预下,\(A(t)\) 不依赖 \(N(t-)\),因此 \(\tilde{\lambda}^A(t)\) 只依赖 \(L\)。同时,由于 \(L\) 阻断了 \(N(t-)\) 到 \(A(t)\) 的路径,观测下 \(\lambda^A(t)\) 对 \(N(t-)\) 的依赖可以通过条件化 \(L\) 消除(即 \(\lambda^A(t) = E[\lambda^A(t) | L, A(t-)]\),而 \(\tilde{\lambda}^A(t)\) 正是这个条件期望的干预版本)。因此,\(W(t)\) 可以仅用 \(L\) 与 \(A(t-)\) 计算,不依赖 \(N(t-)\),从而重加权 \(E_P[W(\tau) \cdot I(N(\tau)=1)]\) 是可计算的,且等于 \(\tilde{P}(N(\tau)=1)\)。
这个特例揭示了本文的核心思路:δ-分离条件保证了治疗过程的干预强度可以仅用允许依赖的过去子集计算,从而使得Girsanov变换的似然比权重(IPW权重)在观测分布下可计算,实现非参数识别。 一般情形只是这个逻辑在多过程、时变混杂、删失过程上的“加壳”。
三、这篇论文做了什么¶
三句话: ①研究了连续时间生存与事件历史分析中,干预治疗过程强度对结果事件边际因果效应的非参数识别问题。 ②核心工具是为局部独立性图赋予因果语义,并基于δ-分离提出图形识别准则,结合Girsanov测度变换给出重加权识别公式。 ③主要结论是:在满足δ-分离的图形准则下,干预分布可由观测分布的非参数重加权唯一识别;且删失过程必须满足因果层面的独立假设(可图形验证),传统概率独立删失不够。
关键设定与假设: - 因果语义(干预强度):作者采用“弱因果”路线,干预定义为替换治疗过程 \(V^a\) 的强度 \(\lambda^a(t)\) 为 \(\tilde{\lambda}^a(t)\),后者只依赖干预下允许的过去子集 \(\mathcal{H}_{t-}\)。相比Sokol & Hansen (2014) 的“强因果”(替换SDE方程),这是更弱但更适用于计数过程的干预定义,保证了干预后过程仍是计数过程(强度非负、可积)。 - 局部独立性图与δ-分离:图 \(G\) 的节点为过程 \(V\),有向边 \(i \rightarrow j\) 表示 \(j\) 的强度局部依赖 \(i\) 的过去。δ-分离是Didelez (2006) 提出的针对有向循环图的分离准则,类似d-分离但考虑了局部独立性的不对称性。作者赋予 \(G\) 因果语义:图上的依赖关系代表因果依赖,δ-分离代表因果局部独立。 - 因果图假设(Assumption 1: Causal local independence graph):观测分布 \(P\) 下的局部独立性图 \(G\) 也是干预分布 \(\tilde{P}\) 下的因果局部独立性图(即观测与干预共享同一图结构,只是治疗过程的强度被替换)。这类似离散时间的Markov假设与因果Markov假设。 - 识别的图形准则(Theorem 2: Graphical criterion for identifiability):核心假设是“允许路径被阻断”,即从结果过程的过去到治疗过程的现在的所有路径,被某个可观测过程集 \(Z\) δ-分离。\(Z\) 类似离散时间的调整集。作者证明,如果存在这样的 \(Z\),则干预分布可识别。 - 删失的因果假设(Assumption 3: Causal independent censoring):删失过程 \(Y^c(t)\) 的强度必须因果独立于结果过程的未来(即 \(\delta\)-分离成立),且干预不改变删失强度。这比传统生存分析的“独立删失”(概率层面 \(Y^c(t)\) 独立于结果过程的未来,条件于可观测过去)更强,要求删失不因果依赖结果未来。作者强调这是因果推断所必需的,且可图形验证。
主要结果: - Theorem 2(图形识别准则):陈述:如果存在可观测过程集 \(Z\),使得在局部独立性图 \(G\) 上,从 \(V^c\) 的过去到 \(V^a\) 的现在的所有允许路径被 \(Z\) δ-分离,则干预分布 \(\tilde{P}\) 可由观测分布 \(P\) 的重加权唯一识别。直觉:δ-分离保证了治疗过程的干预强度 \(\tilde{\lambda}^a(t)\) 可以仅用 \(Z\) 的过去与 \(V^a\) 的过去计算,不依赖 \(V^c\) 的过去,从而Girsanov变换的似然比权重 \(W(t)\) 可计算,重加权公式 \(E_P[W(\tau) \cdot I(N^c(\tau)=1)]\) 识别了 \(\tilde{P}(N^c(\tau)=1)\)。必要条件:δ-分离条件是充分的,作者未证明其必要性(即未证明完备性,类似Shpitser & Pearl 2006的完备性结果在连续时间下尚未建立)。 - Theorem 1(Girsanov变换与重加权公式):陈述:干预分布 \(\tilde{P}\) 与观测分布 \(P\) 的关系由似然比过程 \(W(t) = \prod_{s \leq t, dN^a(s)=1} \frac{\tilde{\lambda}^a(s)}{\lambda^a(s)} \exp(-\int_0^t (\tilde{\lambda}^a(s) - \lambda^a(s)) ds)\) 给出,且 \(\tilde{P}(N^c(\tau)=1) = E_P[W(\tau) \cdot I(N^c(\tau)=1)]\)。直觉:这是连续时间IPW的严格表达,权重是治疗过程跳跃点的强度比乘积与累积强度差的指数项。技术难点:保证 \(W(t)\) 是良定义的鞅,且 \(\tilde{P}\) 是绝对连续的概率测度(需要 \(\tilde{\lambda}^a\) 与 \(\lambda^a\) 的可积性与非负性)。 - 删失识别准则(Section 5):陈述:如果删失过程 \(Y^c(t)\) 的强度因果独立于结果过程的未来(δ-分离),且干预不改变删失强度,则删失下干预分布仍可识别,重加权公式需额外乘以删失过程的逆概率权重 \(W^c(t)\)。直觉:删失必须被视为一个需要因果假设的干预过程,传统独立删失只保证概率独立,不保证因果独立(例如删失可能因果依赖结果的未来,即使概率上条件独立)。
证明路线与技术技巧: - 整体路线: 1. 定义干预语义:将治疗过程 \(V^a\) 的强度替换为 \(\tilde{\lambda}^a\),后者只依赖 \(\mathcal{H}_{t-}\)(干预下允许的过去)。 2. 构造Girsanov变换:证明干预分布 \(\tilde{P}\) 可由观测分布 \(P\) 与似然比过程 \(W(t)\) 生成,\(W(t)\) 是治疗过程强度比的鞅。 3. 引入δ-分离准则:在局部独立性图 \(G\) 上,定义允许路径与δ-分离,给出调整集 \(Z\) 的图形条件。 4. 证明识别公式:利用δ-分离条件,证明 \(\tilde{\lambda}^a(t)\) 可仅用 \(Z\) 的过去与 \(V^a\) 的过去计算,从而 \(W(t)\) 在观测分布下可计算,重加权公式识别 \(\tilde{P}\)。 5. 处理删失:将删失过程视为需要因果假设的干预过程,给出删失因果独立的δ-分离条件,构造联合重加权公式(治疗权重 × 删失权重)。 - 关键跳跃点: - Lemma 1(Girsanov变换的绝对连续性):证明 \(\tilde{P}\) 相对于 \(P\) 绝对连续,且似然比过程 \(W(t)\) 是良定义的鞅。难点在于保证 \(\tilde{\lambda}^a\) 与 \(\lambda^a\) 的可积性,作者引用了Jacod & Shiryaev (2003) 与Røysland (2011) 的条件(如 \(\int_0^\tau \tilde{\lambda}^a(s) ds < \infty\) a.s.)。 - Theorem 2 的证明:从δ-分离条件推导 \(\tilde{\lambda}^a(t)\) 的可计算性。难点在于δ-分离是图论条件,需要将其翻译为概率条件(即 \(\tilde{\lambda}^a(t)\) 不依赖 \(V^c\) 的过去),这利用了局部独立性模型的Markov性质与因果语义假设。 - 技术技巧点名: - Girsanov测度变换:用于构造干预分布与观测分布的似然比过程,是连续时间IPW的严格基础(Røysland 2009 引入,本文严格化)。 - δ-分离:用于从局部独立性图读出调整集 \(Z\),类似d-分离但针对有向循环图与局部独立性(Didelez 2006 提出,本文赋予因果语义)。 - 鞅论:用于证明似然比过程 \(W(t)\) 的性质(鞅、可积性),以及重加权期望的等价性(利用鞅的期望不变性)。 - 局部独立性模型:用于将δ-分离的图论条件翻译为强度的概率条件(即强度的局部独立性)。
真实例子与应用: - 数据/场景:人类乳头瘤病毒(HPV)检测与宫颈癌筛查数据(挪威筛查队列),观测过程包括:HPV检测过程(治疗/暴露)、宫颈癌发病过程(结果)、筛查参与过程(混杂)、删失过程(退出筛查)。 - 怎么用上去:作者首先根据临床知识构建局部独立性图,标注HPV检测、发病、筛查、删失之间的因果依赖与δ-分离关系。然后验证图形准则:从发病过去到HPV检测现在的路径是否被筛查过去δ-分离(即调整筛查历史可控制时变混杂);同时验证删失过程因果独立于发病未来。满足准则后,用Girsanov变换构造IPW权重(HPV检测强度比 × 删失逆概率权重),重加权估计干预HPV检测下的宫颈癌累积发病率。 - 得到什么结果:重加权后的累积发病率曲线显示了干预HPV检测(如强制定期检测)对降低宫颈癌风险的因果效应,与未加权的观测累积发病率有显著差异(表明时变混杂与删失的偏倚被调整)。 - 想说明什么:验证图形准则的实用性(可从临床知识构建图并验证识别假设),展示重加权估计的可行性(非参数IPW在连续时间下的实现),并强调删失因果假设的必要性(传统独立删失在此数据中不满足,必须图形验证)。
🔎 结论是否比证明窄: - Theorem 2 给出的是充分条件(δ-分离存在则可识别),但未证明必要性(即是否存在不满足δ-分离但仍可识别的情形)。作者在文中未明确claim必要性,但也未讨论不完备性的后果。这类似Shpitser & Pearl 2006之前的状态,完备性是开放问题。 - 删失因果假设(Assumption 3)被声明为因果推断所必需,但严格证明只覆盖了“删失因果独立于结果未来”的情形,对于更复杂的删失依赖结构(如删失因果依赖治疗过去),识别公式可能需要更复杂的调整,作者未深入展开。
四、开放问题(点到为止,扎根具体语句)¶
- 识别准则的完备性:Theorem 2 给出了δ-分离的充分条件,但连续时间下非参数识别的充要条件是什么?是否存在不满足δ-分离但仍可识别的情形?扎根于 Theorem 2 的陈述与作者未讨论完备性的缺口(类似 Shpitser & Pearl 2006 在离散时间下的完备性结果)。
- 强因果与弱因果的识别能力比较:本文采用“替换强度”的弱因果语义,Sokol & Hansen (2014) 采用“替换方程”的强因果语义,两者在识别能力上是否有差异?是否在某些设定下强因果可识别而弱因果不可识别?扎根于作者对 Sokol & Hansen (2014) 的引用与“weak notion of causality”的声明。
- 更复杂删失与竞争风险的识别:本文假设删失因果独立于结果未来,但在竞争风险设定下(如 Young et al. 2020 讨论的),删失或竞争事件可能因果依赖结果或治疗的过去,此时识别准则如何扩展?扎根于 Section 5 对删失因果假设的讨论与对 Young et al. (2020) 的引用。
- 与g-估计、TMLE的结合:作者提到图形准则可与g-估计(Lok 2004)或TMLE(Rytgaard 2021)结合,但未展开。如何将图形识别准则与这些更稳健的估计方法结合,特别是在连续时间下构造双重稳健估计器?扎根于作者在 Discussion 中的提及:“our graphical causal reasoning can also be combined with g-estimation or targeted minimum-loss estimation”。
要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub