Causal Approaches to Disease Progression Analyses¶

作者: Bronner P. Gonçalves, Etsuji Suzuki
来源: Epidemiology
主题: 流行病学
相关性: 9/10
链接: https://doi.org/10.1097/ede.0000000000001893

一、领域脉络与小综述¶

这个方向是什么¶

疾病进展因果分析是在流行病学中试图回答“暴露如何影响从健康状态到疾病发生再到进展（如晚期、死亡）的整个路径”这类问题。传统流行病学研究主要聚焦于“暴露是否导致疾病发生”（风险比、比值比等），但一旦疾病发生，暴露对疾病进展（如恶化速度、严重程度、生存期）的影响是另一个独立的因果问题。本子方向的核心困难在于：疾病进展只在已发病的亚组中可观测到，而该子组本身是暴露与潜在疾病易感性的选择，因此直接比较发病组内的进展结局会引入碰撞分层偏倚（collider stratification bias）。该领域当前给出的答案主要有两条路径：(1) 通过多状态模型将进展视为第二个过渡状态，但需要无未测混杂假设；(2) 使用 principal stratification (主分层) 框架，将疾病发生视为一个事后分层变量，并在其联合潜在响应类上定义因果效应。本文属于路径 (2) 的概念性综述，系统澄清了在不同“疾病发生是否可被操纵”设定下，哪些 estimands 是可定义的，并推荐 principal stratification 作为不可操纵设定的合适框架。

发展脉络（history）¶

奠基工作: Robins & Greenland (1992) 提出了联合潜在结果的概念框架，并首次讨论了将“中间事件”（如疾病发生）作为分层变量的可能性。文中引用称其“提供了解释暴露对疾病进展效应的基本概念框架”。
主要进展: Frangakis & Rubin (2002) 正式提出了主分层 (principal stratification) 框架，将疾病发生视为一个事后期分层变量；该文引入的“主层效应”成为了后续所有用主分层分析中间变量的标准工具。作者引用其“避免了碰撞分层偏倚，因为它比较的是在疾病发生的潜在响应类型这一固定层内的进展”。
因果链条的深入: Mattei & Mealli (2007) 将主分层应用于疾病进展，讨论了在干预可操纵疾病发生与否时的不同识别挑战。作者称其为“在疾病进展背景下使用主分层的早期应用”。
近期焦点: Baker et al. (2016) 提出了基于多状态模型的疾病进展因果效应，突破了某些主分层框架的维数限制。作者认为该方法“在疾病发生可被干预操纵时特别有用”，但在不可操纵设定下仍需主分层。
本文位置: 该综述置于上述脉络的末端，其独特贡献在于明确指出“疾病发生是否可被干预操纵”是两个根本不同的问题设定，并根据这一点系统划分了对应的因果 estimands 与响应类型集。作者认为，绝大多数流行病学研究面对的是不可操纵的疾病发生，但很多进展分析仍在按可操纵的思维框架进行解释——这是需要澄清的缺口。

子线索聚类¶

主分层框架（Principal Stratification）：核心文献为 Frangakis & Rubin (2002)。该方法将疾病发生定义为一种事后分层变量，再在由其潜在响应类型定义的固定层内比较进展。代表性工作：Frangakis & Rubin, 2002; Mattei & Mealli, 2007; 以及本文。
多状态模型与复合终点（Multi-state models and composite outcomes）：将疾病进展视为由健康到发病再到进展的两步过渡。代表性工作：Baker et al., 2016; Hernán & Robins, 2020。该簇的优势在于可处理连续时间进展，但需要更强的无混杂假设。
因果定义与测量问题：集中于讨论“进展”的结局定义如何影响因果 estimands 的可定义性，特别是结局的水平是否容许超出某个阈值。代表性工作：作者自身以及对照引用中的部分工作。

这个方向在追问的核心问题¶

Q1 (概念): 疾病发生是否可凭干预操纵？如果不，如何定义进展的因果效应？
Q2 (估计): 在不可操纵设定下，进展的主分层效应是否可识别？需要什么假设？
Q3 (测量): 结局定义（如复合终点 vs. 单一进展事件）如何影响 estimand 的可定义性？
Q4 (桥梁): 主分层与多状态模型能否在更一般的结构方程模型下统一？

主流方法与已知瓶颈: 主流方法是主分层 + 单调性假设 + 排除限制（exclusion restriction），但不可操纵设定下识别极其困难，常需要敏感性分析或贝叶斯方法。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么: 作者声称“疾病发生不可操纵的设定远更常见，但目前许多疾病进展分析不自觉地假设了其可操纵性，从而混淆了 estimand 的定义”。他们认为，通过明确区分布可操纵和不可操纵设定，可以“消除概念上的模糊性”。
被淡化或回避的竞争路线: 多状态模型（Baker et al. 2016）几乎只在引言中被提及一次，作者未深入讨论其在非可操纵设定下的适用性或劣势。竞争路径（使用工具变量或代理变量来识别多状态模型中的因果效应）完全未被提及。
明显该被引/该存在、却没出现在 intro 里的: 直接缺失了以下两个重要子方向：(1) 使用工具变量（IV）识别疾病进展效应的工作——如果存在一个影响疾病发生但不直接影响进展的 IV，那么即使疾病发生不可直接操纵，IV 也可帮助无偏估计。这个 gap 很值得研究者去查。(2) 使用匹配或 weighting 方法（如 IPTW）直接调整事后分层偏倚，文献中存在少量工作（如 Vansteelandt et al., 2009），但未被提及。

张力¶

未见明显对立引用。但没有讨论的“工具变量方法”可能与作者的“不可操纵设定需要主分层”这一判断产生张力——IV 提供了一个另一种识别进展效应的路径，这值得研究者进一步核实。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号: - Z: 二分暴露/处理变量（例如，是否接受某种治疗）。可被随机化 在理想实验中，但本文主要讨论非实验设定。 - D: 二分疾病发生指示变量（1=发生疾病，0=未发生）。可观测 但仅在 D=1 时可观测到进展。 - Y: 二分（或有序）疾病进展结局变量。仅在 D=1 时可观测到（如 Y=是否进入重症）。在 D=0 时 Y 未定义（或取缺失值）。 - S: 基于联合潜在结果 (D(1), D(0)) 定义的主层变量。例如，S=1 表示“在两种处理下都会发生疾病的始终发病者（Always-taker；D(1)=D(0)=1）”，S=2 表示“仅在处理下发病（Complier）”，S=3 表示“仅在对照下发病（Defier）”，S=4 表示“永不发病者（Never-taker；D(1)=D(0)=0）”。 - Y(z,d): 在治疗水平 z 和疾病发生状态 d 下的潜在进展结局。仅在 D=z 时可观测到。核心潜在量：Y(1,1)（处理下发病后的进展）、Y(0,1)（对照下发病后的进展）——这两个量不能同时可观测到。 - β: 因果 estimand，如主分层效应 SACE（在始终发病者中的因果效应）。

模型: 无参数模型。处理 Z 是外生的（无混杂）或非外生。疾病发生机制 D 由处理 Z 及不可测混杂 U 决定。进展机制 Y 由 Z、D 及 U 决定。

可观测数据: 对每个个体，可观测 (Z_i, D_i, Y_i)（其中 Y_i 仅在 D_i=1 时有定义），以及可能的协变量 X_i。 不可观测： - 对于 D_i=0 的个体，Y_i 未定义（或缺失）。 - 对于任何个体，(D(1), D(0)) 只观察到其中一个（取决于 Z_i）。 - 对于处理组 Z=1，可以观测 (D(1), Y(1, D(1)))，但 (D(0), Y(0, D(0))) 缺失。

第二步：讲最小内核——最简特例：二分处理 `Z`、二分结局 `D` 和二分进展指标 `Y`，无协变量，处理随机化（无混杂）¶

设定的最简形式¶

Z ∈ {0,1} 随机化（无混杂）。
D(z) ∈ {0,1}: 处理后疾病发生。
Y(z) ∈ {0,1}: 进展结局，定义在 D(z)=1 的个体上（否则为“缺失/未定义”）。注意这里 Y(z) 不等于 Y(z, D(z)=1)，它在 D(z)=0 时无定义。

响应类型集 (Response Types)¶

根据 (D(1), D(0)) 有 4 种类型： 1. 始终发病者 (AD; Always-taker): (1,1) —— 两种处理下都会发病。 2. 响应者/顺应者 (Complier): (1,0) —— 只在处理下发病。 3. 逆响应者/违逆者 (Defier): (0,1) —— 只在对照下发病（不考虑）。 4. 永不发病者 (ND; Never-taker): (0,0) —— 两种处理下都不发病。

核心问题: 在“始终发病者”类（AD）中，暴露对进展的因果效应是什么？ - 可定义的 estimand：主分层效应 (SACE) = E[Y(1) | S=AD] - E[Y(0) | S=AD]。 - 可观测 在 AD 内 的数据：Z=1 分组下的 (D=1, Y) vs Z=0 分组下的 (D=1, Y)。不幸的是，我们无法区分一个组的 (Z=1, D=1) 个体是否属于 AD 还是 Complier——因为 D(1)=1，但 D(0) 未知。 - 识别挑战：我们只能观测到 (Z=1, D=1) 是 AD ∪ Complier 的混合，同样 (Z=0, D=1) 是 AD ∪ Defier 的混合。除非在 单调性假设 P(D(1) ≥ D(0))=1（不存在 Defier）下，AD 个体在两组中都是发病的，此时 SACE 可识别。 - 进一步，如果再加上 排除限制假设（Y(z) = Y(d(z)) 即 Z 对进展只有通过 D 的间接影响），那么 AD 组内的进展效应就是 E[Y|Z=1,D=1] - E[Y|Z=0,D=1] —— 但这混合了 Complier 因果效应，需要额外假设才能拆开。

核心思路： - 最简特例下，要证 SACE 的可识别性等价于证明（或假设）两类响应是分离的。本文的核心概念论证就是：在疾病发生不可操纵设定下，我们通常会接受单调性假设（无 Defier），因此 AD 组是干净的。此时通过疾病发生指示 D 的分布，我们可以界定 AD 的大小，并由随机化来比较进展。如果发表于一般论文，证明路线就是：假设 1: P(D(1) ≥ D(0)) = 1；假设 2: P(Z) 随机。记 π_1 = P(D=1|Z=1), π_0 = P(D=1|Z=0)，则 P(S=AD) = π_0。在 AD 内的平均进展效应为 E[Y|Z=1,D=1] - E[Y|Z=0,D=1]。这就是论文一般化（有多协变量、有序进展状态、非随机化等）下的加壳。

读者理解关键：本文的最小内核就是你无需处理一般性的多状态模型，只需在两个二分类变量下，通过“疾病发生不可操纵 → 无 Defier → AD 可识别 → SACE 可定义”这一事实理解作者的核心贡献。

三、这篇论文做了什么¶

类型判断: 概念综述/方法论文，作为理论型综述处理。

三句话¶

研究了什么问题: 系统描述了流行病学中疾病进展效应研究的因果估计目标，并基于“疾病发生是否可被干预操纵”和“结局类型”两维度进行了分类。
核心工具/方法: 使用联合潜在结果（疾病发生 D 与进展 Y）构建了响应类型集，并以此论证在疾病发生不可操纵的更常见设定下，主分层(principal stratification) 是概念化进展效应的合适框架。
主要结论: 当疾病发生不可操纵时，经典的直接效应（如通过 D 的间接效应）和总体效应等 estimand 不可定义，或只能定义在由 (D(1), D(0)) 定义的层内；结局的精确定义（尤其是其允许水平）决定进展潜在结果是否能在所有层中定义。

关键设定与假设¶

在第二节最小记号基础上补充： - 可操纵性假设 (Manipulability of D): 作者将疾病发生是否可人为干预分为两种设定，作为组织全文的轴心。 - 设定 1: 疾病发生可操纵。例如，可以主动诱发或预防疾病发生。此时可以比较 E[Y(1,1) - Y(0,1)] 等直接与间接效应。 - 设定 2 (更常见): 疾病发生不可操纵。例如，即使处理 Z 完全随机，D 的发生仍然由个体潜在特质或其他不可测因素决定，不可能“强制”一个原本不发病的个体发病或让一个发病的个体不发病。 - 单调性假设 (Monotonicity/No Defiers): 在不可操纵设定下，作者隐含接受 P(D(1) ≥ D(0)) = 1，即处理后不会增加疾病发生的概率。这保证了响应类型中无 Defier，从而使主分层内可定义完整的效果。 - 结果类型的水平定义: 作者强调必须明确结局 Y 的“允许水平”(permissible levels)。例如，如果 Y 是“是否达到某种严重程度”，则在 \"never-taker\" 层（永不发病者）内，Y 是无定义的（因为这些人不会发病，没有进展可定义）。 - 相比已有文献: 相比 Mattei & Mealli (2007) 等，本文更系统地按可操纵性分类，并强调结果水平定义对进展效应可定义性的影响。这个概念性贡献大于技术性贡献。

主要结果（挑 2-3 个最关键“定理型”论点）¶

论点 1 —（定义型）区分不同因果估计目标: 作者基础性地将疾病进展因果分析分为三类 estimands：
- 直接效应: 在固定疾病发生水平 D=d 下 Z 对 Y 的效应（E[Y(1,d) - Y(0,d)]）；
- 间接效应: 通过 D 的 Z 对 Y 的效应（需要 D 的联合分布）；
- 总体效应: 包括通过对 D 和 Y 的联合效应（E[Y(1,D(1)) - Y(0,D(0))]）。结论: 在不可操纵设定下，“直接效应”在总体水平上可能无定，仅能在主分层内定义。
论点 2 —（主分层推荐）: 作者论证，当疾病发生不可操纵时，主分层（基于 (D(1), D(0)) 的响应类型）是唯一能定义进展效应的概念框架。核心原因是：在这个设定下，Y(z, d) 只有在 D(z)=d 的个体层内才有可观测的对应。这与 Robins & Greenland (1992) 和 Frangakis & Rubin (2002) 一致。
论点 3 —（结局水平定义的影响）: 作者提出结局的允许水平（例如，“是否达到重症” vs. “是否存活”）决定了 Y(z,d) 的定义域。在“永不发病者”层内，只有在允许水平包括“死亡”等通用状态时，进展结局才可定义。这直接影响哪些 subpopulation 可以纳入因果分析。解决了什么难点: 解决了当 Y 的定义依赖疾病发生状态时（如重症监护仅在发病后才有意义），如何定义潜在结果的可定义集。

证明路线与技术技巧（概念论证分析，不是数学证明）¶

本文无数学定理。因此改为“逻辑论证路线”描述：

逻辑主干 Route:
- akar: 展示 (Z, D, Y) 因构成有向无环图结构（DAG或不含混杂项的结构方程图）；
- 第二步: 列出所有可能的响应类型（response types）：基于 (D(1), D(0)) 分为4类，进而再考虑 (Y(1,1), Y(0,1)) 等进展结局，生成 2^4 = 16 或更复杂类型；
- 第三步: 根据“疾病发生是否可操纵”这一轴，说明每个类型下 E[Y(z,d)] 的可能定义；
- 第四步: 指出在不可操纵设定下，最终只能定义一个“局部的” SACE（主分层效应）；
- 第五步: 强调结局定义细节（允许水平）是否导致某些潜在结果不可定义（如 never-takers 中无进展可定义）；
- 第六步: 给出表格（作者在原文中有一张 LABEL表，对应不同的类型及其在可操纵/不可操纵设定下的可定义性）。
关键跳跃点:
- 第一个跳跃：从“直接效应总是可定义的”跳到“在不可操纵设定下，直接效应无法‘直接’解释”，原因是 D 不可通过干预保持在固定水平。
- 第二个跳跃：从“我只想比较发病者之间进展的差异（是否处理影响变大）”跳到“在不可操纵设定下，它是主分层效应而非简单的条件间接效应（如介导分析中的自然间接效应）”。
技术技巧（概念上的）:
- 使用响应类型热力表（表格形式将 4 种 D 响应 × 2 种进展响应 → 映射到不同可定义 estimand）。
- 使用结局水平的精确语义分析: 区分 Y 为有序分类（如癌症分期）与二值（死亡/存活），强调这对进展定义的影响。

真实例子与应用（有就一定要讲）¶

有：论文中使用了多个假设性例子，如下：

例子 1: 血压与心脏病发作:
- 数据/场景: 将“高胆固醇”（Z）视为暴露，“心肌梗死”(MI) 作为疾病发生(D), “心肌梗死后一年内死亡”(Y) 作为进展。
- 如何应用: 作者列举了所有 4 种响应类型（始终 MI 者、只在治疗下发生 MI 者等），并假设治疗是降低胆固醇的药物。在不可操纵 MI 设定下，作者用该例子说明：我们无法直接定义“固定 D=1（发作）时的进展效应”，因为这不能通过干预来实现；主分层效应在“始终 MI 者（AD）”中是唯一可定义的进展效应。
- 结果: 得出结论：AD 层内的主分层效应 = “比较该层内在治疗与无治疗下的死亡率差异”。
- 说明什么: 验证了主分层的适用性，并展示了响应类型图在概念上的清晰度。与基线 [直接比较发病组内的死亡率] 相比，展示了不可操纵设定下的 estimand 重定义。
例子 2: 治疗效果与复发:
- 场景: 测试抗 HIV 治疗(Z)对病毒载量抑制(D)和后续疾病进展(Y)。
- 如何应用: 使用有序结局（如 CD4 T 细胞计数水平），区分“病毒载量没有抑制/抑制”这一 D 状态，与“免疫系统恢复程度”Y 的多种允许水平。仅在病毒载量得到抑制的组内才能定义治疗对 CD4 恢复的进展效应。
- 说明什么: 展示了结局水平对进展可定义性的概念影响：如果免疫恢复定义要求“病毒载量得到抑制”，那么在永不抑制（never-taker）层内进展不可定义。

注意: 本文为概念综述，无实证数据例子。

🔎 结论是否比证明窄¶

作者在文中多处使用“might be an appropriate framework”与“suggest”，而非常肯定的论断。例如，标题中的“Might Be”已经说明是推荐而非证明。与 Frangakis & Rubin (2002) 不同，后者有严格定理证明哪些 estimands 可定义，而本文停留在概念推荐层面。结论确实比严格证明窄很多。例如，作者对“多水平进展结局”的讨论无证明，只有概念说明。
具体语句：“Principal stratification might be an appropriate framework to conceptualize the analysis” ——这不是一个证明过的结果，而是基于已有文献综述后的合理推论。

四、开放问题（点到为止，扎根具体语句）¶

敏感性分析 / 部分识别: 在不可操纵设定下（且无单调性假设），SACE 严格不可识别。作者只推荐了概念框架，但没给出如何从可观测数据中做部分识别（或敏感性分析）的方法。扎根: 第 6 节“Future Challenges”提到“sensitivity analyses may be needed”但未展开。如果研究者是陈星宇（有 estimation theory in causal inference），可以为该 SACE 构建 semiparametric sensitivity analysis framework（如边界定理或部分识别体）。这是立即可做的一个缺口。
部分识别 / 非参数可识别假设的放松: 本文依赖单调性假设（无 Defier），但没讨论非单调性如何部分识别 SACE（例如，利用 Z 的随机性构建倾向得分匹配调整角）。扎根: 第 4 节 Table 1 假设单调性，未讨论非单调性。
与多状态模型的关系: 作者提到就诊队列时可谈多状态模型，但未解释在不可操纵疾病发生时，多状态模型的结果如何与 SACE 对比或分析其优劣。扎根: 第三节将多状态模型放在“可操纵”设定中讨论，未深入其在不可操纵设定下的合理性与识别假设。
有序/连续进展结局的 SACE 扩展: 论文讨论限于二分进展，但对有序或连续进展（如疾病严重度评分）的 SACE 可识别性与 estimand 定义，仅有概念说明但无量化分析。扎根: 第 5 节讨论结局水平，但只做语义分析，无定理或估计方法。研究者（有高阶 U 统计量背景）可将其视为一个 “ordered categorical potential outcomes” 上的 SACE 估计问题，这属于他的 moderately_familiar 范围内。

注意：上述第 1、2 条被研究者用 very_familiar 领域的“estimation theory in causal inference”和“minimax bounds”立即可接；第 3、4 条属于可行性更高但需扩展子领域知识。但根据指令，不替研究者判断可行性，只罗列具体扎根点。

Maintained by 陈星宇 · Homepage · Source on GitHub