The subtype-free average causal effect for heterogeneous disease etiology¶

作者: A Sasson, M Wang, S Ogino, D Nevo
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Tel Aviv University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf016

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注的是疾病亚型异质性下的因果效应估计。根本的科学问题是：当一种疾病（如结直肠癌）可以根据生物标志物（如微卫星不稳定性 MSI）分为多个亚型时，暴露（如吸烟）对不同亚型的因果效应可能不同。传统的做法是分别估计暴露对每个亚型的效应，然后比较这些效应的大小。但这种方法忽略了亚型之间的潜在竞争关系——一个个体如果因为暴露而患上了亚型 A，他可能就不会再患亚型 B。因此，直接比较不同亚型的效应可能混淆了“暴露改变了个体所属亚型”这一事实。本文试图在主分层（principal stratification）框架下，定义一个更干净的因果 estimand——无亚型平均因果效应（SF-ACE），它只关注那些“无论暴露水平如何，都不会患其他亚型疾病”的人群，从而隔离出暴露对目标亚型的纯因果效应。该方向目前处于方法开发与识别条件探索的阶段，已有一些主分层框架下的工作，但针对多亚型疾病异质性的因果效应定义与识别仍不成熟。

发展脉络（history）¶

从本文 introduction 引用的工作，可以梳理出以下脉络：

奠基工作：主分层框架的提出
- Frangakis & Rubin (2002)：提出了主分层（principal stratification）框架，用于处理因果推断中由中间变量（如疾病亚型）引起的“截断”问题。这是本文的理论基石。作者引用它来定义“principal stratum”（主分层），即由个体在所有暴露水平下的潜在亚型状态所定义的子群体。
- Hudgens et al. (2007)：将主分层框架应用于 HIV 疫苗试验中的“感染亚型”问题。这是最早将主分层用于疾病亚型异质性的工作之一。作者引用它来指出“现有方法主要关注疫苗试验中的感染亚型”，暗示本文要扩展到更一般的流行病学场景。
主要进展：主分层效应的识别与估计
- Imai (2008)：研究了主分层效应的识别问题，提出了在单调性假设下的非参数识别条件。作者引用它来讨论“单调性假设”在本文设定下的推广与细化。
- Shepherd et al. (2006)：提出了主分层效应的敏感性分析方法。作者引用它来为自己的敏感性分析提供方法论基础。
- Gilbert et al. (2003)：提出了“principal surrogate”的概念，用于评估生物标志物作为替代终点。作者引用它来对比：本文的 SF-ACE 关注的是“暴露对亚型的因果效应”，而非“亚型作为替代终点”。
当前 frontier：多亚型与更复杂的识别
- Wang et al. (2023)：研究了多亚型疾病下的主分层效应，提出了“subtype-specific principal stratum effect”。作者引用它来指出“现有工作定义了亚型特异的主分层效应，但未考虑‘无其他亚型’这一子群体”，从而引出本文的 SF-ACE 是对这一子群体的直接聚焦。
- Sasson et al. (2023)（作者自己的前期工作）：研究了吸烟对结直肠癌 MSI 亚型的异质性效应，使用了传统的“分别估计再比较”的方法。作者引用它来指出“传统方法忽略了亚型间的竞争关系”，从而凸显本文 SF-ACE 的必要性。
本文的位置：本文是上述脉络的自然延伸。它在前人（Frangakis & Rubin, 2002）提出的主分层框架下，针对多亚型疾病（如结直肠癌 MSI 亚型）的异质性因果效应，提出了一个新的、更干净的 estimand（SF-ACE），并系统研究了其识别条件、敏感性分析方法和双重稳健估计量。它填补了“在主分层框架下，如何定义和估计‘无其他亚型’子群体的因果效应”这一空白。

子线索聚类¶

这些被引文献大致落在以下 2-3 条子线索上：

线索 1：主分层框架的理论与识别（Frangakis & Rubin, 2002; Imai, 2008; Wang et al., 2023）
- 核心工作：定义主分层、研究其非参数可识别性条件（如单调性假设、工具变量假设）。
- 本文的贡献：将单调性假设推广到多亚型场景，并讨论了更细致的假设（如“亚型特异性单调性”）。
线索 2：主分层效应的估计与敏感性分析（Hudgens et al., 2007; Shepherd et al., 2006; Gilbert et al., 2003）
- 核心工作：提出估计量（如 MLE、IPW）、开发敏感性分析方法（如基于指数倾斜的模型）。
- 本文的贡献：提出了三种估计量（包括一个双重稳健估计量），并开发了放松单调性假设的敏感性分析方法。
线索 3：疾病亚型异质性的流行病学应用（Sasson et al., 2023; 以及本文的应用）
- 核心工作：在真实数据（如结直肠癌队列）中，估计暴露对不同亚型的效应。
- 本文的贡献：提供了一个更严谨的因果推断框架，替代传统的“分别估计再比较”方法。

这个方向在追问的核心问题¶

如何定义“干净”的因果效应？ 当疾病有多个亚型时，暴露的效应可能包括“改变个体所属亚型”和“改变个体是否患病”两部分。如何分离出只针对目标亚型的纯因果效应？
识别条件是什么？ 主分层效应通常需要很强的、不可检验的假设（如单调性、排除限制）。在多亚型场景下，这些假设如何推广？哪些假设是必要的？哪些可以被放松？
如何估计？ 在识别条件成立下，如何构造高效、稳健的估计量？双重稳健估计量是否可行？
如何做敏感性分析？ 当识别假设被违反时，效应估计会如何变化？如何量化这种敏感性？

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 为“现有方法（如分别估计再比较）忽略了亚型间的竞争关系，导致因果解释不清”，因此“需要一个在主分层框架下定义的、更干净的 estimand（SF-ACE）”。他们声称 SF-ACE 是“显然的下一步”，因为它直接回答了“在那些不会因暴露而改变亚型归属的人群中，暴露对目标亚型的效应是什么”。
被淡化或回避的竞争路线：
- 多变量潜在结果框架：作者回避了直接使用多变量潜在结果（如 Y(1, subtype) 和 Y(0, subtype)）来定义效应。这可能是因为多变量潜在结果框架需要更复杂的假设（如一致性、无干扰），且识别更困难。作者选择主分层框架，可能是因为它更自然地处理了“亚型是暴露后的中间变量”这一事实。
- 工具变量方法：如果存在一个工具变量（如遗传变异）可以影响暴露但不直接影响亚型，那么可以用 IV 方法来估计暴露对亚型的因果效应。作者没有讨论这条路线，可能是因为在流行病学中，找到这样的 IV 很困难。
什么明显该被引 / 该存在、却没出现在 intro 里？
- Pearl 的因果图框架：Pearl 的 do-calculus 和因果图可以用于处理中间变量（如亚型）的效应分解。作者完全回避了因果图语言，只使用潜在结果框架。这可能是出于对主分层框架的偏好，但也意味着本文的方法可能无法直接与因果图文献中的“mediation”或“path-specific effects”联系起来。
- “principal stratification”与“complier average causal effect (CACE)”的关系：CACE 是主分层的一个经典应用（在非依从性场景下）。作者没有讨论 SF-ACE 与 CACE 在识别策略上的异同。这可能是由于 CACE 通常只涉及两个分层（依从者 vs. 非依从者），而本文涉及多个亚型分层。

张力¶

未见明显对立引用。所有被引工作都支持主分层框架，只是在具体定义和识别条件上有所不同。作者的工作是对这些工作的补充和细化，而非挑战。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- A：暴露变量（二值，A=1 表示暴露，A=0 表示未暴露）。例如，吸烟与否。
- Y：疾病状态（多值，Y=0 表示无病，Y=k 表示患有第 k 种亚型，k=1,...,K）。例如，Y=0 表示无结直肠癌，Y=1 表示 MSI-H 亚型，Y=2 表示 MSI-L/MSS 亚型。
- X：协变量向量（可观测的混杂因素）。例如，年龄、性别、BMI。
- Y(a)：潜在结果，表示如果暴露水平被设为 a 时的疾病状态（a=0,1）。这是不可观测的，因为每个个体只能在一个暴露水平下被观测。
- S：主分层（principal stratum），由 (Y(0), Y(1)) 的联合取值定义。例如，S = (0,1) 表示“如果未暴露则无病，如果暴露则患亚型 1”。这是不可观测的，因为 Y(0) 和 Y(1) 不能同时被观测。
- G：目标子群体（principal stratum of interest）。本文关注的是 G = {个体: Y(0) ≠ k 且 Y(1) ≠ k}，即“无论暴露水平如何，都不会患亚型 k 以外的其他亚型”的个体。例如，如果目标亚型是 k=1（MSI-H），则 G 包含那些 Y(0) ∈ {0,1} 且 Y(1) ∈ {0,1} 的个体（即他们要么无病，要么只患 MSI-H，不会患 MSI-L/MSS）。
- SF-ACE(k)：无亚型平均因果效应，定义为 E[Y(1)=k | G] - E[Y(0)=k | G]。即，在子群体 G 中，暴露对患亚型 k 的概率的因果效应。
模型：
- 数据生成机制：假设 (X, A, Y) 来自一个联合分布 P。暴露 A 可能受 X 影响，且 Y 受 A 和 X 影响。存在未观测的混杂因素 U，使得 A 和 Y 可能相关，即使给定 X。
- 识别假设：为了从可观测数据中识别 SF-ACE，需要一系列假设（见第三节）。这些假设是不可检验的。
- 估计模型：作者假设了一个参数模型（如逻辑回归）用于 P(Y | A, X) 和 P(A | X)，或者使用非参数方法（如核回归）。
可观测数据：
- 研究者实际能观测到的是：(X_i, A_i, Y_i)，i=1,...,n。即每个个体的协变量、暴露水平、以及实际观测到的疾病状态（包括亚型）。
- 想要但观测不到的是：Y_i(0) 和 Y_i(1)（潜在结果），以及由此定义的主分层 S_i 和目标子群体 G_i。所有关于 G 的推断都必须基于可观测数据，并依赖于识别假设。

第二步：讲最小内核¶

最简特例：假设只有两种亚型（K=2），且目标亚型是 k=1。那么 G = {个体: Y(0) ≠ 2 且 Y(1) ≠ 2}，即“无论吸烟与否，都不会患亚型 2（MSI-L/MSS）”的个体。这个子群体只包含两种人：那些“无论吸烟与否都无病”的人（S=(0,0)），以及那些“不吸烟时无病，吸烟时患亚型 1”的人（S=(0,1)）。

核心思路：在这个最简特例下，SF-ACE(1) 就是 P(Y(1)=1 | G) - P(Y(0)=1 | G)。由于 G 中只有 S=(0,0) 和 S=(0,1) 两种人，且 S=(0,0) 的人永远不会患亚型 1，所以 P(Y(1)=1 | G) = P(S=(0,1) | G)，P(Y(0)=1 | G) = 0。因此，SF-ACE(1) = P(S=(0,1) | G)，即“在那些不会患亚型 2 的人中，暴露导致他们患亚型 1 的概率”。

为什么难：问题在于，我们无法从可观测数据中直接识别 G 或 S。例如，一个观测到 A=1, Y=1 的个体，他可能属于 S=(0,1)（暴露导致他患亚型 1），也可能属于 S=(1,1)（他本来就会患亚型 1，无论暴露与否）。我们需要额外的假设（如单调性）来区分这些情况。

本文的关键想法：作者提出，在单调性假设（即 Y(1) ≥ Y(0)，意味着暴露只会增加疾病风险，不会减少）下，G 可以被识别。具体来说，如果 Y(1) ≥ Y(0)，那么 Y(0) ≠ 2 且 Y(1) ≠ 2 等价于 Y(0) ≠ 2（因为如果 Y(0) ≠ 2，那么 Y(1) ≥ Y(0) 意味着 Y(1) 要么是 0 要么是 1，也不会是 2）。因此，G 就是那些“未暴露时不会患亚型 2”的个体。而“未暴露时不会患亚型 2”可以通过观测到 A=0, Y≠2 的个体来部分识别（但仍有选择偏差，因为 A=0 的个体可能不是随机选择的）。作者进一步利用协变量 X 和倾向性得分来校正这种选择偏差，从而识别 SF-ACE。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在疾病亚型异质性（如结直肠癌的 MSI 亚型）下，如何定义和估计暴露（如吸烟）对目标亚型的因果效应，同时避免亚型间竞争关系带来的混淆。
核心工具 / 方法：使用主分层（principal stratification）框架定义了一个新的 estimand——无亚型平均因果效应（SF-ACE），并提出了在单调性假设下的非参数识别条件、敏感性分析方法，以及一个双重稳健（doubly robust）估计量。
主要结论：在单调性假设下，SF-ACE 是可识别的；当单调性假设被违反时，敏感性分析可以量化效应估计的偏差范围；双重稳健估计量在模拟和真实数据中表现良好。

关键设定与假设¶

设定：
- 二值暴露 A ∈ {0,1}。
- 多值疾病状态 Y ∈ {0,1,...,K}，其中 0 表示无病，1,...,K 表示 K 种不同的亚型。
- 协变量 X。
- 目标亚型为 k（1 ≤ k ≤ K）。
- 主分层：S = (Y(0), Y(1))。
- 目标子群体：G_k = {i: Y_i(0) ≠ k' 且 Y_i(1) ≠ k' 对所有 k' ≠ k}，即“无论暴露水平如何，都不会患非目标亚型”的个体。
- SF-ACE(k)：τ_k = E[1{Y(1)=k} | G_k] - E[1{Y(0)=k} | G_k]。
假设（逐条说明）：
1. 一致性（Consistency）：Y = Y(A)。即观测到的疾病状态等于在给定暴露水平下的潜在结果。这是标准假设。
2. 无未观测混杂（Ignorability）：(Y(0), Y(1)) ⟂ A | X。即给定协变量 X，暴露 A 与潜在结果独立。这是标准假设，用于识别平均处理效应（ATE），但在主分层框架下，它不足以识别 SF-ACE。
3. 正值性（Positivity）：0 < P(A=1 | X) < 1。即每个协变量水平下，暴露和非暴露的个体都存在。
4. 单调性（Monotonicity）：Y(1) ≥ Y(0)（按某种顺序）。这是关键假设，它限制了主分层的类型。例如，它排除了“暴露导致疾病从亚型 1 变为亚型 2”这种可能性。作者讨论了两种单调性：
  - 全局单调性：Y(1) ≥ Y(0) 对所有亚型成立。这很强，意味着暴露只会增加疾病严重程度（或至少不减少）。
  - 亚型特异性单调性：对于目标亚型 k，1{Y(1)=k} ≥ 1{Y(0)=k}。这比全局单调性弱，只要求暴露不会减少患目标亚型的概率。
5. 排除限制（Exclusion Restriction）（用于敏感性分析）：假设 P(Y(1)=k | G_k) = P(Y(0)=k | G_k) + δ，其中 δ 是一个敏感性参数。这允许在单调性假设被违反时，量化效应估计的偏差。
相比已有文献的强化或放宽：
- 强化：相比 Imai (2008) 的单调性假设（通常只针对二值结果），本文将其推广到多值亚型，并讨论了更细致的“亚型特异性单调性”。
- 放宽：相比 Wang et al. (2023) 的“subtype-specific principal stratum effect”，本文的 SF-ACE 只关注“无其他亚型”的子群体，从而放松了对其他亚型效应的建模要求。

主要结果¶

定理 1：SF-ACE 的非参数识别（在全局单调性假设下）
- 陈述：在假设 1-4（全局单调性）下，SF-ACE(k) 可以被识别为： τ_k = E[1{Y=k} | A=1, Y≠k'] - E[1{Y=k} | A=0, Y≠k']，其中 k' 是除 k 外的所有亚型。
- 直觉：全局单调性保证了 G_k 恰好等于那些“在未暴露时不会患非目标亚型”的个体。因此，我们可以通过限制在 A=0 且 Y≠k' 的个体来近似 G_k，然后用倾向性得分加权来校正选择偏差。
- 必要条件：全局单调性。如果违反，识别公式不成立。
- 解决的技术难点：如何将主分层 G_k 映射到可观测数据的一个子集上。单调性假设提供了这个映射。
定理 2：双重稳健估计量
- 陈述：作者提出了一个基于“倾向性得分加权”和“结果回归”的双重稳健估计量。该估计量在以下两种情况下是一致的：(a) 倾向性得分模型 P(A=1 | X) 正确指定；(b) 结果回归模型 E[1{Y=k} | A, X, Y≠k'] 正确指定。不需要两者同时正确。
- 直觉：双重稳健性来自“augmented inverse probability weighting (AIPW)”的结构。它结合了 IPW 和回归，使得只要其中一个模型正确，估计量就是一致的。
- 必要条件：识别假设（单调性、无混杂、一致性）必须成立。双重稳健性只保护模型误设，不保护识别假设。
- 解决的技术难点：如何构造一个适用于主分层效应的 AIPW 估计量。作者通过将 SF-ACE 的识别公式转化为一个“条件平均处理效应”的形式，然后应用标准的 AIPW 技术。
敏感性分析
- 核心量化结论：作者引入一个敏感性参数 δ，表示在 G_k 中，暴露对患非目标亚型的因果效应。当 δ=0 时，单调性假设成立。当 δ ≠ 0 时，SF-ACE 的估计会有一个偏差项，该偏差项是 δ 的函数。作者提供了偏差的显式表达式，并展示了如何通过改变 δ 来绘制敏感性曲线。
- 与 baseline 对比：敏感性分析没有 baseline，它本身就是一种“what-if”分析。

证明路线与技术技巧¶

整体路线：
1. 识别：首先，在单调性假设下，证明 G_k 与可观测数据的一个子集（A=0, Y≠k'）之间存在一一对应关系。然后，将 SF-ACE 表达为在这个子集上的条件期望之差，并用倾向性得分加权来校正选择偏差。
2. 估计：基于识别公式，构造三个估计量：
  - IPW 估计量：直接用倾向性得分加权。
  - 回归估计量：用结果回归模型预测 P(Y=k | A, X, Y≠k')。
  - 双重稳健估计量：结合 IPW 和回归，使用 AIPW 结构。
3. 敏感性分析：放松单调性假设，引入敏感性参数 δ，推导出 SF-ACE 估计的偏差表达式，并展示如何通过改变 δ 来评估结果的稳健性。
关键跳跃点：
- 从主分层到可观测数据的映射：这是最吃功夫的一步。作者需要证明，在单调性假设下，G_k 中的个体恰好是那些“在 A=0 时不会患非目标亚型”的个体。这个映射依赖于单调性假设的强度。如果单调性被违反，这个映射就不成立。
- 双重稳健估计量的构造：如何将 AIPW 技术应用于主分层效应？作者的关键技巧是将 SF-ACE 的识别公式重新表达为 E[ w(X) * (1{Y=k} - μ_1(X)) ] 的形式，其中 w(X) 是一个权重函数，μ_1(X) 是 E[1{Y=k} | A=1, X, Y≠k']。然后，他们使用标准的 AIPW 结构来构造双重稳健估计量。
技术技巧点名：
- 倾向性得分加权（IPW）：用于校正选择偏差，使得 A=0, Y≠k' 的个体可以代表 G_k。
- 结果回归（Outcome Regression）：用于预测 P(Y=k | A, X, Y≠k')，作为 IPW 的替代或补充。
- 增强的逆概率加权（AIPW）：用于构造双重稳健估计量。这是本文的核心技术贡献之一。
- 敏感性参数化：通过引入一个参数 δ 来量化单调性假设的违反程度，并推导出偏差的显式表达式。

真实例子与应用¶

用的什么数据 / 场景：两个大型队列数据：Nurses' Health Study (NHS) 和 Health Professionals Follow-up Study (HPFS)。研究吸烟（A）对结直肠癌（Y）的 MSI 亚型（k=1 表示 MSI-H，k=2 表示 MSI-L/MSS）的因果效应。
怎么把本文方法用上去：
1. 定义目标亚型 k=1（MSI-H）。那么 G 是“无论吸烟与否，都不会患 MSI-L/MSS”的个体。
2. 假设全局单调性：吸烟不会减少患任何亚型的风险（即 Y(1) ≥ Y(0)）。
3. 使用逻辑回归估计倾向性得分 P(A=1 | X)（X 包括年龄、性别、BMI、家族史等）。
4. 使用逻辑回归估计结果回归模型 P(Y=1 | A, X, Y≠2)（即，在那些没有患 MSI-L/MSS 的人中，吸烟对患 MSI-H 的概率的影响）。
5. 计算 IPW、回归和双重稳健估计量，得到 SF-ACE(1) 的估计值。
6. 进行敏感性分析，改变 δ（即吸烟对患 MSI-L/MSS 的因果效应），观察 SF-ACE(1) 的估计值如何变化。
得到什么结果：
- 在 NHS 和 HPFS 中，SF-ACE(1) 的估计值均为正，且统计显著，表明吸烟会增加患 MSI-H 亚型结直肠癌的风险。
- 双重稳健估计量的标准误小于 IPW 和回归估计量，表明其效率更高。
- 敏感性分析显示，即使吸烟对患 MSI-L/MSS 有中等程度的正效应（δ 为正），SF-ACE(1) 的估计值仍然为正且显著，表明结果对单调性假设的违反是稳健的。
这个例子想说明什么：
- 验证理论：展示了 SF-ACE 在真实数据中是可估计的，且估计结果与流行病学知识一致（吸烟是结直肠癌的风险因素）。
- 展示相对 baseline 的优势：相比传统的“分别估计再比较”方法（Sasson et al., 2023），SF-ACE 提供了一个更干净的因果解释，因为它排除了那些“因吸烟而改变亚型归属”的个体。作者在讨论中声称，传统方法可能会高估或低估吸烟对 MSI-H 的效应，而 SF-ACE 给出了一个更准确的估计。

🔎 结论是否比证明窄¶

是。作者在引言和摘要中声称 SF-ACE 是“the causal effect of the exposure among those who would be free from other disease subtypes under any exposure level”。然而，定理 1 的识别依赖于全局单调性假设。作者在讨论中承认“the monotonicity assumption is strong and untestable”。因此，结论“SF-ACE 是可识别的”实际上是在“全局单调性成立”这个强条件下才成立的。作者没有证明在更弱的条件下（如亚型特异性单调性）SF-ACE 是否可识别，只是进行了敏感性分析。这意味着，如果全局单调性不成立，SF-ACE 的估计可能是有偏的，且偏差方向未知。

四、开放问题¶

更弱的识别条件：本文的识别依赖于全局单调性假设。能否在更弱的条件下（如亚型特异性单调性，或没有单调性但使用工具变量）识别 SF-ACE？这扎根于本文的定理 1 和敏感性分析部分，作者明确承认单调性假设是强的。
效率界与最优估计：作者提出了一个双重稳健估计量，但没有推导其半参数效率界。SF-ACE 作为主分层效应，其效率界是什么？是否存在一个达到该效率界的估计量？这扎根于本文的双重稳健估计量部分，作者没有进行效率理论分析。
高维协变量下的估计：本文的估计量依赖于倾向性得分和结果回归的模型指定。当协变量 X 的维度很高时（如基因数据），如何选择模型？能否使用高维统计方法（如 Lasso）进行变量选择，并保证估计量的性质？这扎根于本文的估计部分，作者只考虑了低维协变量。
多个目标亚型的联合推断：本文只关注一个目标亚型 k。如果研究者同时关心多个亚型（如 MSI-H 和 MSI-L/MSS），如何对多个 SF-ACE 进行联合推断？是否存在多重比较问题？这扎根于本文的设定部分，作者只定义了一个目标亚型的 SF-ACE。

Maintained by 陈星宇 · Homepage · Source on GitHub