The subtype-free average causal effect for heterogeneous disease etiology¶
作者: A Sasson, M Wang, S Ogino, D Nevo
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Tel Aviv University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujaf016
一、领域脉络与小综述¶
这个方向是什么¶
本子方向关注的是疾病亚型异质性下的因果效应估计。根本的科学问题是:当一种疾病(如结直肠癌)可以根据生物标志物(如微卫星不稳定性 MSI)分为多个亚型时,暴露(如吸烟)对不同亚型的因果效应可能不同。传统的做法是分别估计暴露对每个亚型的效应,然后比较这些效应的大小。但这种方法忽略了亚型之间的潜在竞争关系——一个个体如果因为暴露而患上了亚型 A,他可能就不会再患亚型 B。因此,直接比较不同亚型的效应可能混淆了“暴露改变了个体所属亚型”这一事实。本文试图在主分层(principal stratification)框架下,定义一个更干净的因果 estimand——无亚型平均因果效应(SF-ACE),它只关注那些“无论暴露水平如何,都不会患其他亚型疾病”的人群,从而隔离出暴露对目标亚型的纯因果效应。该方向目前处于方法开发与识别条件探索的阶段,已有一些主分层框架下的工作,但针对多亚型疾病异质性的因果效应定义与识别仍不成熟。
发展脉络(history)¶
从本文 introduction 引用的工作,可以梳理出以下脉络:
-
奠基工作:主分层框架的提出
- Frangakis & Rubin (2002):提出了主分层(principal stratification)框架,用于处理因果推断中由中间变量(如疾病亚型)引起的“截断”问题。这是本文的理论基石。作者引用它来定义“principal stratum”(主分层),即由个体在所有暴露水平下的潜在亚型状态所定义的子群体。
- Hudgens et al. (2007):将主分层框架应用于 HIV 疫苗试验中的“感染亚型”问题。这是最早将主分层用于疾病亚型异质性的工作之一。作者引用它来指出“现有方法主要关注疫苗试验中的感染亚型”,暗示本文要扩展到更一般的流行病学场景。
-
主要进展:主分层效应的识别与估计
- Imai (2008):研究了主分层效应的识别问题,提出了在单调性假设下的非参数识别条件。作者引用它来讨论“单调性假设”在本文设定下的推广与细化。
- Shepherd et al. (2006):提出了主分层效应的敏感性分析方法。作者引用它来为自己的敏感性分析提供方法论基础。
- Gilbert et al. (2003):提出了“principal surrogate”的概念,用于评估生物标志物作为替代终点。作者引用它来对比:本文的 SF-ACE 关注的是“暴露对亚型的因果效应”,而非“亚型作为替代终点”。
-
当前 frontier:多亚型与更复杂的识别
- Wang et al. (2023):研究了多亚型疾病下的主分层效应,提出了“subtype-specific principal stratum effect”。作者引用它来指出“现有工作定义了亚型特异的主分层效应,但未考虑‘无其他亚型’这一子群体”,从而引出本文的 SF-ACE 是对这一子群体的直接聚焦。
- Sasson et al. (2023)(作者自己的前期工作):研究了吸烟对结直肠癌 MSI 亚型的异质性效应,使用了传统的“分别估计再比较”的方法。作者引用它来指出“传统方法忽略了亚型间的竞争关系”,从而凸显本文 SF-ACE 的必要性。
-
本文的位置:本文是上述脉络的自然延伸。它在前人(Frangakis & Rubin, 2002)提出的主分层框架下,针对多亚型疾病(如结直肠癌 MSI 亚型)的异质性因果效应,提出了一个新的、更干净的 estimand(SF-ACE),并系统研究了其识别条件、敏感性分析方法和双重稳健估计量。它填补了“在主分层框架下,如何定义和估计‘无其他亚型’子群体的因果效应”这一空白。
子线索聚类¶
这些被引文献大致落在以下 2-3 条子线索上:
-
线索 1:主分层框架的理论与识别(Frangakis & Rubin, 2002; Imai, 2008; Wang et al., 2023)
- 核心工作:定义主分层、研究其非参数可识别性条件(如单调性假设、工具变量假设)。
- 本文的贡献:将单调性假设推广到多亚型场景,并讨论了更细致的假设(如“亚型特异性单调性”)。
-
线索 2:主分层效应的估计与敏感性分析(Hudgens et al., 2007; Shepherd et al., 2006; Gilbert et al., 2003)
- 核心工作:提出估计量(如 MLE、IPW)、开发敏感性分析方法(如基于指数倾斜的模型)。
- 本文的贡献:提出了三种估计量(包括一个双重稳健估计量),并开发了放松单调性假设的敏感性分析方法。
-
线索 3:疾病亚型异质性的流行病学应用(Sasson et al., 2023; 以及本文的应用)
- 核心工作:在真实数据(如结直肠癌队列)中,估计暴露对不同亚型的效应。
- 本文的贡献:提供了一个更严谨的因果推断框架,替代传统的“分别估计再比较”方法。
这个方向在追问的核心问题¶
- 如何定义“干净”的因果效应? 当疾病有多个亚型时,暴露的效应可能包括“改变个体所属亚型”和“改变个体是否患病”两部分。如何分离出只针对目标亚型的纯因果效应?
- 识别条件是什么? 主分层效应通常需要很强的、不可检验的假设(如单调性、排除限制)。在多亚型场景下,这些假设如何推广?哪些假设是必要的?哪些可以被放松?
- 如何估计? 在识别条件成立下,如何构造高效、稳健的估计量?双重稳健估计量是否可行?
- 如何做敏感性分析? 当识别假设被违反时,效应估计会如何变化?如何量化这种敏感性?
⚠️ 作者的 framing¶
- 这是作者的说法:作者将缺口 frame 为“现有方法(如分别估计再比较)忽略了亚型间的竞争关系,导致因果解释不清”,因此“需要一个在主分层框架下定义的、更干净的 estimand(SF-ACE)”。他们声称 SF-ACE 是“显然的下一步”,因为它直接回答了“在那些不会因暴露而改变亚型归属的人群中,暴露对目标亚型的效应是什么”。
- 被淡化或回避的竞争路线:
- 多变量潜在结果框架:作者回避了直接使用多变量潜在结果(如
Y(1, subtype)和Y(0, subtype))来定义效应。这可能是因为多变量潜在结果框架需要更复杂的假设(如一致性、无干扰),且识别更困难。作者选择主分层框架,可能是因为它更自然地处理了“亚型是暴露后的中间变量”这一事实。 - 工具变量方法:如果存在一个工具变量(如遗传变异)可以影响暴露但不直接影响亚型,那么可以用 IV 方法来估计暴露对亚型的因果效应。作者没有讨论这条路线,可能是因为在流行病学中,找到这样的 IV 很困难。
- 多变量潜在结果框架:作者回避了直接使用多变量潜在结果(如
- 什么明显该被引 / 该存在、却没出现在 intro 里?
- Pearl 的因果图框架:Pearl 的 do-calculus 和因果图可以用于处理中间变量(如亚型)的效应分解。作者完全回避了因果图语言,只使用潜在结果框架。这可能是出于对主分层框架的偏好,但也意味着本文的方法可能无法直接与因果图文献中的“mediation”或“path-specific effects”联系起来。
- “principal stratification”与“complier average causal effect (CACE)”的关系:CACE 是主分层的一个经典应用(在非依从性场景下)。作者没有讨论 SF-ACE 与 CACE 在识别策略上的异同。这可能是由于 CACE 通常只涉及两个分层(依从者 vs. 非依从者),而本文涉及多个亚型分层。
张力¶
未见明显对立引用。所有被引工作都支持主分层框架,只是在具体定义和识别条件上有所不同。作者的工作是对这些工作的补充和细化,而非挑战。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
A:暴露变量(二值,A=1表示暴露,A=0表示未暴露)。例如,吸烟与否。Y:疾病状态(多值,Y=0表示无病,Y=k表示患有第k种亚型,k=1,...,K)。例如,Y=0表示无结直肠癌,Y=1表示 MSI-H 亚型,Y=2表示 MSI-L/MSS 亚型。X:协变量向量(可观测的混杂因素)。例如,年龄、性别、BMI。Y(a):潜在结果,表示如果暴露水平被设为a时的疾病状态(a=0,1)。这是不可观测的,因为每个个体只能在一个暴露水平下被观测。S:主分层(principal stratum),由(Y(0), Y(1))的联合取值定义。例如,S = (0,1)表示“如果未暴露则无病,如果暴露则患亚型 1”。这是不可观测的,因为Y(0)和Y(1)不能同时被观测。G:目标子群体(principal stratum of interest)。本文关注的是G = {个体: Y(0) ≠ k 且 Y(1) ≠ k},即“无论暴露水平如何,都不会患亚型k以外的其他亚型”的个体。例如,如果目标亚型是k=1(MSI-H),则G包含那些Y(0) ∈ {0,1}且Y(1) ∈ {0,1}的个体(即他们要么无病,要么只患 MSI-H,不会患 MSI-L/MSS)。SF-ACE(k):无亚型平均因果效应,定义为E[Y(1)=k | G] - E[Y(0)=k | G]。即,在子群体G中,暴露对患亚型k的概率的因果效应。
-
模型:
- 数据生成机制:假设
(X, A, Y)来自一个联合分布P。暴露A可能受X影响,且Y受A和X影响。存在未观测的混杂因素U,使得A和Y可能相关,即使给定X。 - 识别假设:为了从可观测数据中识别 SF-ACE,需要一系列假设(见第三节)。这些假设是不可检验的。
- 估计模型:作者假设了一个参数模型(如逻辑回归)用于
P(Y | A, X)和P(A | X),或者使用非参数方法(如核回归)。
- 数据生成机制:假设
-
可观测数据:
- 研究者实际能观测到的是:
(X_i, A_i, Y_i),i=1,...,n。即每个个体的协变量、暴露水平、以及实际观测到的疾病状态(包括亚型)。 - 想要但观测不到的是:
Y_i(0)和Y_i(1)(潜在结果),以及由此定义的主分层S_i和目标子群体G_i。所有关于G的推断都必须基于可观测数据,并依赖于识别假设。
- 研究者实际能观测到的是:
第二步:讲最小内核¶
最简特例:假设只有两种亚型(K=2),且目标亚型是 k=1。那么 G = {个体: Y(0) ≠ 2 且 Y(1) ≠ 2},即“无论吸烟与否,都不会患亚型 2(MSI-L/MSS)”的个体。这个子群体只包含两种人:那些“无论吸烟与否都无病”的人(S=(0,0)),以及那些“不吸烟时无病,吸烟时患亚型 1”的人(S=(0,1))。
核心思路:在这个最简特例下,SF-ACE(1) 就是 P(Y(1)=1 | G) - P(Y(0)=1 | G)。由于 G 中只有 S=(0,0) 和 S=(0,1) 两种人,且 S=(0,0) 的人永远不会患亚型 1,所以 P(Y(1)=1 | G) = P(S=(0,1) | G),P(Y(0)=1 | G) = 0。因此,SF-ACE(1) = P(S=(0,1) | G),即“在那些不会患亚型 2 的人中,暴露导致他们患亚型 1 的概率”。
为什么难:问题在于,我们无法从可观测数据中直接识别 G 或 S。例如,一个观测到 A=1, Y=1 的个体,他可能属于 S=(0,1)(暴露导致他患亚型 1),也可能属于 S=(1,1)(他本来就会患亚型 1,无论暴露与否)。我们需要额外的假设(如单调性)来区分这些情况。
本文的关键想法:作者提出,在单调性假设(即 Y(1) ≥ Y(0),意味着暴露只会增加疾病风险,不会减少)下,G 可以被识别。具体来说,如果 Y(1) ≥ Y(0),那么 Y(0) ≠ 2 且 Y(1) ≠ 2 等价于 Y(0) ≠ 2(因为如果 Y(0) ≠ 2,那么 Y(1) ≥ Y(0) 意味着 Y(1) 要么是 0 要么是 1,也不会是 2)。因此,G 就是那些“未暴露时不会患亚型 2”的个体。而“未暴露时不会患亚型 2”可以通过观测到 A=0, Y≠2 的个体来部分识别(但仍有选择偏差,因为 A=0 的个体可能不是随机选择的)。作者进一步利用协变量 X 和倾向性得分来校正这种选择偏差,从而识别 SF-ACE。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在疾病亚型异质性(如结直肠癌的 MSI 亚型)下,如何定义和估计暴露(如吸烟)对目标亚型的因果效应,同时避免亚型间竞争关系带来的混淆。
- 核心工具 / 方法:使用主分层(principal stratification)框架定义了一个新的 estimand——无亚型平均因果效应(SF-ACE),并提出了在单调性假设下的非参数识别条件、敏感性分析方法,以及一个双重稳健(doubly robust)估计量。
- 主要结论:在单调性假设下,SF-ACE 是可识别的;当单调性假设被违反时,敏感性分析可以量化效应估计的偏差范围;双重稳健估计量在模拟和真实数据中表现良好。
关键设定与假设¶
-
设定:
- 二值暴露
A ∈ {0,1}。 - 多值疾病状态
Y ∈ {0,1,...,K},其中0表示无病,1,...,K表示K种不同的亚型。 - 协变量
X。 - 目标亚型为
k(1 ≤ k ≤ K)。 - 主分层:
S = (Y(0), Y(1))。 - 目标子群体:
G_k = {i: Y_i(0) ≠ k' 且 Y_i(1) ≠ k' 对所有 k' ≠ k},即“无论暴露水平如何,都不会患非目标亚型”的个体。 - SF-ACE(k):
τ_k = E[1{Y(1)=k} | G_k] - E[1{Y(0)=k} | G_k]。
- 二值暴露
-
假设(逐条说明):
- 一致性(Consistency):
Y = Y(A)。即观测到的疾病状态等于在给定暴露水平下的潜在结果。这是标准假设。 - 无未观测混杂(Ignorability):
(Y(0), Y(1)) ⟂ A | X。即给定协变量X,暴露A与潜在结果独立。这是标准假设,用于识别平均处理效应(ATE),但在主分层框架下,它不足以识别 SF-ACE。 - 正值性(Positivity):
0 < P(A=1 | X) < 1。即每个协变量水平下,暴露和非暴露的个体都存在。 - 单调性(Monotonicity):
Y(1) ≥ Y(0)(按某种顺序)。这是关键假设,它限制了主分层的类型。例如,它排除了“暴露导致疾病从亚型 1 变为亚型 2”这种可能性。作者讨论了两种单调性:- 全局单调性:
Y(1) ≥ Y(0)对所有亚型成立。这很强,意味着暴露只会增加疾病严重程度(或至少不减少)。 - 亚型特异性单调性:对于目标亚型
k,1{Y(1)=k} ≥ 1{Y(0)=k}。这比全局单调性弱,只要求暴露不会减少患目标亚型的概率。
- 全局单调性:
- 排除限制(Exclusion Restriction)(用于敏感性分析):假设
P(Y(1)=k | G_k) = P(Y(0)=k | G_k) + δ,其中δ是一个敏感性参数。这允许在单调性假设被违反时,量化效应估计的偏差。
- 一致性(Consistency):
-
相比已有文献的强化或放宽:
- 强化:相比 Imai (2008) 的单调性假设(通常只针对二值结果),本文将其推广到多值亚型,并讨论了更细致的“亚型特异性单调性”。
- 放宽:相比 Wang et al. (2023) 的“subtype-specific principal stratum effect”,本文的 SF-ACE 只关注“无其他亚型”的子群体,从而放松了对其他亚型效应的建模要求。
主要结果¶
-
定理 1:SF-ACE 的非参数识别(在全局单调性假设下)
- 陈述:在假设 1-4(全局单调性)下,SF-ACE(k) 可以被识别为:
τ_k = E[1{Y=k} | A=1, Y≠k'] - E[1{Y=k} | A=0, Y≠k'],其中k'是除k外的所有亚型。 - 直觉:全局单调性保证了
G_k恰好等于那些“在未暴露时不会患非目标亚型”的个体。因此,我们可以通过限制在A=0且Y≠k'的个体来近似G_k,然后用倾向性得分加权来校正选择偏差。 - 必要条件:全局单调性。如果违反,识别公式不成立。
- 解决的技术难点:如何将主分层
G_k映射到可观测数据的一个子集上。单调性假设提供了这个映射。
- 陈述:在假设 1-4(全局单调性)下,SF-ACE(k) 可以被识别为:
-
定理 2:双重稳健估计量
- 陈述:作者提出了一个基于“倾向性得分加权”和“结果回归”的双重稳健估计量。该估计量在以下两种情况下是一致的:(a) 倾向性得分模型
P(A=1 | X)正确指定;(b) 结果回归模型E[1{Y=k} | A, X, Y≠k']正确指定。不需要两者同时正确。 - 直觉:双重稳健性来自“augmented inverse probability weighting (AIPW)”的结构。它结合了 IPW 和回归,使得只要其中一个模型正确,估计量就是一致的。
- 必要条件:识别假设(单调性、无混杂、一致性)必须成立。双重稳健性只保护模型误设,不保护识别假设。
- 解决的技术难点:如何构造一个适用于主分层效应的 AIPW 估计量。作者通过将 SF-ACE 的识别公式转化为一个“条件平均处理效应”的形式,然后应用标准的 AIPW 技术。
- 陈述:作者提出了一个基于“倾向性得分加权”和“结果回归”的双重稳健估计量。该估计量在以下两种情况下是一致的:(a) 倾向性得分模型
-
敏感性分析
- 核心量化结论:作者引入一个敏感性参数
δ,表示在G_k中,暴露对患非目标亚型的因果效应。当δ=0时,单调性假设成立。当δ ≠ 0时,SF-ACE 的估计会有一个偏差项,该偏差项是δ的函数。作者提供了偏差的显式表达式,并展示了如何通过改变δ来绘制敏感性曲线。 - 与 baseline 对比:敏感性分析没有 baseline,它本身就是一种“what-if”分析。
- 核心量化结论:作者引入一个敏感性参数
证明路线与技术技巧¶
-
整体路线:
- 识别:首先,在单调性假设下,证明
G_k与可观测数据的一个子集(A=0, Y≠k')之间存在一一对应关系。然后,将 SF-ACE 表达为在这个子集上的条件期望之差,并用倾向性得分加权来校正选择偏差。 - 估计:基于识别公式,构造三个估计量:
- IPW 估计量:直接用倾向性得分加权。
- 回归估计量:用结果回归模型预测
P(Y=k | A, X, Y≠k')。 - 双重稳健估计量:结合 IPW 和回归,使用 AIPW 结构。
- 敏感性分析:放松单调性假设,引入敏感性参数
δ,推导出 SF-ACE 估计的偏差表达式,并展示如何通过改变δ来评估结果的稳健性。
- 识别:首先,在单调性假设下,证明
-
关键跳跃点:
- 从主分层到可观测数据的映射:这是最吃功夫的一步。作者需要证明,在单调性假设下,
G_k中的个体恰好是那些“在A=0时不会患非目标亚型”的个体。这个映射依赖于单调性假设的强度。如果单调性被违反,这个映射就不成立。 - 双重稳健估计量的构造:如何将 AIPW 技术应用于主分层效应?作者的关键技巧是将 SF-ACE 的识别公式重新表达为
E[ w(X) * (1{Y=k} - μ_1(X)) ]的形式,其中w(X)是一个权重函数,μ_1(X)是E[1{Y=k} | A=1, X, Y≠k']。然后,他们使用标准的 AIPW 结构来构造双重稳健估计量。
- 从主分层到可观测数据的映射:这是最吃功夫的一步。作者需要证明,在单调性假设下,
-
技术技巧点名:
- 倾向性得分加权(IPW):用于校正选择偏差,使得
A=0, Y≠k'的个体可以代表G_k。 - 结果回归(Outcome Regression):用于预测
P(Y=k | A, X, Y≠k'),作为 IPW 的替代或补充。 - 增强的逆概率加权(AIPW):用于构造双重稳健估计量。这是本文的核心技术贡献之一。
- 敏感性参数化:通过引入一个参数
δ来量化单调性假设的违反程度,并推导出偏差的显式表达式。
- 倾向性得分加权(IPW):用于校正选择偏差,使得
真实例子与应用¶
- 用的什么数据 / 场景:两个大型队列数据:Nurses' Health Study (NHS) 和 Health Professionals Follow-up Study (HPFS)。研究吸烟(
A)对结直肠癌(Y)的 MSI 亚型(k=1表示 MSI-H,k=2表示 MSI-L/MSS)的因果效应。 - 怎么把本文方法用上去:
- 定义目标亚型
k=1(MSI-H)。那么G是“无论吸烟与否,都不会患 MSI-L/MSS”的个体。 - 假设全局单调性:吸烟不会减少患任何亚型的风险(即
Y(1) ≥ Y(0))。 - 使用逻辑回归估计倾向性得分
P(A=1 | X)(X包括年龄、性别、BMI、家族史等)。 - 使用逻辑回归估计结果回归模型
P(Y=1 | A, X, Y≠2)(即,在那些没有患 MSI-L/MSS 的人中,吸烟对患 MSI-H 的概率的影响)。 - 计算 IPW、回归和双重稳健估计量,得到 SF-ACE(1) 的估计值。
- 进行敏感性分析,改变
δ(即吸烟对患 MSI-L/MSS 的因果效应),观察 SF-ACE(1) 的估计值如何变化。
- 定义目标亚型
- 得到什么结果:
- 在 NHS 和 HPFS 中,SF-ACE(1) 的估计值均为正,且统计显著,表明吸烟会增加患 MSI-H 亚型结直肠癌的风险。
- 双重稳健估计量的标准误小于 IPW 和回归估计量,表明其效率更高。
- 敏感性分析显示,即使吸烟对患 MSI-L/MSS 有中等程度的正效应(
δ为正),SF-ACE(1) 的估计值仍然为正且显著,表明结果对单调性假设的违反是稳健的。
- 这个例子想说明什么:
- 验证理论:展示了 SF-ACE 在真实数据中是可估计的,且估计结果与流行病学知识一致(吸烟是结直肠癌的风险因素)。
- 展示相对 baseline 的优势:相比传统的“分别估计再比较”方法(Sasson et al., 2023),SF-ACE 提供了一个更干净的因果解释,因为它排除了那些“因吸烟而改变亚型归属”的个体。作者在讨论中声称,传统方法可能会高估或低估吸烟对 MSI-H 的效应,而 SF-ACE 给出了一个更准确的估计。
🔎 结论是否比证明窄¶
- 是。作者在引言和摘要中声称 SF-ACE 是“the causal effect of the exposure among those who would be free from other disease subtypes under any exposure level”。然而,定理 1 的识别依赖于全局单调性假设。作者在讨论中承认“the monotonicity assumption is strong and untestable”。因此,结论“SF-ACE 是可识别的”实际上是在“全局单调性成立”这个强条件下才成立的。作者没有证明在更弱的条件下(如亚型特异性单调性)SF-ACE 是否可识别,只是进行了敏感性分析。这意味着,如果全局单调性不成立,SF-ACE 的估计可能是有偏的,且偏差方向未知。
四、开放问题¶
- 更弱的识别条件:本文的识别依赖于全局单调性假设。能否在更弱的条件下(如亚型特异性单调性,或没有单调性但使用工具变量)识别 SF-ACE?这扎根于本文的定理 1 和敏感性分析部分,作者明确承认单调性假设是强的。
- 效率界与最优估计:作者提出了一个双重稳健估计量,但没有推导其半参数效率界。SF-ACE 作为主分层效应,其效率界是什么?是否存在一个达到该效率界的估计量?这扎根于本文的双重稳健估计量部分,作者没有进行效率理论分析。
- 高维协变量下的估计:本文的估计量依赖于倾向性得分和结果回归的模型指定。当协变量
X的维度很高时(如基因数据),如何选择模型?能否使用高维统计方法(如 Lasso)进行变量选择,并保证估计量的性质?这扎根于本文的估计部分,作者只考虑了低维协变量。 - 多个目标亚型的联合推断:本文只关注一个目标亚型
k。如果研究者同时关心多个亚型(如 MSI-H 和 MSI-L/MSS),如何对多个 SF-ACE 进行联合推断?是否存在多重比较问题?这扎根于本文的设定部分,作者只定义了一个目标亚型的 SF-ACE。
Maintained by 陈星宇 · Homepage · Source on GitHub