Assessing interactive causes of an occurred outcome due to two binary exposures¶
作者: Shanshan Luo, Wei Li, Xueli Wang, Shaojie Wei, Zhi Geng
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 这个子方向属于回顾性因果推断(Retrospective Causal Inference / Causes of Effects),要解决的根本统计问题是:当某个结局(如肺癌)已经发生,且个体受过多个暴露(如吸烟与石棉暴露)时,如何从概率上定量归因于某个特定暴露或它们的交互作用。与前瞻性推断(Effects of Causes,关心如果施加暴露结局概率如何变)不同,回顾性推断的核心 estimand 涉及联合反事实潜在结局的分布,这在即便是在随机化试验下也天然不可识别,必须引入额外假设或辅助变量。当前该方向的成熟度处于“ estimand 定义已初步统一,但非参数/半参数可识别性条件仍极度苛刻、主要依赖强参数假设”的阶段。
发展脉络 - 奠基工作:Dawid et al. (2014) 与 Pearl (2000) 为单暴露、单结局情形定义了概率因果性(Probability of Causation, PC)与必要性概率(Probability of Necessity, PN),明确了回顾性归因的数学对象,但留下口子:单暴露的 PN/PC 在无强假设下仅能被部分识别(给出 bounds),且未触及多暴露的交互归因。 - 多暴露与交互的扩展:Lu et al. (2023) 与 Li et al. (2024) 将回顾性归因推广到多个二元暴露,提出了“原因的后验效应”,定义了多暴露下的总效应与直接效应归因概率;Egami & Imai (2018) 则在前瞻性视角下提出了平均边际交互效应(AMIE),解决了传统交互效应基线依赖的问题。这一簇工作留下了“多暴露下交互作用的回顾性归因 estimand 如何定义与识别”的口子。 - 可识别性的突破与瓶颈:由于回顾性 estimand 依赖联合潜在结局 \(Y(z,m)\),识别必须借助辅助变量。Miao et al. (2016) 在非忽略缺失数据中证明了正态性条件可带来点识别;Wang et al. (2017b) 在截断死亡问题中引入替代变量;Jiang & Ding (2020) 建立了主分层下辅助变量识别的一般理论。这些工作留下了口子:辅助变量的条件(如正态性、主分层可忽略性)极强,且未针对“交互归因”这一涉及四个联合潜在结局的更复杂结构给出专门方案。 - 本文的位置:本文在 Lu et al. (2023) 的多暴露 estimand 定义之上,聚焦“交互作用导致已发生结局”的后验概率,并借用 Miao et al. (2016) 与 Wang et al. (2017b) 的辅助变量+参数假设路线,引入一个次级结局 \(W\) 作为 proxy,在正态性假设下实现了点识别。
子线索聚类 1. 前瞻性交互效应:以 Egami & Imai (2018) 的 AMIE 为代表,关心前瞻性因果交互,不涉及反事实联合分布的回顾性识别瓶颈。 2. 单暴露回顾性归因与部分识别:以 Dawid et al. (2014, 2019) 与 Pearl 为代表,核心是 PN/PC 的 bounds,承认无强假设下只能做部分识别。 3. 多暴露回顾性归因定义:以 Lu et al. (2023)、Li et al. (2024)、Zhang et al. (2025) 为代表,将 estimand 推广到多暴露/有序结局,但识别条件仍待解决。 4. 辅助变量驱动的点识别:以 Miao et al. (2016, 2023)、Wang et al. (2017b)、Jiang & Ding (2020) 为代表,用 proxy/辅助变量+参数假设绕过联合潜在结局的不可观测性。
这个方向在追问的核心问题 1. 多暴露下交互作用的回顾性归因 estimand 如何在反事实框架下严格定义,使其反映协同/拮抗机制而非仅仅是基线依赖的统计交互? 2. 联合潜在结局 \(\{Y(z,m)\}_{z,m}\) 的分布不可观测,如何引入辅助变量或先验假设,将回顾性 estimand 从部分识别推进到点识别? 3. 点识别所需的参数假设(如正态性、单调性)在流行病学/法律实证中是否可检验、是否有替代的半参数路线?
⚠️ 作者的 framing(这是作者的说法) - 作者将缺口 frame 为:法律与流行病学迫切需要为已发生结局指认交互原因(引用 Westminster [2006] 原话:“medical science is such that no one can identify which of them it…”),而传统 RCT 与前瞻性交互效应无法回答此问题,因此定义后验交互归因概率是“显然的下一步”。 - 作者淡化了部分识别路线:仅在文末提了一句“nonparametric partial identification techniques [Dawid et al., 2024] may complement our parametric approach”,但整篇核心论证完全绕过 bounds,直接追求点识别。竞争路线(如 Dawid et al. 2019 证明即便有完全中介,bounds 的增益也有限)被一笔带过。 - 明显该被引/该存在却没出现在 intro 里的:Proximal Causal Inference(近端因果推断)。本文用次级结局 \(W\) 做 proxy 的结构与 proximal CI 中的 negative-control-outcome 思路高度同构(要求 \(W\) 不直接受暴露影响、与主结局共享潜在变异),但 intro 未引用 proximal CI 文献(如 Tchetgen Tchetgen et al. 2020+)。这是一个值得研究者去查的缺口:本文的 Assumption 3 与 proximal CI 的 bridge function 条件是否数学等价?若等价,本文的识别公式可否用 proximal g-formula 重新推导?
张力 被引文献之间未见明显对立结论。但存在路线张力:Dawid et al. (2019) 指出即使有极强中介信息,部分识别的 bounds 增益也有限,暗示点识别极难;而本文与 Miao et al. (2016) 则通过引入参数假设直接宣称实现了点识别。这两条路线(部分识别 vs. 参数点识别)的张力在于:参数假设的脆弱性是否比 bounds 的宽度更不可接受?本文未正面回应此张力。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据 - 参数 / estimand: - \(Z \in \{0,1\}\):二元暴露 1(如吸烟)。 - \(M \in \{0,1\}\):二元暴露 2(如石棉暴露)。 - \(Y \in \{0,1\}\):二元主结局(如肺癌发生)。 - \(W\):次级结局/辅助变量(连续或离散,如某生物标志物或临床次级指标)。 - 目标 estimand 为后验交互归因概率,例如协同交互作用的后验概率:\(P(Y(1,1)=1, Y(1,0)=0, Y(0,1)=0 \mid Z=1, M=1, Y=1)\)(即在观察到的吸烟+石棉+肺癌人群中,肺癌完全由两者协同交互导致的概率)。 - 潜在变量: - \(Y(z,m)\):在暴露取值为 \((z,m)\) 时的潜在结局。 - \(W(z,m)\):在暴露取值为 \((z,m)\) 时的潜在次级结局。 - \(U\):主分层,由潜在结局向量 \((Y(1,1), Y(1,0), Y(0,1), Y(0,0))\) 的取值组合定义。 - 随机变量 / 样本: - 对每个个体 \(i\),可观测数据为 \((Z_i, M_i, Y_i, W_i)\)。 - 样本量 \(n\)。 - 模型与数据生成机制: - 暴露 \((Z, M)\) 可随机化或条件可忽略。 - \(Y\) 由主分层 \(U\) 与暴露 \((Z,M)\) 决定:\(Y = Y(Z,M)\)。 - \(W\) 作为次级结局,在主结局 \(Y\) 之后或同时发生,与 \(U\) 和 \(Y\) 存在依赖关系。 - 要估的对象是 \(U\) 的特定取值在观测子群中的条件概率。
第二步:最小内核 剥掉所有一般性讨论,支撑整篇论文的最小数学内核是:利用有限混合模型的可识别性,从观测到的 \(W\) 的分布中反推主分层 \(U\) 的概率。
最简特例(\(Z, M\) 均为二元,\(Y\) 为二元,\(W\) 为连续): 1. 目标:我们要算 \(P(U = \text{协同型} \mid Z=1, M=1, Y=1)\),其中“协同型”指 \(Y(1,1)=1, Y(1,0)=0, Y(0,1)=0, Y(0,0)=0\)。 2. 困难:对于 \(Z=1, M=1, Y=1\) 的人,我们只看到 \(Y(1,1)=1\),永远看不到 \(Y(1,0)\) 或 \(Y(0,1)\),因此无法直接判断他属于“协同型”还是“仅吸烟型”(\(Y(1,1)=1, Y(1,0)=1, Y(0,1)=0\))等。 3. 破局关键:引入 \(W\)。在给定 \(Z=1, M=1, Y=1\) 的子群中,人群实际上是多个主分层的混合。观测到的 \(W\) 的分布是各分层下 \(W\) 分布的混合:
三、这篇论文做了什么¶
三句话 ① 研究了两个二元暴露下已发生二元结局的交互因果归因问题,定义了刻画交互作用的后验概率 estimand;② 核心方法是引入一个在主结局之后出现的次级结局作为辅助变量,将反事实主分层的识别转化为有限混合模型的识别;③ 主要结论是在单调性与次级结局的条件正态性假设下,交互作用的后验概率可以被点识别,且在吸烟-石棉-肺癌数据中协同交互的归因概率占主导。
关键设定与假设 在第二节最小记号基础上补全: - Assumption 1 (Ignorability / Sequential Randomization):\(Z, M\) 的分配是可忽略的(或条件于协变量可忽略)。统计含义:排除了暴露选择偏倚,是因果推断的标准起点,本文未放宽。 - Assumption 2 (Monotonicity):\(Y(1,1) \ge Y(z,m)\) 对所有 \((z,m)\) 成立。统计含义:排除了“仅吸烟不石棉反而致癌”的拮抗型分层,将主分层的数量从 \(2^4=16\) 个锐减至 5 个(总是发生、协同、仅Z、仅M、从不发生)。相比 Lu et al. (2023) 的多暴露设定,此处的双暴露单调性更强、更易遭实证质疑。 - Assumption 3 (Secondary Outcome as Proxy): - (i) \(W \mid (U, Y)\) 服从正态分布。统计含义:强参数假设,是点识别的核心引擎,与 Miao et al. (2016) 在缺失数据中的正态性假设同源。 - (ii) \(W\) 条件独立于 \((Z, M)\) 给定 \((U, Y)\)。统计含义:次级结局不受暴露直接影响,仅通过主分层与主结局起作用,这使 \(W\) 成为一个合格的 proxy(类似 proximal CI 中的 negative control outcome 要求)。 - (iii) 不同主分层下 \(W\) 的均值不同。统计含义:保证混合模型组件可区分,否则混合模型退化为单组件,无法反推分层比例。
主要结果 - Theorem 1 (Identifiability of Posterior Probabilities):在 Assumptions 1-3 下,所有交互归因的后验概率(如协同型、仅Z型、仅M型等在观测子群中的比例)可以被点识别。 - 直觉:观测数据 \((Z,M,Y,W)\) 提供了各暴露-结局组合下 \(W\) 的边缘分布。由于 \(W\) 不受暴露直接影响(A3(ii)),不同暴露组下 \(W\) 的分布差异完全由各组中主分层比例的差异驱动。结合正态混合模型的可识别性(A3(i, iii)),可以从分布差异中解出各分层比例,进而由贝叶斯公式算出给定暴露与结局下的后验分层概率。 - 必要条件:A3 的正态性与均值互异是必要条件,若放宽为非参数分布,混合模型一般不可识别,estimand 将退回部分识别。 - 解决的技术难点:绕过了四个联合潜在结局不可观测的根本障碍,将因果识别问题转化为一个经典的统计识别问题(混合模型)。
证明路线与技术技巧 - 整体路线: 1. 主分层定义与化简:利用单调性(A2),将 16 个潜在结局组合化简为 5 个主分层。 2. 混合结构建立:写出给定观测 \((Z,M,Y)\) 下 \(W\) 的分布,证明它是 5 个主分层下 \(W\) 分布的有限混合,混合权重为主分层的条件概率。 3. 跨组方程联立:利用 A3(ii)(\(W\) 独立于暴露),不同暴露组 \((z,m)\) 下同一主分层的 \(W\) 分布参数相同,仅混合权重不同。由此得到多个观测混合分布方程。 4. 混合模型识别:引用 Miao et al. (2016) / Kasahara & Shimotsu (2015) 的正态混合模型可识别性定理,从联立方程中解出所有混合权重与组件参数。 5. Estimand 回代:将识别出的混合权重(即 \(P(U \mid Z, M, Y)\))组合,得到目标后验交互归因概率。 - 关键跳跃点:从“联合潜在结局不可观测”跳跃到“混合权重可识别”,核心卡在混合模型组件参数是否随暴露组变化。A3(ii) 保证了组件参数跨组不变,这是联立方程可解的关键。若无此假设,不同暴露组有不同组件参数,方程自由度不足,识别破产。 - 技术技巧点名: - Finite Mixture Model Identifiability:用正态混合模型的可识别性定理(来自 Miao et al. 2016)将因果 estimand 从不可识别拉到点识别,起核心引擎作用。 - Principal Stratification:用主分层框架(Frangakis & Rubin 2002)定义 estimand,将交互归因转化为分层比例问题。 - Proxy / Auxiliary Variable Conditioning:用次级结局 \(W\) 的条件独立性结构切断暴露对 proxy 的直接影响,结构上等同于 proximal CI 中的 negative-control-outcome 条件。
真实例子与应用 - 数据 / 场景:Hilt et al. (1986) 的 Telemark 县横断面研究,21319 名男性,记录了石棉暴露 (\(M\))、吸烟 (\(Z\)) 与肺癌 (\(Y\))。 - 怎么用上去:本文将研究中的某个后续临床指标或随访变量作为次级结局 \(W\)(具体变量需查原文补充,但框架上将其视为满足 A3 的 proxy),将观测数据代入识别公式,估计各主分层的后验概率。 - 得到什么结果:对于 \(Z=1, M=1, Y=1\)(既吸烟又暴露石棉且得肺癌)的子群,协同交互作用(\(U=\) 协同型)的后验归因概率占主导,远高于“仅吸烟”或“仅石棉”的后验概率。 - 想说明什么:验证理论可行性,并展示在经典流行病学案例中,交互归因不仅是统计显著的,而且是回顾性归因的主要责任方,回应了 Westminster [2006] 提出的法律归因困境。
🔎 结论是否比证明窄 本文在 Assumption 3(i) 下严格证明了点识别,但在应用与讨论中,对正态性假设的脆弱性仅做了轻描淡写的检验建议(引用 Kasahara & Shimotsu 2015 的混合模型检验),未给出若正态性被破坏时 estimand 的 bounds(部分识别)。作者 claim 点识别是本文贡献,但泛泛提及“partial identification may complement”,这属于未严格证明的 conjecture 式展望,实际结论的稳健性远比定理陈述的窄。
四、开放问题(点到为止,扎根具体语句)¶
- 放宽正态性假设走向半参数识别:Assumption 3(i) 的正态性是点识别的引擎,但实证中极难满足。能否找到半参数条件(如仅要求分布属于某位置-尺度族,或利用多个 proxy 的矩条件)实现点识别或收紧 bounds?扎根点:本文对 A3(i) 的讨论及 Miao et al. (2016) 的正态性局限。
- 与 Proximal Causal Inference 框架的统一:次级结局 \(W\) 的条件独立性(A3(ii))与 proximal CI 中 negative-control-outcome 的 U-条件结构同构。能否用 proximal CI 的 bridge function 语言重新表述本文的识别公式,从而将正态性假设替换为 bridge function 的存在性假设?扎根点:本文 intro 缺失的 proximal CI 引用,以及 A3(ii) 的数学形式。
- 单调性假设(A2)的检验与放宽:双暴露单调性排除了拮抗型交互,在流行病学中可能不成立(如某暴露单独有害但联合反而降低风险)。若去掉单调性,主分层增至 16 个,混合模型组件数激增,正态混合是否仍可识别?扎根点:Assumption 2 的陈述及 Lu et al. (2023) 对多暴露单调性的讨论。
- 连续/有序暴露与结局的推广:本文锁定二元暴露与二元结局,Zhang et al. (2025) 刚推广了有序结局的 PN。如何将交互归因的后验概率定义与识别推广到连续暴露(此时主分层变为连续分布,混合模型框架失效)?扎根点:Lu et al. (2023) 与 Zhang et al. (2025) 的引用语境。
Maintained by 陈星宇 · Homepage · Source on GitHub