Assessing interactive causes of an occurred outcome due to two binary exposures¶

作者: Shanshan Luo, Wei Li, Xueli Wang, Shaojie Wei, Zhi Geng
来源: Biometrics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向属于回顾性因果推断（Retrospective Causal Inference / Causes of Effects），要解决的根本统计问题是：当某个结局（如肺癌）已经发生，且个体受过多个暴露（如吸烟与石棉暴露）时，如何从概率上定量归因于某个特定暴露或它们的交互作用。与前瞻性推断（Effects of Causes，关心如果施加暴露结局概率如何变）不同，回顾性推断的核心 estimand 涉及联合反事实潜在结局的分布，这在即便是在随机化试验下也天然不可识别，必须引入额外假设或辅助变量。当前该方向的成熟度处于“ estimand 定义已初步统一，但非参数/半参数可识别性条件仍极度苛刻、主要依赖强参数假设”的阶段。

发展脉络 - 奠基工作：Dawid et al. (2014) 与 Pearl (2000) 为单暴露、单结局情形定义了概率因果性（Probability of Causation, PC）与必要性概率（Probability of Necessity, PN），明确了回顾性归因的数学对象，但留下口子：单暴露的 PN/PC 在无强假设下仅能被部分识别（给出 bounds），且未触及多暴露的交互归因。 - 多暴露与交互的扩展：Lu et al. (2023) 与 Li et al. (2024) 将回顾性归因推广到多个二元暴露，提出了“原因的后验效应”，定义了多暴露下的总效应与直接效应归因概率；Egami & Imai (2018) 则在前瞻性视角下提出了平均边际交互效应（AMIE），解决了传统交互效应基线依赖的问题。这一簇工作留下了“多暴露下交互作用的回顾性归因 estimand 如何定义与识别”的口子。 - 可识别性的突破与瓶颈：由于回顾性 estimand 依赖联合潜在结局 \(Y(z,m)\)，识别必须借助辅助变量。Miao et al. (2016) 在非忽略缺失数据中证明了正态性条件可带来点识别；Wang et al. (2017b) 在截断死亡问题中引入替代变量；Jiang & Ding (2020) 建立了主分层下辅助变量识别的一般理论。这些工作留下了口子：辅助变量的条件（如正态性、主分层可忽略性）极强，且未针对“交互归因”这一涉及四个联合潜在结局的更复杂结构给出专门方案。 - 本文的位置：本文在 Lu et al. (2023) 的多暴露 estimand 定义之上，聚焦“交互作用导致已发生结局”的后验概率，并借用 Miao et al. (2016) 与 Wang et al. (2017b) 的辅助变量+参数假设路线，引入一个次级结局 \(W\) 作为 proxy，在正态性假设下实现了点识别。

子线索聚类 1. 前瞻性交互效应：以 Egami & Imai (2018) 的 AMIE 为代表，关心前瞻性因果交互，不涉及反事实联合分布的回顾性识别瓶颈。 2. 单暴露回顾性归因与部分识别：以 Dawid et al. (2014, 2019) 与 Pearl 为代表，核心是 PN/PC 的 bounds，承认无强假设下只能做部分识别。 3. 多暴露回顾性归因定义：以 Lu et al. (2023)、Li et al. (2024)、Zhang et al. (2025) 为代表，将 estimand 推广到多暴露/有序结局，但识别条件仍待解决。 4. 辅助变量驱动的点识别：以 Miao et al. (2016, 2023)、Wang et al. (2017b)、Jiang & Ding (2020) 为代表，用 proxy/辅助变量+参数假设绕过联合潜在结局的不可观测性。

这个方向在追问的核心问题 1. 多暴露下交互作用的回顾性归因 estimand 如何在反事实框架下严格定义，使其反映协同/拮抗机制而非仅仅是基线依赖的统计交互？ 2. 联合潜在结局 \(\{Y(z,m)\}_{z,m}\) 的分布不可观测，如何引入辅助变量或先验假设，将回顾性 estimand 从部分识别推进到点识别？ 3. 点识别所需的参数假设（如正态性、单调性）在流行病学/法律实证中是否可检验、是否有替代的半参数路线？

⚠️ 作者的 framing（这是作者的说法） - 作者将缺口 frame 为：法律与流行病学迫切需要为已发生结局指认交互原因（引用 Westminster [2006] 原话：“medical science is such that no one can identify which of them it…”），而传统 RCT 与前瞻性交互效应无法回答此问题，因此定义后验交互归因概率是“显然的下一步”。 - 作者淡化了部分识别路线：仅在文末提了一句“nonparametric partial identification techniques [Dawid et al., 2024] may complement our parametric approach”，但整篇核心论证完全绕过 bounds，直接追求点识别。竞争路线（如 Dawid et al. 2019 证明即便有完全中介，bounds 的增益也有限）被一笔带过。 - 明显该被引/该存在却没出现在 intro 里的：Proximal Causal Inference（近端因果推断）。本文用次级结局 \(W\) 做 proxy 的结构与 proximal CI 中的 negative-control-outcome 思路高度同构（要求 \(W\) 不直接受暴露影响、与主结局共享潜在变异），但 intro 未引用 proximal CI 文献（如 Tchetgen Tchetgen et al. 2020+）。这是一个值得研究者去查的缺口：本文的 Assumption 3 与 proximal CI 的 bridge function 条件是否数学等价？若等价，本文的识别公式可否用 proximal g-formula 重新推导？

张力被引文献之间未见明显对立结论。但存在路线张力：Dawid et al. (2019) 指出即使有极强中介信息，部分识别的 bounds 增益也有限，暗示点识别极难；而本文与 Miao et al. (2016) 则通过引入参数假设直接宣称实现了点识别。这两条路线（部分识别 vs. 参数点识别）的张力在于：参数假设的脆弱性是否比 bounds 的宽度更不可接受？本文未正面回应此张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据 - 参数 / estimand： - \(Z \in \{0,1\}\)：二元暴露 1（如吸烟）。 - \(M \in \{0,1\}\)：二元暴露 2（如石棉暴露）。 - \(Y \in \{0,1\}\)：二元主结局（如肺癌发生）。 - \(W\)：次级结局/辅助变量（连续或离散，如某生物标志物或临床次级指标）。 - 目标 estimand 为后验交互归因概率，例如协同交互作用的后验概率：\(P(Y(1,1)=1, Y(1,0)=0, Y(0,1)=0 \mid Z=1, M=1, Y=1)\)（即在观察到的吸烟+石棉+肺癌人群中，肺癌完全由两者协同交互导致的概率）。 - 潜在变量： - \(Y(z,m)\)：在暴露取值为 \((z,m)\) 时的潜在结局。 - \(W(z,m)\)：在暴露取值为 \((z,m)\) 时的潜在次级结局。 - \(U\)：主分层，由潜在结局向量 \((Y(1,1), Y(1,0), Y(0,1), Y(0,0))\) 的取值组合定义。 - 随机变量 / 样本： - 对每个个体 \(i\)，可观测数据为 \((Z_i, M_i, Y_i, W_i)\)。 - 样本量 \(n\)。 - 模型与数据生成机制： - 暴露 \((Z, M)\) 可随机化或条件可忽略。 - \(Y\) 由主分层 \(U\) 与暴露 \((Z,M)\) 决定：\(Y = Y(Z,M)\)。 - \(W\) 作为次级结局，在主结局 \(Y\) 之后或同时发生，与 \(U\) 和 \(Y\) 存在依赖关系。 - 要估的对象是 \(U\) 的特定取值在观测子群中的条件概率。

第二步：最小内核 剥掉所有一般性讨论，支撑整篇论文的最小数学内核是：利用有限混合模型的可识别性，从观测到的 \(W\) 的分布中反推主分层 \(U\) 的概率。

最简特例（\(Z, M\) 均为二元，\(Y\) 为二元，\(W\) 为连续）： 1. 目标：我们要算 \(P(U = \text{协同型} \mid Z=1, M=1, Y=1)\)，其中“协同型”指 \(Y(1,1)=1, Y(1,0)=0, Y(0,1)=0, Y(0,0)=0\)。 2. 困难：对于 \(Z=1, M=1, Y=1\) 的人，我们只看到 \(Y(1,1)=1\)，永远看不到 \(Y(1,0)\) 或 \(Y(0,1)\)，因此无法直接判断他属于“协同型”还是“仅吸烟型”（\(Y(1,1)=1, Y(1,0)=1, Y(0,1)=0\)）等。 3. 破局关键：引入 \(W\)。在给定 \(Z=1, M=1, Y=1\) 的子群中，人群实际上是多个主分层的混合。观测到的 \(W\) 的分布是各分层下 \(W\) 分布的混合：

\[P(W \mid Z=1, M=1, Y=1) = \sum_{u \in \text{strata with } Y(1,1)=1} P(W \mid U=u, Y=1) P(U=u \mid Z=1, M=1, Y=1)\]

4. 为什么成立：如果假设 \(W \mid U=u, Y=1\) 服从正态分布 \(N(\mu_u, \sigma^2)\)，且不同分层的均值 \(\mu_u\) 互不相同，那么上述混合分布就是一个可识别的有限正态混合模型。根据 Miao et al. (2016) 与 Kasahara & Shimotsu (2015) 的结论，混合比例 \(P(U=u \mid Z=1, M=1, Y=1)\) 与各分层均值 \(\mu_u\) 可以从观测分布 \(P(W \mid Z=1, M=1, Y=1)\) 中被点识别出来。 5. 结论：一旦混合比例被识别，我们直接拿到了目标 estimand \(P(U = \text{协同型} \mid Z=1, M=1, Y=1)\)。整篇论文的一般设定与证明，本质上只是在这个最简特例上加上条件可忽略性、单调性等假设，以确保混合模型的结构与参数个数是确定的。

三、这篇论文做了什么¶

三句话 ① 研究了两个二元暴露下已发生二元结局的交互因果归因问题，定义了刻画交互作用的后验概率 estimand；② 核心方法是引入一个在主结局之后出现的次级结局作为辅助变量，将反事实主分层的识别转化为有限混合模型的识别；③ 主要结论是在单调性与次级结局的条件正态性假设下，交互作用的后验概率可以被点识别，且在吸烟-石棉-肺癌数据中协同交互的归因概率占主导。

关键设定与假设 在第二节最小记号基础上补全： - Assumption 1 (Ignorability / Sequential Randomization)：\(Z, M\) 的分配是可忽略的（或条件于协变量可忽略）。统计含义：排除了暴露选择偏倚，是因果推断的标准起点，本文未放宽。 - Assumption 2 (Monotonicity)：\(Y(1,1) \ge Y(z,m)\) 对所有 \((z,m)\) 成立。统计含义：排除了“仅吸烟不石棉反而致癌”的拮抗型分层，将主分层的数量从 \(2^4=16\) 个锐减至 5 个（总是发生、协同、仅Z、仅M、从不发生）。相比 Lu et al. (2023) 的多暴露设定，此处的双暴露单调性更强、更易遭实证质疑。 - Assumption 3 (Secondary Outcome as Proxy)： - (i) \(W \mid (U, Y)\) 服从正态分布。统计含义：强参数假设，是点识别的核心引擎，与 Miao et al. (2016) 在缺失数据中的正态性假设同源。 - (ii) \(W\) 条件独立于 \((Z, M)\) 给定 \((U, Y)\)。统计含义：次级结局不受暴露直接影响，仅通过主分层与主结局起作用，这使 \(W\) 成为一个合格的 proxy（类似 proximal CI 中的 negative control outcome 要求）。 - (iii) 不同主分层下 \(W\) 的均值不同。统计含义：保证混合模型组件可区分，否则混合模型退化为单组件，无法反推分层比例。

主要结果 - Theorem 1 (Identifiability of Posterior Probabilities)：在 Assumptions 1-3 下，所有交互归因的后验概率（如协同型、仅Z型、仅M型等在观测子群中的比例）可以被点识别。 - 直觉：观测数据 \((Z,M,Y,W)\) 提供了各暴露-结局组合下 \(W\) 的边缘分布。由于 \(W\) 不受暴露直接影响（A3(ii)），不同暴露组下 \(W\) 的分布差异完全由各组中主分层比例的差异驱动。结合正态混合模型的可识别性（A3(i, iii)），可以从分布差异中解出各分层比例，进而由贝叶斯公式算出给定暴露与结局下的后验分层概率。 - 必要条件：A3 的正态性与均值互异是必要条件，若放宽为非参数分布，混合模型一般不可识别，estimand 将退回部分识别。 - 解决的技术难点：绕过了四个联合潜在结局不可观测的根本障碍，将因果识别问题转化为一个经典的统计识别问题（混合模型）。

证明路线与技术技巧 - 整体路线： 1. 主分层定义与化简：利用单调性（A2），将 16 个潜在结局组合化简为 5 个主分层。 2. 混合结构建立：写出给定观测 \((Z,M,Y)\) 下 \(W\) 的分布，证明它是 5 个主分层下 \(W\) 分布的有限混合，混合权重为主分层的条件概率。 3. 跨组方程联立：利用 A3(ii)（\(W\) 独立于暴露），不同暴露组 \((z,m)\) 下同一主分层的 \(W\) 分布参数相同，仅混合权重不同。由此得到多个观测混合分布方程。 4. 混合模型识别：引用 Miao et al. (2016) / Kasahara & Shimotsu (2015) 的正态混合模型可识别性定理，从联立方程中解出所有混合权重与组件参数。 5. Estimand 回代：将识别出的混合权重（即 \(P(U \mid Z, M, Y)\)）组合，得到目标后验交互归因概率。 - 关键跳跃点：从“联合潜在结局不可观测”跳跃到“混合权重可识别”，核心卡在混合模型组件参数是否随暴露组变化。A3(ii) 保证了组件参数跨组不变，这是联立方程可解的关键。若无此假设，不同暴露组有不同组件参数，方程自由度不足，识别破产。 - 技术技巧点名： - Finite Mixture Model Identifiability：用正态混合模型的可识别性定理（来自 Miao et al. 2016）将因果 estimand 从不可识别拉到点识别，起核心引擎作用。 - Principal Stratification：用主分层框架（Frangakis & Rubin 2002）定义 estimand，将交互归因转化为分层比例问题。 - Proxy / Auxiliary Variable Conditioning：用次级结局 \(W\) 的条件独立性结构切断暴露对 proxy 的直接影响，结构上等同于 proximal CI 中的 negative-control-outcome 条件。

真实例子与应用 - 数据 / 场景：Hilt et al. (1986) 的 Telemark 县横断面研究，21319 名男性，记录了石棉暴露 (\(M\))、吸烟 (\(Z\)) 与肺癌 (\(Y\))。 - 怎么用上去：本文将研究中的某个后续临床指标或随访变量作为次级结局 \(W\)（具体变量需查原文补充，但框架上将其视为满足 A3 的 proxy），将观测数据代入识别公式，估计各主分层的后验概率。 - 得到什么结果：对于 \(Z=1, M=1, Y=1\)（既吸烟又暴露石棉且得肺癌）的子群，协同交互作用（\(U=\) 协同型）的后验归因概率占主导，远高于“仅吸烟”或“仅石棉”的后验概率。 - 想说明什么：验证理论可行性，并展示在经典流行病学案例中，交互归因不仅是统计显著的，而且是回顾性归因的主要责任方，回应了 Westminster [2006] 提出的法律归因困境。

🔎 结论是否比证明窄 本文在 Assumption 3(i) 下严格证明了点识别，但在应用与讨论中，对正态性假设的脆弱性仅做了轻描淡写的检验建议（引用 Kasahara & Shimotsu 2015 的混合模型检验），未给出若正态性被破坏时 estimand 的 bounds（部分识别）。作者 claim 点识别是本文贡献，但泛泛提及“partial identification may complement”，这属于未严格证明的 conjecture 式展望，实际结论的稳健性远比定理陈述的窄。

四、开放问题（点到为止，扎根具体语句）¶

放宽正态性假设走向半参数识别：Assumption 3(i) 的正态性是点识别的引擎，但实证中极难满足。能否找到半参数条件（如仅要求分布属于某位置-尺度族，或利用多个 proxy 的矩条件）实现点识别或收紧 bounds？扎根点：本文对 A3(i) 的讨论及 Miao et al. (2016) 的正态性局限。
与 Proximal Causal Inference 框架的统一：次级结局 \(W\) 的条件独立性（A3(ii)）与 proximal CI 中 negative-control-outcome 的 U-条件结构同构。能否用 proximal CI 的 bridge function 语言重新表述本文的识别公式，从而将正态性假设替换为 bridge function 的存在性假设？扎根点：本文 intro 缺失的 proximal CI 引用，以及 A3(ii) 的数学形式。
单调性假设（A2）的检验与放宽：双暴露单调性排除了拮抗型交互，在流行病学中可能不成立（如某暴露单独有害但联合反而降低风险）。若去掉单调性，主分层增至 16 个，混合模型组件数激增，正态混合是否仍可识别？扎根点：Assumption 2 的陈述及 Lu et al. (2023) 对多暴露单调性的讨论。
连续/有序暴露与结局的推广：本文锁定二元暴露与二元结局，Zhang et al. (2025) 刚推广了有序结局的 PN。如何将交互归因的后验概率定义与识别推广到连续暴露（此时主分层变为连续分布，混合模型框架失效）？扎根点：Lu et al. (2023) 与 Zhang et al. (2025) 的引用语境。

Maintained by 陈星宇 · Homepage · Source on GitHub

Assessing interactive causes of an occurred outcome due to two binary exposures¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论