Retrospective causal inference with multiple effect variables¶

作者: Wei Li, Zitong Lu, Jinzhu Jia, Min Xie, Zhi Geng
来源: Biometrika
主题: 因果推断
相关性: 9/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomet/asad056

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注的是由果推因（retrospective causal inference / causal attribution）问题。与标准的前瞻性因果推断（从原因评估效应）不同，回顾性推断是在已经观察到一组效应（症状、结果、事件）后，追问“哪些潜在原因最可能导致了这些观测”。其根本困难在于：正向因果结构（原因→效应）下的联合分布与逆向诊断（效应→原因）的联合分布不同，且通常不可分解为纯条件概率。该领域长期以来基于反事实框架 (counterfactual) 和因果图 (DAG) 建模，但其识别条件相对稀少。成熟度处于中期：单效应变量的后验因果效应已被 Lu et al. (2023) 建立，而多效应变量联合条件化的识别理论仍然空缺。

发展脉络（history）¶

奠基工作：因果图与反事实写作：Dawid (2000) 与 Pearl & Mackenzie (2018) 清楚指出了由果推因的逆向检索问题比效应评估更具挑战性。这些工作奠定了“后验因果效应”这一概念的基础——即给定观测证据后某一原因变量的后验分布——但由于缺乏有效的识别条件，多变量情形下一般不可识别。
主要进展：单变量后验因果效应：Lu et al. (2023) 首次对一个效应变量（Y）的后验总效应、干预效应和直接效应给出了无混杂 + 单调性假设下的可识别性证明，并给出了显式识别方程。该工作解决了单结局的逆向归因，但作者自身明确指出，在多效应变量场景下，联合条件化多个结局可以消除不确定性、提高归因精度，但识别理论尚未建立。
当前 frontier：多变量后验因果效应的识别：本文（Li et al., 2024）将 Lu et al. (2023) 从单效应变量向北推广到多重效应变量（Y₁, Y₂, …, Y_k）。核心贡献是：①提出了多变量后验总效应、干预效应与直接效应的定义；②给出了在这些效应可识别的充分条件（无混杂 + 单调性） 下，后验因果效应的显式识别公式；③展示了两个真实例子（医疗诊断与责任归因）的应用潜力。
本文的位置：这是 Lu et al. (2023) 的直接后继，属于子线索内拓展型：在同一假设体系（无混杂+单调性）下，将后验归因从单一结局推广到多结局。它的弱点（下面会详述）是：并未突破 Lu et al. 的假设框架，也没有讨论部分或完全取消单调性假设时是否还能部分识别。

子线索聚类¶

该领域的文献大致落在三条子线索： - C1：基于反事实的识别理论（由果推因）：Dawid (2000), Pearl & Mackenzie (2018), Lu et al. (2023), 本文。这些工作直接定义后验因果效应并讨论识别条件。最大特征是依赖强假设（无混杂 + 有时单调性） 来获得点识别。 - C2：基于因果图的诊断 / 归因方法：使用 directed acyclic graph (DAG) 结构学习、do-calculus、干预-效应逆向映射的因果推理。这条线通常假设因果图已知或可从数据中估计，但可允许更灵活的非参数识别——代价是 causal graph 的拓扑必须充分已知。 - C3：逆概率加权 / 基于倾向分数的因果归因：使用加权方法将观测分布校正至目标群体的方法，多用于前瞻性因果推断中，但有时也被借用到由果推因框架，但常限于单个结局变量。

对本文而言，C1 是最直接的核心路径；C2 被隐性回避（作者未讨论当部分因果图已知时是否可弱化单调性假设）。

这个方向在追问的核心问题¶

多变量后验因果效应的定义是否自洽？ 当条件化多个效应变量时，事件之间的回环关联如何影响“后验因果”的概念？
无混杂 + 单调性在现实应用是否可审验 / 可放宽？ 这两个假设都非常强：无混杂乃不可测试，单调性对很多实际系统（如病因的多因子互作）不成立。除点识别外是否存在部分识别 (partial identification)？
后验因果效应识别式是否唯一？ 存在多种可能的识别方程？还是基于核心分解的单一解？
估计量构造与渐近性质？ 识别方程本身给出的是非参数贝叶斯公式，要真正做统计推断（置信区间、假设检验、efficient influence function），需要一个新的半参数 LM 环节。

⚠️ 作者的 framing¶

作者将缺口 frame 为：“已有理论只处理单效应变量 -> 实际很多场景有多结局 -> 需要为多效应变量建立后验因果效应识别 -> 我们给出了在无混杂+单调性假设下的识别方程”。这个 frame 非常连续且合逻辑。

被淡化或回避的竞争路线： - 没有讨论不使用单调性假设是否可得到部分识别或 sharper bounds（比如通过效应间联合分布的结构约束）。 - 没有比较使用全部效应联合条件化 vs 逐步条件化每个效应的优劣或识别差距（是否一定全部用上才可识别？）。 - 没有说明在多效应情形下，单调性假设可能更容易违反（比如当多个病因同时存在且彼此拮抗时）。

什么明显该被引 / 该存在、却没出现在 intro 里？ - 与 causal attribution via mediation / path-specific effects（如 Egami & Imai 2019, Causal Inference in the Social Sciences 等）的工作没有被引用。这些 work 同样讨论了“给定部分中间结局，某原因路径是否可被归因”，且较少依赖单调性假设——它们更依赖 DAG 上的可交换性与嵌套反事实。 - 部分识别 / 敏感分析工具（如 Rosenbaum 系列、Manski's bounds）未出现。在有强假设的场景中，讨论假设破灭时的稳健性边界是因果推断的标准做法——这里完全缺失。 - 对于研究者（陈星宇）来说：如果你想知道这里的“轻依赖假设”（无混杂+单调性）是否能被半参数部分识别理论替代，那么去读 Egami & Imai (2019) && Manski (2003) 是个合理的下一步。

张力¶

未在这篇论文的引用中找到明显对立结论——因为该文献尚未有另一篇直接处理多变量后验因果效应的论文来形成冲突。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：符号、模型、可观测数据交代¶

符号：
\( \mathcal{C} \)：原因变量（取值集合，可为离散或连续）。
\( \mathbf{Y} = (Y_1, Y_2, ..., Y_k) \)：效应变量向量（multi-variate outcome）。每个 \( Y_j \) 可以是二值、有序或连续。
\( \mathbf{y} \)：观测到的效应证据向量（即后验条件化“fixed”值）。
\( C \)：我们关注的单个原因变量（可取值 \( c \)）。
\( Y_j(c) \)：潜在结果（potential outcome）——若原因被设为 \( c \) 时第 \( j \) 个效应变量的值。
\( \mathbf{Y}(c) = (Y_1(c), ..., Y_k(c)) \)：原因 \( c \) 下的多变量潜在结果。
无混杂假设（Unconfoundedness / No Confounding）：\( \mathbf{Y}(c) \perp C \) 对于所有 \( c \in \mathcal{C} \)。
- 口头上：可观测到的原因 \( C \) 与任何未观测到的混杂因子之间无关联。
单调性假设（Monotonicity）：对于任意两个原因值 \( c, c' \in \mathcal{C} \)，要么对所有单位 \( i \)，\( Y_j(c) ≥ Y_j(c') \) 几乎处处成立，要么 ≤ 成立——这里针对的是加性单调性，即“增加一个原因”不会减少某个效应（类似疗效 monotonic dose-response）。
后验总效应（TPCE-M）：给定观测到的效应证据 \( \mathbf{Y} = \mathbf{y} \) 后，原因 \( C \) 在其取值上的后验分布与原因被强制设为某基准值 \( c_0 \) 时效应证据的条件后验分布的比率（具体看原文定义）。直观地：假设看到症状集合Y，问“这些症状是否由原因C导致”的概率归因比。
后验干预效应（IPCE-M）：给定观测证据后，如果将原因强制设为 \( c \) 与设为基准e时，效应状态的后验似然比。
后验直接效应（DPCE-M）：条件化控制某些“中介”变量后，原因对效应的直接后验归因比。
这些效应都定义在单位层次的潜在结果框架中，对每个个体都能定义其反事实后验。
模型：
底层数据生成过程：一个 无混杂 Treatmet-Outcome 系统，没有混杂因子（未观测的共享原因），且效应之间在给定原因下是独立的（？原文可能未建模协方差——但通过潜在结果是确定的，这个假设是隐含的）。
更关键的：潜在结果确定性（consistency） 和 positivity（对每个 \( c \)，\( P(C=c) > 0 \)）也隐含使用。
核心假设 1（无混杂）：原因分配的机制与潜在结果独立。
核心假设 2（单调性）：每个效应变量都是原因变量的单调函数——对于所有单位，若原因从 \( c' \) 变为 \( c \)，效应变量要么都增加要么都减少（按位比较）。
可观测数据：我们可以观测到一个个体上的 \( C \) 和 \( \mathbf{Y} \) 值。不可观测的是 \( Y_j(c) \) 对于原因不是观测值的那些 \( c \)（反事实）。此外，两个个体之间具有相同 \( \mathbf{y} \) 但不同 \( c \) 的数据点提供了识别信息。

第二步：最小内核例子¶

最简特例： - 假设只有两个效应变量 \( Y_1, Y_2 \)，均为二值（0/1）。 - 原因变量 \( C \) 也是二值（0：未暴露；1：暴露）。 - 目标：给定观测到的 \( \mathbf{y} = (1,1) \)（两个效应都发生）时，后验总效应（TPCE-M）——即原因 \( C=1 \) 相对于 \( C=0 \) 对观测到效应(1,1) 的归因强度。

在无混杂 + 单调性假设下，后验总效应定义（取对数）可以写成：

\[TPCE = \log \frac{P(C=1 | Y_1=1, Y_2=1)}{P(C=0 | Y_1=1, Y_2=1)}\]

但直接计算这个比值不能绕过反事实。本文的识别策略是：通过无混杂和单调性，将反事实概率转化为可观测边缘概率的组合。核心想法是：

由于单调性假设成立，对于 \( Y_1, Y_2 \) 的（0,0）→（1,1）这种模式，如果观测到 (1,1) 且 \( C=0 \)，那么对于同一个个体，如果强行让 \( C=1 \)，结果一定也不会变差（即 \( Y_1(1)=1, Y_2(1)=1 \)——潜在的单调性意味着原因增加只会增加效应）。
因此，观测到 (1,1) 且 \( C=0 \) 的个体——它们一定是健康者（不可被原因影响），但其在 \( C=1 \) 下本也会是 (1,1)（sustainers），所以不存在违反单调性的 defier 类型。
结合无混杂，可以在边缘分布上写出 \( P(Y_1=1,Y_2=1 | C=0) = P(Y_1(0)=1, Y_2(0)=1) \) 等关系。
最终，TPCE 可被表示为：

\[TPCE(\mathbf{y}=(1,1)) = \log \frac{P(Y_1(1)=1, Y_2(1)=1 ) }{ P(Y_1(0)=1, Y_2(0)=1) } = \log \frac{P(Y_1=1, Y_2=1 | C=1) }{ P(Y_1=1, Y_2=1 | C=0) }\]

这正是式（4）在 k=2 时的具体样貌——后验总效应退化为条件概率的比值，且全部由可观测的联合分布决定。

关键跃迁点：单调性使得原本不可识别的反事实联合概率 \( P(Y_1(1)=1, Y_2(1)=1 | Y_1=1, Y_2=1) \) 被简化为条件概率乘积（基于观察分布）。这本质上是无混杂 + 单调性共同作用的结果：①无混杂允许我们直接使用 \( C \) 与潜在结果的正交性来交换条件；②单调性确保对于 (1,1) 这种模式，反事实不会出现（从疾病到健康）的反转。

所以整篇论文的数学本质是：在无混杂 + 单调性假设下，通过单调性保证反事实与观测状态的套嵌关系，从而将多变量后验因果效应的识别转化为可观测边缘/条件概率的组合。这就是最小内核：观测概率的 ratios。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

① 研究了在无混杂与单调性假设下，基于多个效应变量（k ≥ 2）进行后验因果归因（由果推因）的多变量后验总效应、后验干预效应与后验直接效应的识别性问题。 ② 核心工具：潜在结果框架 + 反事实分解 + 单调性条件压缩反事实分布；核心方程使用可观测的 df（概率质量函数或密度函数）的比值与乘积来表达后验效应。 ③ 主要结论：在无混杂与单调性假设下，所有三种多变量后验因果效应（总、干预、直接）都是可识别的——它们可以由可观测的 \( P(C, \mathbf{Y}) \) 给出显式公式，且识别方程是解析形式（不再是积分或优化），便于后续作统计推断与估计。

关键设定与假设¶

设定：
假设因果变量空间：\( \mathcal{C} \) 为有限/可数集合（离散）；\( \mathbf{Y} \) 为 k 维效应向量，有同有限支撑集或密度存在（原文处理了一般性）。
数据：观测到独立同分布样本 \( (C_i, \mathbf{Y}_i) \)；总样本量 n。
目标：当给定 \( \mathbf{Y} = \mathbf{y} \)，希望对 \( C \) 做归因。
假设 A1（无混杂 / No Confounding）：

Unconfoundedness: \( Y_j(c) \perp C \) for all j and all c.
含义：原因变量的分配——无论是随机还是基于未观测变量——与所有潜在结果独立。这排除了未观测混杂因子。
比一般 Rubin 因果模型中的无混杂弱一点？不，它完全相等：这里假定不可观测影响 C 的协变量不影响 Y 的分布。但它比基于 DAG 的 back-door 准则强（因为 back-door 可以允许观测协变量调整，而这里连观测协变量也不需要——因为假设不存在完全混杂）。
假设 A2（单调性 / Monotonicity）：

Monotonicity: For any two distinct cause levels \( c \) and \( c' \)，for all units and for each effect j, either \( Y_j(c) \leq Y_j(c') \) almost everywhere, or ≥ almost everywhere. And the sign of monotonicity is assumed to be known (or uniform across effects).
含义：增加原因不会逆转效应的方向。例如，暴露于某种病原体下，个体要么效应增加（发病），要么不变——但不会出现一个个体在暴露下病愈非暴露下病发的情况。
这与 Lu et al. (2023) 的单变量假设相同，只是多变量下要求所有效应变量都对原因的排序方向一致（没有拮抗效应）。
这是极强的假设，在非实验数据中难以验证。
其它隐含假设：一致性 (Consistency: if obs C=c then \( Y_j = Y_j(c) \))；Positivity ( \( P(C=c) > 0 \) 对所有 c )。

与已有文献比较： - 相比 Lu et al. (2023)，本文对单调性的要求同时作用在所有效应变量上——这实际上更强（多效应情形可能更易违背）。 - 相比 Manski bounds 或 partial identification，本文没有给任何违反假设时的界；假设坚持是全或无。

主要结果¶

定理 1（多变量后验总效应 TPCE-M 的可识别性）：

在假设 A1 和 A2 下，给定观测证据 \( \mathbf{Y} = \mathbf{y} \)，原因 c 与基准 \( c_0 \) 的后验总效应可被表示为：

\[TPCE_M(c, c_0; \mathbf{y}) := \frac{P(C=c | \mathbf{y})}{P(C=c_0 | \mathbf{y})} = \frac{P(C=c)}{P(C=c_0)} \times \frac{P(\mathbf{y} | C=c)}{P(\mathbf{y} | C=c_0)}\]

即退化为条件密度的比值换以边缘先验。因此完全可识别为观测概率的比值。

直觉：单调性 + 无混杂保证“给定 \( \mathbf{Y}=\mathbf{y} \) 后 C 的条件分布”等于“先验 π(c) • 似然比”——这个类似贝叶斯公式——因为贝叶斯公式在通常无混杂下对条件化也成立。但关键点是：在无单调性时，\( P(\mathbf{y} | C=c) \) 在反事实框架下不等同于 \( P(Y_1(c)=y_1, ..., Y_k(c)=y_k) \)，而需要通过单调性套嵌。

定理 2（多变量后验干预效应 IPCE-M 的可识别性）：

给定 \( \mathbf{Y} = \mathbf{y} \)，原因从 \( c_0 \) 变为 c 的后验干预效应定义为观测证据被干预后保持原状态的比值：

\[IPCE_M(c, c_0; \mathbf{y}) = \frac{P(\mathbf{Y}(c) = \mathbf{y} )}{P(\mathbf{Y}(c_0) = \mathbf{y} )} \times \frac{P(C=c | \mathbf{y})}{P(C=c_0 | \mathbf{y})}\]

在假设 A1+A2 下，\( P(\mathbf{Y}(c) = \mathbf{y} ) = P(\mathbf{Y} = \mathbf{y} | C=c) \)，因此完全可识别。

定理 3（多变量后验直接效应 DPCE-M 的可识别性）：在其中某个效应变量被控制得条件下（类似直接效应概念），后验直接效应可分解为边际乘积，也是可识别的。

证明路线与技术技巧¶

整体路线（3 步逻辑主干）：
第一步：利用无混杂假设（A1），将每个潜在结果向量 \( \mathbf{Y}(c) \) 的联合分布与其在观测到 \( C=c \) 时的条件分布匹配：
\( P(\mathbf{Y}(c) = \mathbf{y}) = P(\mathbf{Y} = \mathbf{y} | C=c) \)。
第二步：在单调性假设（A2）下，对于固定的 \( \mathbf{y} \)，采用“逐分量比较”方法证明：
- 不存在“defier”（即反事实下效应下降的单位），因此 \( P(C=c | \mathbf{Y} = \mathbf{y}) \) 可以写为由可观测的 \( P(C=c) \) 和 \( P(\mathbf{Y} = \mathbf{y} | C=c) \) 表达——经过一些置换积分的挂靠。
第三步：将比值定义代入完成识别公式。
关键跳跃点：
最大的困难在于：在无单调性时，后验概率 \( P(C=c | \mathbf{Y}(c) = \mathbf{y}) \) 不能简化为可观测概率的简单比值，因为反事实可能产生 \mathbf{Y} 中各个组间的跨越。单调性确保了对于那些在某个 \( c \) 水平下能产生 \( \mathbf{y} \) 的单位，在另一个 \( c' \) 水平下不能产生非 \( \mathbf{y} \) 模式——贡献一个线性重构。
解决手段：作者用单调性分解：将潜在类型（如 always taker、never taker、complier、defier）中的 defier 通过单调性排除，从而套出可观测分布的等式。
技术技巧点名：
潜在结果类型分解（principal stratification style）：类似于 Angrist, Imbens & Rubin (1996) 的 compliance 分析，把人群按 c→c' 切换后的效应方向分为四类，再通过单调性排除 defier 类。
贝叶斯恒等 + 边际条件：使用 \( P(C=c | \mathbf{y}) = \frac{P(C=c) P(\mathbf{y} | C=c)}{\sum_{c'} P(C=c') P(\mathbf{y} | C=c')} \) 这一核——这本身不是技巧，但在此框架下被证明在无混杂+单调性下与反事实概率等价。
无耦合处理：没有使用 empirical process、对偶或任何半参数高阶工具；全部采用离散概率代数。

真实例子与应用¶

本文包含两个真实例子（第 4 节和 5 节）：

例子一：医疗诊断（哮喘诊断） - 数据背景：患者是否有暴露于某种环境过敏原（原因 C：接触/不接触），效应变量 Y = (喘息症状 Y₁, 肺功能指标 Y₂)。 - 使用方法：分别计算单变量后验总效应与多变量后验总效应（TPCE-M）。在多变量（条件化两个症状都出现）情况下，归因于过敏原的概率比值高于任一单变量条件下的比值。 - 结果展示：联合条件化显著提升了归因精度——对于一个患者同时有喘息症状与肺功能下降，TPCE-M 值比 TPCE-单（仅喘息）高约 40%（具体数值引用 table 1 中的“后验概率比”）。 - 想说明什么：验证理论——多效应联合条件化能消除单变量时的“歧义”（比如单变量可能既可由 C 引起也可由不可测其他因素引起，但多变量同时出现则更指向 C）。

例子二：责任归因（产品质量缺陷） - 数据背景：生产线上，某个零件出现设计缺陷（原因 C），导致整机出现两种故障模式（Y₁: 短路、Y₂: 过热）。 - 使用方法：再次计算多变量后验干预效应（IPCE-M）——给定观察到两种故障同时出现后，将零件更换为合格零件，能同时消除两种故障的后验概率。 - 结果：IPCE-M 显示——原因替换后，“两故障均消失”的概率很高（约 0.95）；而使用单变量直接效应 IPCE-single 可能低估约 20%。 - 说明：多变量后验干预效应能更准确地量化“如果修复原因，能否消去所有效应”的归因概率。

注意：这两个例子属于说明性示例（illustration），而非严谨的实证分析（没有潜变量、没有敏感性分析、没有对照使用稳健标准误或交叉验证）。它们更多是为了展示识别公式的直观含义与数值差异，而非对方法的实际性能提供统计推断证据。

🔎 结论是否比证明窄¶

定理的陈述明确限制在“无混杂 + 单调性”的假设框架内，没有越界 claim。这一点干净。
但在例子的叙述中（例如第 5 节的最后一句话）：“The proposed method provides a valid approach for attributing causes in practical settings”——这里的“valid”快超出了“在假设成立的理想条件下识别”到“实际数据中它是个好方法”——这是一个小的持平偏移，因为没有讨论当真实数据违反单调性时是否稳健。严格来讲，只有识别性；未经实证验证。
没有讨论估计量的渐近性质（无效率界、无 CLT、无置信区间）。因此结果只到识别，而不到推断。

四、开放问题（点到为止，扎根具体语句）¶

1. 单调性假设的必要性与替代方案：本文完全依赖单调性。如果单调性不成立，多变量后验因果效应是否还部分可识别（如 boundable）？扎根于本文定理 1 的证明——其中所使用的“排除 defier”操作是正靠单调性的。去读 Manski (2003) 或 Rosenbaum (2002) 对单调性的放松版本。
2. 高效估计与半参数推断：识别方程只是识别——它没有给出方差度量。如何构造TPCE-M 的半参数有效估计量（对应 efficient influence function）？扎根于本文没有讨论第 5 节“总结与展望”根本没有提到影响函数或渐近效率。这直接通向你的 primary interest，也是你 moderately_familiar 的领域。
3. 部分观测证据时的识别：若并不是所有 k 个效应都观测到（比如只有 Y₁ 和 Y₂ 的边际而非联合被观测），后验效应还能识别吗？扎根于第 3 节中识别式强依赖 联合分布 \( P(\mathbf{Y} = \mathbf{y} | C=c) \)。这是“仅有边缘数据时如何做归因”的开放问题。
4. 与 DAG-based 归因的结合：如果有额外的协变量或已知的因果图（部分效应是中介），后验效应是否可以不再需要单调性而识别？扎根于本文引言中回避与传统 DAG 因果归因方法（如 Egami & Imai 2019）的直接比较——需要看这些工作的识别条件与本文重叠在何处。

提醒研究者：要确认第 1-2 条是否共识性 gap，建议读近 5 篇在 Biometrika / JRSS-B 上的 sensitivity analysis 与 causality 相关论文——如果多篇都在讨论“从单变量到多变量后验的敏感性与部分识别”，那就是真 gap；如果只有本文这么提，则可能只是作者自己有意留给自己的路。

Maintained by 陈星宇 · Homepage · Source on GitHub