Evaluating causes of effects by posterior effects of causes¶
作者: Zitong Lu, Zhi Geng, Wei Li, Shengyu Zhu, Jinzhu Jia
来源: Biometrika
主题: 因果推断
相关性: 9/10
机构绿灯: Peking University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomet/asac038
一、领域脉络与小综述¶
这个方向是什么¶
这个方向是因果推断中的“归因”(attribution / causes of effects)问题。与经典的“effects of causes”(给定原因,估计其对结果的平均效应)不同,归因问题追问的是在结果已经发生的情况下,某个特定原因是否(或在多大程度上)导致了该结果。例如:一个病人服用了药物并康复了,问“是药物让他康复的吗?”——这是一个典型的反事实问题(如果没服药会怎样?),其概率表达为P(Y(C=1)=1 | C=1, Y=1),即“服药者中,给定他服药且康复,药物确实是(而非仅仅是伴随)康复原因的概率”。这类问题在法学、流行病学、政策评估中普遍存在,但识别需要的假设比平均因果效应更强(往往需要单调性、排除限制或关于不可观测混杂的强假设),因此长期以来被认为是因果推断中最困难、也最接近实际决策需求的子领域之一。当前该方向尚不成熟——主流因果推断教科书(如Imbens & Rubin, Hernán & Robins)均以“effects of causes”为核心,归因问题多数仅以专章或专节形式提及。
发展脉络(从Introduction中的引用构建)¶
-
奠基工作:Dawid (2000), "Causal inference without counterfactuals" 和 Pearl (2000), Causality 分别从潜在结果和结构因果模型的角度定义了归因问题的关键量——概率因果关系(probability of causation)和必要性概率(probability of necessity, PN)。Pearl的PN公式为
P(Y(C=0)=0 | C=1, Y=1),其识别需要单调性和排除限制等条件。Dawid则强调从因果贝叶斯网络角度处理归因问题。这两条线索奠定了领域基础。 -
单一原因下的识别与扩展:Dawid et al. (2014)(本文直接引用为“对于单变量情形定义了概率因果关系”)系统地讨论了单一原因下概率因果关系的可识别性,给出了在单调性、无混杂等理想条件下PN的识别公式,并指出在实际应用中往往只能得到区间识别——这正是敏感性分析的自然切入点。Yamamoto (2012) 将归因问题扩展到“因果中介分析”情境,提出了“natural direct effect”和“indirect effect”在反事实层面的分解,但其归因定义仍以单原因(处理→结果)为主。
-
多原因与因果网络:Tian & Pearl (2000) 给出了在因果网络已知时反事实概率的识别条件——即通过“因果效应的决策”(causal effect identification)的图形准则可以推广到反事实推断。Shpitser & Pearl (2008) 进一步发展了关于反事实的完整图形识别理论(包括“do-calculus”在反事实层的对应物,即“反事实推理的公理系统”)。它们为本文将后验因果效应推广到多原因且原因间存在相互影响的结构提供了图形框架。
-
当前frontier与本文位置:已有工作主要集中在单一原因或原因间独立(即无相互影响)的情形下讨论反事实概率的识别。当存在多个原因且它们之间存在因果路径(如C1→C2→Y,或C1影响C2再影响Y)时,现有的PN/PS(充分性概率)定义与识别公式失效。本文的贡献在于:针对多原因且原因间存在相互影响(如因果链、分叉、汇聚结构)的场景,定义了“后验总因果效应”和“后验直接因果效应”,推导了其识别公式,并证明在因果网络已知的条件下,识别假设可以简化。本文在领域中的定位:将归因问题的讨论从单一、独立原因推向多原因、相互影响的一般场景。
子线索聚类¶
-
概率归因的经典框架(Dawid, Pearl, 及其追随者):强调单一原因下的反事实概率(PN, PS, PNS),识别依赖于单调性、无混杂、特定排除限制。这是与本文最直接的竞争/对比线索。本文提出的后验因果效应可视为PN在多原因下的推广——当不存在多原因相互影响时,后验总效应退化为经典的PN。
-
图形因果模型下的反事实识别(Tian, Shpitser, Richardson):利用因果图的结构约束(如马尔可夫性、忠实性、d-separation)来推导反事实表达式的可识别条件。本文在§3.2中明确依赖这一线索,证明在因果网络已知时,所需识别假设可减少、公式可简化。
-
人口归因风险(PAR)与统计流行病学:PAR是流行病学中评估“如果去除某个风险因素,疾病负担能减少多少”的度量,其定义为
PAR = (P(Y=1) - P(Y=1 | C=0)) / P(Y=1)。本文在数值例子中与PAR进行了比较——指出PAR只依赖于条件概率P(Y=1 | C, X)的边际(即平均效应),而后验因果效应涉及反事实概率,因此能回答“个体归因”问题。这种比较暗示了两个子线索之间在目标上的根本差异:PAR是群体层面的,后验因果效应面向个体(或子群体)层面的归因。 -
敏感性分析在归因问题中的应用:由于PN/PNS/后验因果效应的识别通常需要强假设(不可观测混杂的缺失、单调性等),一些工作(如VanderWeele & Robins, 2016, Epidemiology)讨论了在放弃某些假设时归因量的偏倚方向和区间。本文虽然定义了新量,但在敏感性分析方面只作了初步讨论——§3.1中承认“需要比传统条件因果效应更强的假设”,但并未给出具体的偏倚分析公式。
这个方向在追问的核心问题¶
-
能否仅从观测数据(即无随机实验、无干预)识别个体层面的归因概率?——答案通常是“不能完全识别,只能区间识别或施加强假设”。本文实质上是问:在多原因相互影响时,在什么附加假设下可以完全识别? 这一问题的回应是§3.1中的识别假设清单和§3.2的网络简化条件。
-
多原因相互影响场景下,如何定义“原因C_i对结果Y的贡献”?——当C1影响C2、C2再影响Y时,C1既有直接路径到Y(C1→Y),也有通过C2的间接路径(C1→C2→Y)。现有归因度量(PN)无法区分“总效应”和“直接效应”。本文定义的后验总因果效应(capture所有路径的总贡献)与后验直接因果效应(capture直接路径贡献)正是为了回答这一问题。
-
给定因果网络(即部分原因间的因果关系已知),归因的识别能否放宽?——本文回答是“可以”:利用网络结构对未观测混杂的排除限制,可以在某些网络结构下减少需要的假设(§3.2)。
⚠️ 作者的framing¶
作者将缺口frame为:经典概率因果关系和必要性概率只适用于单一原因,而现实中常有多个原因且它们相互影响;后验总效应和直接效应是自然的推广,能在多原因相互影响时回答归因问题。这一framing在introduction中表现得很清晰——它暗示“本文是已有工作的直接且显然的扩展”。
被淡化/回避的竞争路线: - 结构嵌套模型(SNM, Robins 1986)中的归因参数:Robins的g-formula和结构嵌套模型也能计算反事实概率在多原因下的情况,但本文没有引用Robins的工作。这可能是因为SNM通常关注“effects of causes”(估计干预策略),而非“causes of effects”的归因视角。 - 基于工具变量(IV)的归因识别:若有多原因且存在IV,能否仅利用IV识别后验因果效应?本文没提。 - 多元反事实的定序关系:如果原因变量是连续或高维的,后验因果效应的定义和识别怎么办?本文假定所有原因变量是离散的(二元或有限水平)。
什么明显该被引/该存在、却没出现在intro里? - Robins (1986), "A new approach to causal inference in mortality studies with sustained exposure periods"——建立了g-estimation框架,可直接处理反事实。为什么没引? - VanderWeele & Robins (2012), "Invited commentary: the decomposition of the total effect into direct and indirect effects"——直接效应/间接效应在反事实层面的分解与本文的后验直接效应高度相关。为什么没引? - Balke & Pearl (1994), "Bounds on the probability of causation"——该文系统性讨论了概率因果关系的区间识别(在放弃单调性假设后),本文在讨论识别假设时本应提及这一已有成果。 - Tan (2006), “Regression and weighting methods for causal inference using instrumental variables”——讨论了IV在归因中的应用。本文没有涉及IV视角。
建议用户去确认这些缺失是否因为假设不同(如本文只考虑了离散原因、固定图结构)还是文献调研疏漏。如果是后者,那可能意味着作者对SNM文献不熟,或者说“在SNM框架下多原因归因已有相应结果”——这是值得验证的潜在gap(若确实已有则本文的新颖度打折扣)。
张力¶
未见明显对立引用——现有被引文献在基本观点上一致(单一原因下PN/PS/PNS的识别需要强假设),没有在同一前提下结论相反的情况。Dawid与Pearl在是否接受反事实的概念哲学上有分歧,但在技术定义与识别公式上一致(Dawid也认可其概率公式,只是认为反事实概念多余)。本文站在Pearl一侧,使用潜在结果/反事实的语言。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- C = (C₁, C₂, ..., Cₖ):原因变量,可以是二值(0/1)或多值。它们是因果的候选者——我们想知道是哪个(或哪几个)导致了结果Y。
- Y:结果变量,通常为二值(0/1),如发病/康复。特殊情况下可以是多值或连续,但本文假定二值。
- E:证据变量(post-treatment variables),即给定结果发生后能观测到的额外信息。本文主要考虑在C和Y之后、与因果效应相关的变量,例如治疗后症状、副作用等。E可观测。
- U:不可观测的混杂变量(可能包含多个)。在不引入假设时,U对C和Y均有影响,且不可观测。这是最难处理的部分。
- 反事实:以
Y(C=c)表示“如果所有原因被强制设为c时,Y会取的值”。它在实际中无法同时观测——每个人只能处于一个实际事实态(C=c_obs,Y=y_obs),其他反事实态不可观测。这是归因问题的核心困难:我们只看到Y(C=C_obs)=Y_obs,但归因需要知道如果C取其他值时Y会是什么样。 - 后验总因果效应(Posterior Total Causal Effect, PATE):对某个特定的子群体(例如,实际中C=1且Y=1的人),定义“在该子群体中,C确实是Y的原因的概率”。用反事实语言去写:
P(C causes Y | C=1, Y=1, E=e)
等价于反事实条件概率:P(Y(C=0)=0 | C=1, Y=1, E=e),即在给定实际事实(C=1, Y=1)且观察到证据E=e的条件下,如果C被设成0(反事实状态),Y会变为0的概率。这就是本文的后验总效应——直观理解:“这个被观测到服药且康复的人(且在E上呈现特定特征),如果他没服药,他会不康复的可能性有多大?”如果这个概率高,我们就“归因”于C。 - 后验直接因果效应(Posterior Direct Causal Effect, PDCE):在存在中介(因果关系链)时,考虑不通过其他原因(中介)路径的直接效应。例如C1→Y,C1→C2→Y,那么C1对Y的后验直接效应是
P(Y(C1=0, C2不变)=0 | C1=1, C2=某种态, Y=1, E=e)——把其他原因固定在它们实际观察到的状态上(即只改变C1),然后判断Y是否会改变。这是Pearl定义的直接效应在反事实层面的直接翻译。 - 模型:潜在结果模型。每个个体有潜在结果
{Y(c), ∀c∈C空间},实际观测(C_obs, Y_obs) = (C, Y)。可观测数据是(C, Y, E)的联合分布,而不可观测的是反事实Y(c)当c≠C_obs。归因问题的识别就是从可观测的联合分布,推断不可观测的反事实概率。 - 假设:为了识别,本文引入单调性(
Y(c)关于c在该变量上是单调非递减的——例如服药不会减小康复概率)、排除限制(某些原因之间没有未观测混杂)等。在下节讲最小例子时会精确化。
第二步:最小内核¶
最简特例:考虑 只有两个二值原因 C₁, C₂ 和一个二值结果 Y,并假设因果图是 C₁ → C₂ → Y(串联图——C₁通过影响C₂再影响Y,即C₂是完全中介)。没有C₁到Y的直接路径(这是极简假设,但符合“原因间相互影响”的设定)。假设Y是二值(1/0,如疾病是否发生),C₁, C₂是二值(1/0,如暴露/未暴露)。我们关心:在观测到某人C₁=1, C₂=1, Y=1(即两个暴露都存在、Y发生)的情况下,C₁是否“通过C₂”引起了Y? 即后验总效应(通过所有路径)和直接效应(此处直接效应不适用,因为没有直接路径,所以直接效应=0)。
可观测数据:我们能从人群观测到P(C₁, C₂, Y)的分布,即联合分布p(C₁, C₂, Y)。
不可观测的反事实:我们需要知道人的Y(C₁=c₁, C₂=c₂)在所有四种组合下的值,但只能观测到一个事实态。例如,对C₁=1, C₂=1, Y=1的人,我们想知道:如果他没暴露C₁(c₁=0),但C₂保持其“在c₁=0下的值”(即C₂受C₁影响,因此当C₁设为0时,C₂会变成什么?),那么Y会变成什么?——这涉及更复杂的反事实嵌套(因为C₂本身是变量,其值也依赖于C₁的设定)。本文的处理方式是直接考虑对(C₁,C₂)的联合干预Y(C₁, C₂)——这是标准做法。
最小问题:仅由可观测分布p(C₁, C₂, Y),能否唯一识别P(Y(C₁=0, C₂=0)=0 | C₁=1, C₂=1, Y=1)?
答案:不能。 加入两个假设后可以:
- 单调性(monotonicity):对于C₁和C₂,每个潜在结果函数在各自自变量上是单调的。即Y(c₁, c₂)分别关于c₁和c₂单调非递减(暴露总是增加Y=1的风险,不会降低)。这意味着Y(0,0) ≤ Y(1,0) ≤ Y(1,1)等偏序关系成立。这限制了不可观测的反事实组合数。
- 排他性(exclusion restriction / no direct effect of C₁ on Y after conditioning on C₂?):在此串联图中,我们假设C₁只通过C₂影响Y(无直接路径),因此Y(c₁, c₂) = Y(c₂)——即潜在结果仅依赖于C₂,不直接依赖于C₁。这大大简化了问题(可视为排他约束,即C₁对Y无直接效应)。
在此二假设下,识别公式是:(从§3.1或对应嵌入推导)
P(C₁ causes Y (through C₂) | C₁=1, C₂=1, Y=1)
= P(Y(C₁=0, C₂=0)=0 | C₁=1, C₂=1, Y=1)
= 1 - P(Y=1 | C₁=0, C₂=0) / P(Y=1 | C₁=1, C₂=1)(在单调性和排他性下)。
这个公式在直觉上:后验归因概率等于1减去“当C₁和C₂都不存在时Y发生的概率”与“当C₁和C₂都存在时Y发生的概率”之比——这只是Pearl PN公式在C₂作为完全中介时的直接推广。这就是本文核心思路的最小例子:在多原因时,后验总效应(在一定假设下)能被表示为可观测的条件概率比值(即人群风险差的某种变形)。
为什么这个例子最小但关键:它清晰展示了①多原因相互影响下后验总效应的定义(从“他们实际情况看”推“反事实下会怎样”);②需要比PN更强的假设(排他性、单调性);③识别公式与经典PN的联系(在单原因下退化为PN)。去掉排他性(允许C₁的直接路径)就进入后验直接效应的讨论——那时定义和公式都变得更复杂,但核心思路(单调性+特定排除限制→可观测识别)是一致的。
三、这篇论文做了什么¶
三句话¶
- 研究问题:在存在多个可能相互影响的原因变量时,定义了基于治疗后变量证据的后验总因果效应和后验直接因果效应,作为评估“causes of effects”的度量,并研究其识别条件。
- 核心工具/方法:反事实概率框架(潜在结果模型)、因果图(用于简化识别条件)、单调性和排除限制假设。
- 主要结论:①在单调性+排除限制+无特定不可观测混杂假设下,后验总效应和直接效应可被识别(给出了明确的识别公式);②当原因与结果的关系可由因果网络(有向无环图)表述时,所需假设和公式可简化;③通过数值例子比较了新度量与已有度量(PN、PAR等)的差异,展示了多原因场景下的解释优势。
关键设定与假设¶
设定(在第二节记号基础上补全):
- 原因变量C = (C₁,...,C_k),每个取有限个值(如0/1,或有限离散水平)。Y是二值结果(1/0)。E是治疗后证据变量(不一定存在——若没有证据则直接回到基本问题)。
- 所有变量构成一个因果有向无环图(DAG) G:节点为C∪{Y}∪(潜在混杂变量U,在图中可不表示但存在)。图结构反映变量间的因果方向(causal direction)。本文有两种情况:图已知(完整的因果知识)和图未知(只做常见的排除限制假设)。
- 关注的是子群体:(C=c, Y=y, E=e)(这些是可观测到的事件)。在这个子群体中定义后验效应。
核心假设(§3.1, §3.2 中的假设列表):
假设1:一致性(Consistency):当实际C取c时,潜在结果Y(C=c)等于实际观测到的Y。即Y = Y(C=C_obs)。这是标准的因果推断一致性假设——如果不满足(如不同方式设定C导致不同Y)则模型无效。
假设2:单调性(Monotonicity for each cause):对于每个原因C_i(按顺序考虑),对每个其他原因固定下的分层,Y关于C_i单调非递减(或非递增,但大多数归因问题假设正单调)。即若C_i增加,Y=1的风险不会降低。这用于限制反事实的类型——它意味着不存在“防护者”(defier,即C_i增加反而降低Y的人)。在二值情形下,单调性意味着每个人要么是“always-taker”(无论C如何Y=1)、要么是“complier”(C=1时Y=1,C=0时Y=0)、要么是“never-taker”(无论C如何Y=0),而排除了“defier”(C=1时Y=0,C=0时Y=1)。
假设3:排除限制(Exclusion restriction / No direct effect):某些原因变量(如C₁)对Y没有直接效应——Y只依赖于与它直接相连的原因子集。在串联图C₁→C₂→Y下,这等于说Y不依赖于C₁(仅依赖于C₂)。更一般地,在给定直接父节点后,Y与C中的某些变量条件独立(在反事实层面)。
假设4:条件独立性 / 无不可观测混杂:对每个原因C_i,假设Y(c)与C_i在给定某些变量(如该C_i的父节点)的条件下独立。这是“可交换性”假设,用于消除未观测混杂。在因果网络已知时,这一假设可以由图结构的d-separation性质代替(即“所有后门路径被阻断”的图形条件)。
与其他文献的比较: - 相比Pearl单一原因PN:本文要求对每个原因逐层施加单调性和排除限制(更严格);但好处是能处理多原因相互影响。 - 相比Tian & Pearl (2000)的反事实识别:本文的假设以“未观测混杂的排除”为主,而Tian & Pearl侧重于利用图形准则(do-calculus)推导反事实概率,不直接要求单调性——因此本文实际上是对Tian & Pearl在单调性下的可识别性特例化。
主要结果¶
定理1(后验总效应的识别):在假设1-3(一致性、单调性、排除限制)以及关于不可观测混杂的假设(指定形式)下,后验总效应P(C_i causes Y = y | C=c, Y=y, E=e)可以表示为可观测分布的封闭形式函数(具体公式涉及条件概率之比和累乘)。该公式是Pearl PN公式的直接推广:当k=1时退化为Pearl PN的识别公式(假设单调性+无混杂时)。
定理2(后验直接效应的识别):在相同假设下(可能需额外排除某些间接路径),后验直接效应也能被识别,公式形式类似于后验总效应但由于“固定了其他原因在其事实态”而包含额外的条件概率项。
推论3(因果网络简化):当因果网络是已知的DAG,那么排除限制假设可以由图上的d-separation性质自动提供(某些直接路径不存在),单调性可以被“结构上的单调性条件”部分替代。这简化了识别所需的附加假设数量(无需手动指定哪些直接路径不存在——图结构自动告诉你了)。
主要解决的技术难点:
- 多原因相互影响下的反事实概率的分解:需要把Y(c)分解为路径特定形式(通过对图进行因式分解)。作者用了链式分解:P(Y=1 | C=c, Y=y, E=e)分解为关于每个节点的条件概率乘积,将后验效应表达为这些条件概率的嵌入。
- 可观测分布到反事实分布的映射:在单调性和排除限制下,反事实概率能被“变量风险差”(counterfactual risk difference)表示,进而可观测。
- 确保识别公式不依赖于未观测混杂:这是通过专门假设(如“给定父节点的条件下,不可观测混杂与因果效应独立”)实现的,这在因果图中对应后门准则的满足。
证明路线与技术技巧¶
整体路线(以定理1为例,针对串联图C₁→C₂→Y):
1. 写出后验总效应的反事实定义:θ = P(Y(C₁=0, C₂=0)=0 | C₁=1, C₂=1, Y=1, E=e)(假设C₁和C₂联合设0)。
2. 利用一致性假设:将条件事件的观测分布展开。即P(Y=1 | C₁=1, C₂=1, E=e)可观测。
3. 引入单调性+排除限制:在单调性下,反事实概率P(Y(C₁=0, C₂=0)=0 | C₁=1, C₂=1, Y=1, E=e)可以转化为条件概率的差:
θ = 1 - P(Y(C₁=0, C₂=0)=1 | C₁=1, C₂=1, Y=1, E=e)。单调性+排除限制断言:在给定C₂=1的前提下(由于C₁不直接影响Y),Y(C₁=0, C₂=0)=1仅发生在“always-taker”型人群中——即无论C₂如何都会Y=1的人,而这类人的比例可以从可观测数据中推出(通过P(Y=1 | C₁=0, C₂=0, E=e)估计,因为在那类人中,我们刚好观测到了Y(Cằ=0, C₂=0)=1的情形——即C₁=0, C₂=0且Y=1的子人群)。
更精确:单调性+排除限制意味着在子群体(C₁=1, C₂=1, Y=1, E=e)中,所有个体的反事实Y(C₁=0, C₂=0)都是0(因为他们都不是always-taker——因为如果是always-taker,即使C₁=0, C₂=0他们也会Y=1,但他们在C₁=0, C₂=0时反事实Y应该是1,这与单调性+排除限制下的逻辑一致;实际上仔细推导可得出在单调性+排除限制下,这类子人群没有always-taker成分,即他们全是complier)。因此θ = 1。但这样太理想化,一般情形下需要处理在单调性假设下始终存在的“防护者”0,但实际上本文推导了更一般的公式:
θ = 1 - P(Y=1 | C₁=0, C₂=0, E=e) / P(Y=1 | C₁=1, C₂=1, E=e)(在没有证据E时的简化版本)。证明的关键一步是利用单调性+排除限制将反事实概率替换为条件概率,通过等式P(Y(C₁=0, C₂=0)=1) = P(Y=1 | C₁=0, C₂=0)(这是因为在排除限制下,实际C₁=C₂=0的人群的观测Y就是反事实Y(0,0)),而条件概率P(Y=1 | C₁=1, C₂=1, E=e)可观测。然后利用贝叶斯定理和条件独立假设,将未见过的混合分布分解为已知成分。
4. 对一般网络(非串联):利用因果图的因式分解,将P(Y(C))展开为各节点的条件概率乘积(若没有不可观测混杂),然后在单调性下逐项替换,得到广义公式。
关键跳跃点:
- 反事实概率P(Y(C=0)=1 | C=c, Y=y)向可观测条件概率的直接转化:这要求被比较的反事实态发生在与实际态直接相同或可观测态相同的个体上——这在单调性下才能保证,否则P(Y(C=0)=1 | C=1)中的条件事件(C=1)会与反事实值Y(C=0)通过不可观测混杂相关。作者用了“单调性排除defier”来切断这个相关。
- 在E存在时(治疗后证据):需要额外假设“给定C和Y后,E与反事实
Y(c)独立”,或者利用E是Y的后续观测的本质(即E不对反事实状态造成影响)——这是自然假设(一致性的一种推广),但作者明确写为“给定C, Y, E的条件独立假设”。
技术技巧点名:
- 链式法则/因果分解(利用因果图将联合分布分解为条件概率积)——用于将P(Y=1 | C, E)展开为与图结构匹配的项。
- 反事实因果图的“切断”技术:将do-c操作下的分布等同于考虑“被强行设c后切断所有指向c的箭头的图”,这在反事实推理中也成立——用于推导Y(c)在给定部分的因果图条件下的独立关系。
- 单调性+排除限制的消元:通过枚举反事实类型(always-taker/never-taker/complier/defier),在单调性下defier=0,排除限制进一步限制always-taker在某些子人群中的比例为0,从而简化了概率表达式。
真实例子与应用¶
本文为纯理论 / 无实证例子。 它在§4(数值例子)给出了一个完全模拟的例子——不是真实数据,而是人为设定因果图和参数,然后计算后验总/直接效应并与PN、PAR等比较。这个模拟例子的设定是: - 因果图:C₁→C₂→Y(串联,C₂是完全中介),加上一个不可观测混杂U(影响C₁和C₂)。 - 参数设定:给定一系列条件概率(如P(Y=1|C₁, C₂)以某种方式随C单调增加,但C₂变化也受C₁和U影响)。 - 比较内容:在不同U的未移除/已移除情况下,后验总效应 vs PN(仅考虑C₁) vs PAR(仅考虑C₁)。结果展示:(i)当忽略C₂→C₁的相互影响时,PN显著低估归因概率;(ii)PAR始终不大于后验效应(只有平均归因,忽略了子群体内部的异质性)。 - 这个模拟的目的不在于验证理论的正确性(因为是模拟),而在于说明为什么需要用后验总/直接效应而不是已有的简单度量——即展示在多原因场景下,PN有偏差、PAR不回答子群体问题。这是例子的作用:论争性论证(“本文的新度量是必要的”)。
🔎 结论是否比证明窄¶
有两点值得注意: 1. §3.2(因果网络简化)中,作者声称“当因果网络已知时,所需的识别假设和公式可简化”。但证明中实际处理的是树状结构或路径仅包含直接父节点的简单图(如串联C₁→C₂→Y)。对于更复杂的图(如C₁→C₃→C₂,C₃既不是C₁的父也不是C₂的父,但有独立路径),作者是否确实推导了简化条件?文本中说“利用d-separation可以自动推断排除限制”,但论文中没有给出这类复杂图的完整推导例子。结论表述比证明的示例集泛化——更复杂的因果结构在实际中可能无法直接套用文中公式(需要额外推导)。
- 在补充材料中(如果有),作者可能给出了更一般的网络下的识别公式,但正文只展示了基本情形。用户若想用这个方法,需注意“你只能在作者明确推导的图结构上直接套用识别公式——别的结构可能需要自己推导”。
四、开放问题(扎根具体语句)¶
-
残留的不可观测混杂识别:在假设4中,作者假设图G中所有与Y相关的不可观测混杂都是类型为U⁽ᶜ⁾(影响原因但不影响Y?)。若存在既影响原因又影响Y的混杂V,且V未被包括在条件集中,识别公式是否会失效? 这是一个直接的敏感性分析问题——如果能证明在V存在时后验效应偏大/偏小,那就给出了偏倚方向。扎根语句:§3.1中“假设在没有未观测混杂的条件下...”这一句——这是可检验的gap。
-
连续/多值原因与连续结果的扩展:当前理论仅限于离散原因和二元结果。若Y是连续变量(如收入、生存时间),后验总应的定义
P(C causes Y | ... )如何修改? 概率语句不再直接适用——需要转变为“归因于”的概率密度或期望形式。这可能是下一步定义的挑战。扎根语句:§1中说“假定Y是二值变量”明确限定了范围。 -
基于后验效应的统计推断(估计与置信区间):识别公式给出表达的封闭形式——但它们是条件概率的函数,可通过经验插件法估计。这些估计量的渐近分布、收敛速度、置信区间构造是否存在偏差(如M-estimator的覆盖率)? 本文完全没有讨论。对于真的要使用本方法的用户(如流行病学数据分析),这是关键的缺失。扎根语句:§3末尾直接进入数值例子,没有讨论估计理论或渐近性质。
-
敏感性分析的形式化:与经典PN类似,当放弃单调性或某些排除限制时,后验效应的识别会降级为区间识别。区间识别的边界公式是什么? 有没有类似于Balke & Pearl (1994) 的线性规划解法?扎根语句:§1中“需要比传统条件因果效应更强的假设”直接点出了敏感性分析的需求——但本文没有提供当某些假设被放松时的区间处理方法。
Maintained by 陈星宇 · Homepage · Source on GitHub