跳转至

Cumulative Natural Direct and Indirect Effects for Causal Mediation Analysis

作者: Yuta Kawakami, Jin Tian
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.22165


一、领域脉络与小综述

这个方向是什么

因果中介分析(Causal Mediation Analysis)旨在将一个处理变量 \(X\) 对结果变量 \(Y\) 的总效应(Total Effect, TE)分解为两部分:直接效应(通过 \(X \rightarrow Y\) 的路径,不经过中介 \(M\))和间接效应(通过 \(X \rightarrow M \rightarrow Y\) 的路径)。这是一个成熟且高度活跃的子领域,其核心问题在于如何定义、识别和估计这些路径特异性效应。该文聚焦于连续处理变量场景下,传统分解量(自然直接效应与自然间接效应, NDE/NIE)因其不满足偏斜对称性(skew-symmetry)和可加性(additivity)而导致的解释悖论,并提出了新型度量来解决此问题。

发展脉络(history)

  1. 奠基工作

    • Wright [1921, 1934]: 提出路径系数法(path coefficients),是最早的量化因果路径贡献的框架,为后续的中介分析奠定了代数基础。
    • Baron and Kenny [1986]: 提出了广为应用的回归中介分析法,通过一组线性回归方程(如 Example 1, M1)估算直接和间接效应。该框架下的效应分解天然满足对称性和可加性,但其适用范围仅限于线性无交互模型。作者指出“可能因为早期方法不展示该行为…这些议题在文献中得到的关注有限”。
  2. 主要进展:NDE/NIE 框架的建立与推广

    • Robins and Greenland [1992], Pearl [2001]: 在潜在结果(potential outcomes)和结构因果模型(SCM)框架下,严格定义了自然直接效应(NDE)和自然间接效应(NIE)。这是本文所有争论的源头。NDE/NIE 适用于任意(非参数)模型,是“开箱即用”的标准工具。
    • Imai et al. [2010a,b]: 提供了在序贯可忽略性(Sequential Ignorability, Assumption 1)下识别 NDE/NIE 的完整理论,并给出了非参数估计方法,极大地推动了该框架的应用。
    • VanderWeele and Vansteelandt [2009]: 推导了在带交互项的线性模型(如 Example 2, M2)下 NDE/NIE 的显式表达式,揭示了它们在非平凡模型中的复杂表现。
  3. 当前 Frontier/本文的位置

    • 本文 Kawakami and Tian [2026] 明确指出,NDE/NIE 作为通用度量时,不满足偏斜对称性和可加性。这在 [VanderWeele and Vansteelandt, 2009] 对 M2 的例子 (12) 式中已隐含,但作者是第一个系统性地指出这会引发解释悖论(Section 3),并将这两个代数性质称为“可解释因果效应的基本属性”(fundamental properties for interpretable causal effects)。
    • 作者定位自己的工作是:针对连续和有序处理变量,提出一组新的累积自然直接/间接效应(CNDE/CNIE),这些新度量天然保留对称性和可加性,从而避免 NDE/NIE 的悖论。作者声称,现有针对连续处理的文献(如 Wang and Zhang [2016], Huber et al. [2020], Xu et al. [2021], Zhang and Chen [2025])“没有解决 NDE 和 NIE 的结构性局限”。

子线索聚类

  1. NDE/NIE 的定义与识别:主线工作,包括 Pearl [2001], Imai et al. [2010a], Shpitser and Pearl [2008] 等。核心是定义和识别如 \(E[Y_{x'', M_{x'}}]\) 这样的交叉世界(cross-world)反事实量。这部分是本文的直接竞争对手和理论基石。
  2. 连续处理下的中介效应:Wang and Zhang [2016], Huber et al. [2020], Xu et al. [2021], Zhang and Chen [2025]。这些工作主要关注在连续处理下如何定义和估计 NDE/NIE,但作者认为它们没有解决“结构性缺陷”。
  3. 局部因果效应与导数:Chamberlain [1984], Kawakami et al. [2023] 研究了平均偏因果效应(APCE)/ 局部总效应(LTE, \(E[\partial_x Y_x]\))。本文直接借鉴此思路,将 LTE 进一步分解为局部直接效应(LNDE)和局部间接效应(LNIE),然后积分给得 CNDE/CNIE。
  4. 其他识别策略与推广:包括工具变量(IV, Rudolph et al. [2021])、近端变量(Proximal, Dukes et al. [2023])、双重差分(DID, Huber and Oberhänsli [2026])用于处理存在不可观测混杂的情况。这是本文未来的推广方向(在 “future work” 部分被提及)。Tchetgen and Shpitser [2012a] 则提供了半参数效率理论,也是本文未来工作提及的候选。

这个方向在追问的核心问题与瓶颈

  • 核心问题1: 如何定义“直接”和“间接”的贡献?NDE/NIE 通过固定某一路径的变量值(如将中介固定在 \(M_{x'}\))来实现,但这种定义方式是否总能给出直觉上合理的分解?
  • 核心问题2: 定义应当满足哪些“好”的代数性质,以确保分解在任何场景下都可解释?本文认为偏斜对称性和可加性是关键。对于连续处理,可加性保证了细分路径的效应和等于总路径效应。偏斜对称性保证了逆转处理方向不会导致效应量大小和正负号的扭曲。
  • 核心问题3: 如何识别这些定义?
  • 已知瓶颈: NDE/NIE 不满足偏斜对称性和可加性,导致其分解的“比例”和“方向”依赖于参考点的选择和处理变化的幅度,可能给出自相矛盾的结论(参见 Section 3 的香烟-血压例子)。

⚠️ 作者的 framing(必须明确标注成"这是作者的说法")

  • 作者把缺口 frame 成什么? 作者将 NDE/NIE 不满足偏斜对称性和可加性定位为“严重的结构性缺陷”(structural limitations)和“导致悖论解释”的来源(paradoxical interpretations in mediation analysis)。他们的贡献是开发了新的度量,这些度量在设计上就考虑了这些“可解释因果效应的基本属性”。这使得他们的工作看起来不是对 NDE/NIE 的附属补充,而是在连续/有序处理场景下的一种更根本、更合理的替代方案
  • 哪些竞争路线被他淡化或回避了? 作者回避了对 NDE/NIE 本身性质的深入辩护。例如,他们没讨论 NDE/NIE 在建立反事实逻辑和因果图理论上的优雅性,这些性质可能比“应用中的可加性”更基础。他们也回避了估计 CNDE/CNIE 所需的额外难度(需要估计导数 \( \partial_x E[Y|X,M] \)\( \partial_m E[Y|X,M] \),而估计 NDE/NIE 只需要条件均值 \( E[Y|X,M] \) 本身)。作者承认 CNDE/CNIE 的加性分解在 LNDE/LNIE 的显式分解下(Lemma 1, Eq. 19)是平凡的,真正的核心贡献在于用路径积分来重新定义效应,并处理其识别。
  • 什么明显该被引 / 该存在、却没出现在 intro 里? 没有明显发现。 该论文的引用列表覆盖了领域创始人和所有关键竞争者,逻辑链条非常完整。

张力

  • 未见明显对立引用。所有被引工作要么是 NDE/NIE 的发展(被本文挑战),要么是连续处理下的估计方法(被本文视为不解决根本问题),都构成了本文的“背景”而非“对立面”。本文没有引用任何声称 NDE/NIE 应该被替换或指出其对称性问题的既有文献,因为它本身就是第一个这样大规模提出的。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 符号(逐个点名):

    • \(X\): 处理变量(Treatment)。可观测的随机变量。在本文中重点是连续的,但也考虑了有序分类的版本。
    • \(M\): 中介变量(Mediator)。可观测的随机变量。
    • \(Y\): 结果变量(Outcome)。可观测的随机变量。
    • \(x, x', x'', x''', \dots\): \(X\) 的具体取值(realized values)。
    • \(m\): \(M\) 的具体取值。
    • \(Y_x\): 潜在结果。当 \(X\) 被强制设为 \(x\) 时的 \(Y\) 值。不可直接观测
    • \(M_x\): 当 \(X\) 被强制设为 \(x\) 时的 \(M\) 值。不可直接观测
    • \(Y_{x, m}\): 联合潜在结果。当 \(X\) 被强制设为 \(x\)\(M\) 被强制设为 \(m\) 时的 \(Y\) 值。不可直接观测
    • \(Y_{x'', M_{x'}}\): 交叉世界反事实。当 \(X\) 被强制设为 \(x''\),但中介 \(M\) 被设为其在 \(X = x'\) 下本应取的值 \(M_{x'}\) 时的 \(Y\) 值。不可直接观测,是 NDE 和 NIE 的定义基础。
    • \(\text{TE}(x'', x'; Y)\): 总效应。可识别的因果 estimand。\(\text{TE} = E[Y_{x''}] - E[Y_{x'}]\)
    • \(\text{NDE}(x'', x'; Y)\), \(\text{NIE}(x'', x'; Y)\): 自然直接/间接效应。因果 estimand。\(\text{NDE} = E[Y_{x'', M_{x'}}] - E[Y_{x'}]\), \(\text{NIE} = E[Y_{x', M_{x''}}] - E[Y_{x'}]\)
    • \(\text{LTE}(x; Y)\): 局部总效应。因果 estimand。\(\text{LTE}(x) = E[\partial_x Y_x]\),即 \(E[Y_x]\)\(x\) 的导数。用于连续处理。
    • \(\text{LNDE}(x; Y)\), \(\text{LNIE}(x; Y)\): 局部直接/间接效应。因果 estimand。分别是 \(E[Y_{x^*, M_x}]\)\(E[Y_{x, M_{x^*}}]\)\(x^* = x\) 处的导数。
    • \(\text{CNDE}, \text{CNIE}\): 累积直接/间接效应。因果 estimand。\(\text{CNDE} = \int_{x'}^{x''} \text{LNDE}(x; Y) dx\)
  • 模型:

    • 本文使用一个非参数结构因果模型(SCM)\(\mathcal{M}_N\):
      \[X := f_X(\epsilon_X), \quad M := f_M(X, \epsilon_M), \quad Y := f_Y(X, M, \epsilon_Y)\]
    • 这个模型假设:\(X\) 由外生变量决定,\(M\)\(X\) 和误差的函数,\(Y\)\(X\)\(M\) 和误差的函数。三个误差项 \(\epsilon_X, \epsilon_M, \epsilon_Y\) 可能相互依赖(通过图 1 中的双向边表示潜在混杂)。
    • 所有函数 \(f\) 都是确定性函数,但形式未知(非参数)。本文在此基础上增加了可微性假设(Assumption 2)以定义导数。
  • 可观测数据:

    • 研究者实际能观测到的是从总体中随机抽样的 \((X, M, Y)\) 元组。例如,对于一个人,我们知道他吸了多少支烟(\(X\))、他的血压(\(M\))和心脏病风险(\(Y\))。
    • 什么是“想要但观测不到的”:所有世界的平行版本(counterfactuals)。要回答“如果他不吸烟,他的血压和心脏病会怎样?” ( \(M_{x=0}\)\(Y_{x=0}\) ),或者更复杂的交叉世界命题“如果他不吸烟但他的血压保持在其真实吸烟水平下的值,他的心脏病会怎样?” ( \(Y_{x=0, M_{x=5}}\) ),这些数据都是不可能直接从观测数据中得到的。因果推断的全部工作就是通过可观测数据 \((X,M,Y)\) 的分布,去识别不可观测的因果 estimand。

第二步:讲最小内核

本文的“最小内核”是用局部导数取代全局对比。在 NDE/NIE 中,你直接比较两个固定的处理水平:\(x''\)\(x'\)。在 CNDE/CNIE 中,你考察的是从 \(x'\)\(x''\) 的一条连续路径,并计算在这条路径上的每一点,一个无穷小的处理变化所产生的直接和间接影响,最后累加起来。

最简特例:假设我们回到 Baron-Kenny 的线性无交互模型 (M1)

\[X := \epsilon_X, \quad M := \alpha X + \epsilon_M, \quad Y := \beta X + \gamma M + \epsilon_Y\]
其中 \(\epsilon_X, \epsilon_M, \epsilon_Y\) 独立。

  1. 计算传统 NDE/NIE

    • 在这个模型下,NDE 和 NIE 很简单:\(\text{NDE}(x'', x'; Y) = \beta (x'' - x')\)\(\text{NIE}(x'', x'; Y) = \alpha\gamma (x'' - x')\)
    • 总效应 \(\text{TE} = (\beta + \alpha\gamma)(x'' - x') = \text{NDE} + \text{NIE}\)
    • 它们自然满足偏斜对称性和可加性。作者说的悖论在这个模型不存在,这也是为什么 Baron 和 Kenny 的方法几十年都没暴露这个问题。
  2. 计算本文的 CNDE/CNIE

    • 首先计算局部效应。因为模型是线性的,导数不依赖于 \(x\)
      • \(\text{LTE}(x) = \beta + \alpha\gamma\)
      • \(\text{LNDE}(x) = \beta\)
      • \(\text{LNIE}(x) = \alpha\gamma\)
    • \(x'\)\(x''\) 的 CNDE 和 CNIE 就是将局部效应积分:
      • \(\text{CNDE} = \int_{x'}^{x''} \beta dx = \beta(x'' - x')\)
      • \(\text{CNIE} = \int_{x'}^{x''} \alpha\gamma dx = \alpha\gamma(x'' - x')\)
    • 结论:在 M1 中,CNDE/CNIE 完全等于 NDE/NIE。所以新度量是旧度量的推广

核心难题在哪里?当模型有交互(M2: \(Y = \beta X + \gamma M + \delta X M + \epsilon_Y\)

  1. 传统 NDE/NIE

    • \(\text{NDE}(x'', x'; Y) = (\beta + \alpha\delta x')(x'' - x')\)。这个量依赖于参考点 \(x'\)
    • \(\text{NIE}(x'', x'; Y) = (\alpha\gamma + \alpha\delta x'')(x'' - x')\)。这个量依赖于终点 \(x''\)
    • 它们不满足可加性:\(\text{NDE}(x''', x') \neq \text{NDE}(x''', x'') + \text{NDE}(x'', x')\)。而且逆转方向后,直接和间接效应的相对大小会完全改变(这就是 Section 3 里的例 2)。
  2. 本文的 CNDE/CNIE:其核心思想就是把依赖点给“局部化”和“积分掉”。

    • 计算局部效应:
      • \(\text{LNDE}(x) = \beta + \alpha\delta x\)。这是 \(E[Y_{x^*, M_x}]\)\(x^*\) 处的导数,此时“中介”也依赖于 \(x\),但取的是 \(M_x\) 的自然水平。导数 wrt \(x^*\) 的操作恰好抓住了在给定 \(x\) 时,只改变 \(X\) 而不改变 \(M\) 的影响。
      • \(\text{LNIE}(x) = \alpha\gamma + \alpha\delta x\)。这是 \(E[Y_{x, M_{x^*}}]\)\(x^*\) 处的导数。这里的核心是在保持 \(X\) 固定在 \(x\) 的情况下,只改变中介 \(M\) 的设置(因为 \(M_{x^*}\) 会随 \(x^*\) 变)。
    • 然后积分:\(\text{CNDE} = \int_{x'}^{x''} (\beta + \alpha\delta x) dx = \beta(x'' - x') + \frac{1}{2}\alpha\delta (x''^2 - x'^2)\)
    • 这种“先取关于参考点的局部导数,再沿路径积分”的做法,解决了 NDE/NIE 中“依赖固定端点 \(x'\)\(x''\)”的问题,从而使得最终的累积量满足偏斜对称性和可加性。
    • 一句话总结核心:CNDE/CNIE 通过将处理从 \(x'\) 变化到 \(x''\) 的过程中,在每个瞬时点 \(x\) 上,都去考察一个不依赖于最终终点的、局部的、将处理 X 和中介 M 各自效应解耦的微小变化,并将这些微小变化沿路径累加起来,从而得到全局中只依赖于路径本身、而不依赖于路径端点的一对直接和间接效应。

三、这篇论文做了什么

三句话

  1. 问题:展示经典的自然直接/间接效应(NDE/NIE)在连续处理场景下因不满足偏斜对称性和可加性而导致的解释悖论。
  2. 方法:提出累积自然直接/间接效应(CNDE/CNIE),通过将局部总效应 \(E[\partial_x Y_x]\) 分解为局部直接效应(LNDE)和局部间接效应(LNIE),并将其沿处理路径积分来构建。
  3. 结论:CNDE/CNIE 在标准和序贯可忽略性假设下可识别,天然保留对称性和可加性,从而避免 NDE/NIE 的悖论。对有序处理,也给出了相应的离散版本(CNDE-O, CNIE-O, S-CNDE-O 等)并证明了其性质。

关键设定与假设

  • 核心设定:非参数 SCM \(\mathcal{M}_N\) (式 3),假设变量间关系仅由一个三元组函数 \(f_X, f_M, f_Y\) 决定,未假设函数形式。这是一个非常标准且普遍的因果模型设定。
  • 关键假设——识别基础:

    • Assumption 1 (Sequential Ignorability, SI): 包含两个条件无条件独立:\(\{Y_{x,m}, M_{x'}\} \perp \!\!\! \perp X\)\(M_{x'} \perp \!\!\! \perp Y_{x,m}\)。这是识别 NDE/NIE(以及衍生的 CNDE/CNIE)的黄金标准假设,是 Imai et al. [2010a] 的基石。它控制了从 \(X\)\((M, Y)\) 的不可观测混杂,和从 \(M\)\(Y\) 的不可观测混杂。
    • Assumption 2 (不同形式与连续性): \(E[Y_{x, M_{x^*}}]\) 关于 \(x\)\(x^*\) 部分可微,且导数连续。这是定义局部效应 LNDE/LNIE 和进行积分所需的技术性平滑假设。只在连续处理场景需要。
    • 识别表达式 (Theorem 1):本文推导的 LNDE/LNIE 识别公式(Eq. 20, 21)比标准的 NDE 识别公式 (Eq. 5) 多了对 \(X\)\(M\) 的微分操作(\(\partial_x\)\(\partial_m\))。公式 (21) 中 LNIE 的式子巧妙地利用了积分-求导交换的 Leibniz 规则和积分-分部积分,转化为 \((\partial_m E[Y|X,M])(\partial_x P(M>m|X))\) 的形式,这避免了直接估计高维的联合分布,降低了估计难度。
    • Regularity Condition (Theorem 1): 为了证明积分-交换和分部积分的有效性,需要额外的技术条件,如 \(E[Y|X,M]\) 有界/多项式增长,且 \(\epsilon_M\) 的密度光滑且在尾部多项式衰减快。这是纯技术性的。
  • 相比已有文献的放宽或强化

    • 强化:本文提出了比 NDE/NIE 更强的代数性质要求(对称性与可加性),并将 CNDE/CNIE 定位为满足这些性质的解。
    • 放宽:在因果假设上,本文并未放宽 SI 假设本身。它的贡献在于用新度量替换旧度量(在给定识别假设下),而不是提出新的识别策略。

主要结果

理论结果(Theorem 1-4, 连续处理):

  1. Theorem 1 (LNDE/LNIE 识别):在 SI 假设和平滑假设下,LNDE 和 LNIE 可以被识别,且给出了基于条件密度和条件均值的显式表达式 (Eq. 20-21)。这是后文 CNDE/CNIE 识别的基础组件
  2. Theorem 2 (对称性与可加性):CNDE 和 CNIE 满足偏斜对称性和可加性。证明是基于积分的线性性质(积分上下限交换变号,积分区间可以分段求和),非常直接。
  3. Theorem 3 (总效应分解):总效应 \(\text{TE}(x'', x'; Y)\) 可以被分解为 \(\text{CNDE} + \text{CNIE}\)。证明的核心是 Lemma 1,即 \(\text{LTE} = \text{LNDE} + \text{LNIE}\)。因此积分后自然成立。这对于 NDE/NIE 来说,仅在线性无交互模型成立 (Eq. 10),而本文的结果适用于任意非参数模型,这是一个显著的推广
  4. Theorem 4 (CNDE/CNIE 识别):将 Theorem 1 中的 LNDE 和 LNIE 的识别公式代入积分,即可得到 CNDE 和 CNIE 的识别公式 (Eq. 29-30)。技术难点:证明 LNDE/LNIE 的识别公式 (Theorem 1) 是整个识别结果的关键。特别是 LNIE 公式 (21) 中的分部积分推导涉及对潜在结果的数学期望进行求导和积分交换的合法性,需要扎实的泛函分析或测度论功底,作者通过 Assumption 2 的平滑条件和 Theorem 1 中的 regularity condition 来保证该过程有效。

主要结果(Ordinal Treatment, Theorems 5-10):

  • 对于有序处理,作者定义了相应的离散版本(CNDE-O, CNIE-O, S-NDE, S-NIE, S-CNDE-O, S-CNIE-O)。核心是将连续积分替换为对相邻水平间 NDE/NIE 的求和。结果证明,S-CNDE-O 和 S-CNIE-O 同时具备偏斜对称性和可加性。

证明路线与技术技巧(理论型必写)

核心定理:Theorem 1 的证明路线

  1. 目标:证明 \(\text{LNDE}(x;Y) = \int \partial_x E[Y|X=x, M=m] p(M=m|X=x) dm\)

    • 思路:利用 SI 独立性 (\(Y_{x^*,m} \perp X|W\), \(M_x \perp X\)) 和 SCM 结构映射函数。关键步骤:
      • 写出 \(\text{LNDE}(x;Y) = \partial_{x^*} E[Y_{x^*, M_x}]|_{x^*=x}\)
      • 在 SI 下,\(E[Y_{x^*, M_x}] = \int E[Y_{x^*, m}] p(M_x=m) dm\)
      • 在 SI 下,\(E[Y_{x^*, m}] = E[Y|X=x^*, M=m]\)\(p(M_x=m) = p(M=m|X=x)\)
      • 带入后对 \(x^*\) 求导(在 \(x^*=x\) 处),由于被积函数中的 \(E[Y|X=x^*, M=m]\) 关于 \(x^*\) 有导数(Assumption 2),可以通过 Leibniz 积分规则将导数移到积分号下,得到 \(\int \partial_{x^*} E[Y|X=x^*, M=m]|_{x^*=x} p(M=m|X=x) dm\)。这就完成了证明。
  2. 目标:证明 \(\text{LNIE}(x;Y) = \int \partial_m E[Y|X=x, M=m] \partial_x P(M > m|X=x) dm\)

    • 思路:这是更复杂的部分,核心是分部积分技巧。
    • 写出 \(\text{LNIE}(x;Y) = \partial_{x^*} E[Y_{x, M_{x^*}}]|_{x^*=x}\)
    • 在 SI 下,\(E[Y_{x, M_{x^*}}] = \int E[Y_{x, m}] p(M_{x^*}=m) dm\)
    • SI 告诉我们 \(E[Y_{x, m}] = E[Y|X=x, M=m]\)\(M_{x^*}\) 的分布与 \(p(M|X=x^*)\) 相同。所以问题转化为求导:\(\frac{d}{dx^*} \left[ \int E[Y|X=x, M=m] p(M=m|X=x^*) dm \right]|_{x^*=x}\)
    • 关键跳跃点:这里不是对 \(E\) 本身求导,而是对概率密度 \(p(M|X=x^*)\) 求导。直接对密度函数求导技术上很绕。作者的技巧是:将积分写成累积分布的形式:
      • \(\int E[Y|X=x, M=m] p(M=m|X=x^*) dm = - \int E[Y|X=x, M=m] \frac{\partial}{\partial m} P(M > m |X=x^*) dm\)
      • 现在,对整个表达式关于 \(x^*\) 求导,得到: \(\frac{d}{dx^*} \left[ - \int E[Y|X=x, M=m] \frac{\partial}{\partial m} P(M > m |X=x^*) dm \right]|_{x^*=x}\)
      • 由于 \(P(M>m|X=x^*)\) 关于 \(x^*\) 有可微性(由 Assumption 2 隐式保证),可以将导数移入积分内部,对 \(P(M>m|X=x^*)\) 求导,得到 \(\partial_x P(M>m|X=x^*)\)。现在积分变为: \(- \int E[Y|X=x, M=m] \frac{\partial}{\partial m} \partial_x P(M > m |X=x^*) dm\)
      • 最后一步分部积分:将 \(\frac{\partial}{\partial m}\)\(P\)交换\(E[Y|X=x, M=m]\) 上(这需要 regularity condition 保证边界项消失),得到: \(\int \partial_m E[Y|X=x, M=m] \partial_x P(M > m |X=x^*) dm\)
      • 最后设 \(x^*=x\),就得到想要的 LNIE 公式 (21)。

技术技巧点名: * Leibniz 积分规则:用于将导数引入积分内部。 * 分部积分 (Integration by Parts):用于将关于概率密度的微分转化为关于条件均值的微分。 * 累积分布函数与生存函数:将密度 \(p(m)\) 用生存函数 \(P(M > m)\) 的差/微分形式表示,为分部积分铺路。

真实例子与应用

  • 用的什么数据:Framingham Heart Study 数据集。子样本:男性,50 岁以下,高中学历以下吸烟者,N=224。
  • 变量:处理 \(X\) = 每日吸烟量(支),中介 \(M\) = 身体质量指数 (BMI),结果 \(Y\) = 心率。作者检查吸烟是否通过 BMI 影响心率。
  • 怎么用上去:使用非参数局部线性回归 (Local Linear Regression) 估计条件期望 \(E[Y|X, M]\)\(E[M|X]\)。然后,基于 Theorem 1 和 4 的识别公式,用这些估计量和 Monte Carlo 积分计算 CNDE/CNIE 等量。具体来说,他们假设 \(Y\)\(M\) 在给定 \(X, M\)\(X\) 的条件下是正态分布的,并用局部线性回归拟合其均值函数\(\theta(x, m)\)\(\phi(x)\)(包含交互项)。
  • 得到什么结果:结果被汇总在 Table 2 中。对于处理对比 20 vs 40 支烟:
    • 标准 NDE: 0.955,NIE: 0.161。逆转方向后,NDE(40,20)和NIE(40,20)的大小与正负号显著改变(NDE: 0.955 vs -0.363, NIE: 0.161 vs 0.431)。
    • 新度量 CNDE: 0.586,CNIE: -0.062。逆转方向后,CNDE(20,40) 和 CNIE(20,40) 正好是其负值(因对称性),数值一致。
    • 可加性例子:\(\text{NIE}(20,30) + \text{NIE}(30,40) = 0.226\),但 \(\text{NIE}(20,40) = 0.431\)。而 CNIE 满足 \(\text{CNIE}(20,30) + \text{CNIE}(30,40) = \text{CNIE}(20,40)\)
  • 这个例子想说明什么:这个真实数据的例子清晰地展示出标准 NDE/NIE 与 CNDE/CNIE 之间的差异:
    1. 验证悖论的存在:作者展示了 NDE/NIE 在逆转处理方向(偏斜对称性缺失)和处理区间细分(可加性缺失)时给出的不一致、甚至反常的解释。例如,从 20 到 30 支,总效应的 100% 被归为直接;而反向从 30 到 20,直接和间接各占一半左右。
    2. 展示新度量的优势:CNDE/CNIE 完美地避开了这些问题。其分解结果在任何对比方向上都保持一致(对称),且细分的区间效应之和等于总区间效应(可加)。作者评论道:“新分解提供了横跨区间的连贯解释”。

🔎 结论是否比证明窄

  • 否,结论与证明一致。本文的结论(CNDE/CNIE 满足对称性和可加性,且可识别)是直接在假设下证明的。没有任何多余的声称。所有理论结果都干净地对应到具体的定理和公式。在应用部分,他们展示的是这些理论在特定估计方法下的行为,而不是在更弱假设下的归纳。

四、开放问题

  1. 扩展到更复杂的识别策略:本文的识别建立在严格的 SI 假设下。作者在“Conclusions”中明确指出此限制,并将“将 IV, Proximal, DiD 方法扩展到我们的提议度量中”列为重要的未来工作。这是一个明确的gap。

    • 扎根点: Section 7: “The identification results in the paper rely on the sequential ignorability assumption … extending these approaches [instrumental-variable, proximal-variable, and difference-in-differences approaches] to our proposed measures is an important avenue for future research.”
  2. 扩展到多个中介变量:作者明确将“多中介”场景下的 CNDE/CNIE 定义、识别和解释列为未来方向。这在许多应用场景中非常常见。

    • 扎根点: Section 7: “Developing cumulative direct and indirect effect measures in the presence of multiple mediators… is an interesting direction for future work.”
  3. 更有效(半参数)的估计:作者在结论中引用 Tchetgen and Shpitser [2012a] 和 Huang et al. [2024] 的工作,指出“高效估计”是重要方向。本文的估计使用了局部线性回归和蒙特卡洛模拟,理论上的有效性 (efficiency) 并未研究。为 CNDE/CNIE 开发出具有半参数效率界、且能适应高维度协变量 \(W\) 的估计量(如 DML),是一个直接且有价值的方向。这对熟悉 semiparametric theorydebiased ML 的研究者是个机会。

    • 扎根点: Section 7: “Efficient estimation is another important topic… Developing efficient estimators for our proposed measures is an important direction for future research.”
  4. 检验代理变量/工具变量方法的需求:SI 假设要求无不可观测混杂,这在许多观测研究中不现实。研究者可以思考:如果 SI 假设被违反,是否存在类似 NDE/NIE 的“识别边界”(如 Ding and Vanderweele [2016]) 的 CNDE/CNIE 的敏感度分析方法?或者,是否可以借用工具变量/近端变量来达到识别目的,而不需要 SI?这个问题刚好落在 researcher 的 causal inference 兴趣域内,且是个典型的“做什么取决于你愿意相信什么假设”的问题。

    • 扎根点: Section 7 讨论了敏感性分析和 IV/Proximal/DiD 方法。

Maintained by 陈星宇 · Homepage · Source on GitHub

评论