Some approximations to the path formula for some nonlinear models¶

作者: Christiana Kartsonaki
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 7/10
机构绿灯: University of Oxford（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12753

一、领域脉络与小综述¶

这个方向是什么¶

本子方向是因果中介分析（Causal Mediation Analysis） 中的效应分解问题。其根本的统计（科学）问题为：在存在中间变量（中介变量）的情况下，如何将暴露/处理对结局的总体效应（Total Effect）分解为“仅通过处理影响中介、再影响结局”的间接效应（Indirect Effect）以及“处理直接影响结局（不经过中介）”的直接效应（Direct Effect）。在线性最小二乘回归这一参数模型中，存在一个精确的、简洁的路径分解（Path Formula）。本方向当前在非线性模型（尤其是非连续结局、生存结局）中的推广尚未形成统一的、准则性的方法，此类推广多依赖参数假设下的近似公式或基于反事实的识别策略。

发展脉络（history）¶

基于论文的 Introduction 及其对已有文献的引用，可勾勒出一条基本的发展线：

奠基工作（线性模型下的经典分解）：Baron & Kenny (1986) 奠基了心理学/社会科学中的中介分析框架，其核心是线性回归系数的简单乘积分解。此阶段的方法论基础是最小二乘回归的代数性质，即总效应 = 直接效应 + 间接效应，且直接效应等于 c' 系数（控制中介后的暴露系数），间接效应等于 a * b（暴露对中介的系数 × 中介对结局的系数）。这一分解在 OLS 假设下是精确且一致的。
主要进展（向非线性模型的参数化推广）：MacKinnon et al. (2007) 和 Preacher & Hayes (2008) 开始系统性地探索 logistic 回归和 probit 回归中的类似分解。然而，由于模型非线性（如 logistic 回归的 log-odds 尺度与概率尺度非可加），经典乘积分解不再精确成立。这些工作主要依赖于近似方法，例如通过 Taylor 展开或 delta 方法将暴露的小变化效应线性化。Buis (2010) 提出了一种基于参数化模型的“predictive margins”分解方法。论文作者指出这些方法的共同局限：它们都依赖于特定的参数模型设定（如 Logistic 或 Cox），且分解公式是近似的，缺乏统一的理论框架来界定近似误差。
当前 Frontier（非/半参数识别与效率推断）：在作者所绘制的 gap 地图中，隐含着一条平行的、更强大的线索——基于 Rubin 因果模型的反事实框架与半参数效率理论。Imai et al. (2010) 提出了基于非参数识别假设的自然效应模型（Natural Effect Model），通过敏感性分析等来界定识别范围。VanderWeele (2015) 系统性地总结了在交互项存在下如何通过回归公式进行识别。然而，作者的论文并未深入涉及这一线索，而是将其 frame 为复杂且可能需要更强假设。作者挑选的竞争路线是“纯参数模型下构造可行的近似分解”，并将其留作为自己工作的前置背景。
本文的位置：本文是针对 logistic 回归与 Cox 比例风险模型，指出线性路径公式的精确性如何“塌陷”，并针对这些特定模型，构造出可用的近似分解公式，并给出在某些参数设定下的误差特征分析。这是对一个成熟但存在缺口（非线性模型下的分解公式缺乏一般性且不精确）领域的一次“修补性”尝试。

子线索聚类¶

这些被引文献大致可归为两条子线索：

线索 A: 参数近似法（本文所属）：包括 MacKinnon (2007), Preacher & Hayes (2008), Buis (2010) 以及本文。共同点是：在特定参数模型（Logistic、Probit、Cox）下，利用 small effects / rare outcome / 线性近似来构造直接与间接效应的代数分解。优点是计算简单、可直接在常见软件中实现；缺点是分解不精确、依赖强分布假设，且误差通常不可控（除非在极特殊条件下）。
线索 B: 基于反事实的半参数/非参数识别法：包括 Imai et al. (2010), VanderWeele (2015)。共同点是：通过定义反事实（Y_{a,M_a*}、“natural direct/indirect effect”）来给出不受特定模型形式约束的效应定义；然后通过假设（如顺序可忽略性、一致性、交叉世界假设）来识别这些效应。优点是有坚实的因果推断基础、可与非参数/半参数效率理论（efficient influence function）结合，给出渐近有效的估计。缺点是识别假设更强（例如需假设处理分配的随机性可延展到中介层面），且非参数方法在高维下会遭遇 curse of dimensionality。

这个方向在追问的核心问题与已知瓶颈¶

核心问题 1：在线性模型之外（如二项结局、计数、生存时间），如何定义并保序地分解总效应为直接与间接效应？瓶颈：非线性的链接函数（如 logit, log）破坏了加性分解，使得经典的乘积分解不再成立。
核心问题 2：如何量化近似分解的误差，并给出其渐近行为？瓶颈：误差依赖于暴露、中介、结局的联合分布，在参数模型下可解析推导，但无法推广到非参数情形。
核心问题 3：如何将半参数效率理论（efficient influence function、debiased ML）应用于此类分解，以实现 sqrt(n) 一致且高效估计？瓶颈：在自然效应模型中需要处理两个嵌套的反事实（处理与中介同时变化），导致影响函数具有复杂的嵌套结构（双门准则、cross-world contrasts），在计算和理论证上都具有较大挑战。

⚠️ 作者的 framing¶

这是作者的说法：作者将缺口 frame 为“在线性最小二乘模型之外，需要为 logistic 和 Cox 模型构造出可直接使用的路径公式近似”。她认为已有工作在 logistic 和 Cox 模型上的尝试不够完善（如仅讨论了粗略的系数乘积，而不是完整的“暴露变化”效应），而本文则“提供了一个干净、易于理解的框架”来填补这一缺口。她淡化或回避了以下竞争路线：基于 Imai et al. (2010) 的自然效应模型在 logistic 和 Cox 设定下的应用——该路线其实已通过 g-formula 或 bootstrap 等方法给出完整解法（虽无封闭形式近似公式，但可通过模拟积分精确计算反事实效应）。作者可能选择回避是因为该路线需要额外假设（如 conditional exchangeability for mediators），而她更倾向于在纯参数模型下“简化”。
什么明显该被引 / 该存在、却没出现在 intro 里？：作者没有引用 VanderWeele (2015) 的专著 Explanation in Causal Inference，该专著系统地论述了在中介分析中如何处理交互作用和非线性，包括 logistic 回归下的 OR 尺度分解。也未引用 Tchetgen Tchetgen & Shpitser (2012) 关于“双属性中介分析”的识别理论。这些缺失提示读者：作者的视角相对狭窄，集中在“如何将线性代数公式搬到非线性模型”这一旧路径上，而非跟随反事实现代框架。
张力：未见明显对立引用。所有被引用工作都承认线性路径公式在非线性模型下不精确，并尝试以不同精度和假设进行补充。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据的交代¶

核心记号：

A = 暴露/处理变量（本文中视为二值或连续）
M = 中间变量/中介变量（连续或二值）
Y = 结局变量（连续、二值或生存时间）
可观测数据：研究者实际观察到的样本为一个独立同分布随机样本 (A_i, M_i, Y_i)，i=1,...,n。此外可能包含协变量 C（但本文最小内核中可忽略）。
潜在量（未观测，只能通过假设识别）：定义反事实 Y(a, m) 为在给定处理水平 a 和中介水平 m 下结局可能取的值；定义 M(a) 为处理 a 下的中介值。处理对结局的总效应（TE）定义为 E[Y(1, M(1))] - E[Y(0, M(0))] 或 E[Y(1) - Y(0)]。直接效应（DE）为 E[Y(1, M(0))] - E[Y(0, M(0))]，间接效应（IE）为 E[Y(0, M(1))] - E[Y(0, M(0))]。三者满足 TE = DE + IE。
参数（目标）：在参数模型中，上述反事实因果效应被转化为模型参数。在 OLS 线性模型 E[Y|A,M] = α + βA + γM 和 E[M|A] = μ + δA 下，TE = β + γδ，DE = β，IE = γδ。
维数与样本量：p 为协变量维数（本文最小内核中暂设为 0），n 为样本量。
假设：本文在最小内核中假设 Missing at Random (MAR)，即无不可观测混杂，以及 consistency（Y = Y(1)*A + Y(0)*(1-A)，M = M(1)*A + M(0)*(1-A)）。

模型：在最小内核里，这是一个参数化回归模型。以 logistic 回归为例： - Pr(Y=1 | A, M) = logit^{-1}(α + βA + γM + τ A*M)（包含交互项） - E[M | A] = μ + δA（线性，也可为 logistic） 可观测数据：研究者观测到 (A_i, M_i, Y_i)，其中 Y_i 是 0/1 的二值变量，M_i 是连续变量。

第二步：最小内核¶

最简特例：想象一个单处理、单中介、无交互的 logistic 常系数结局模型，且结局事件率较低（即 SU = α + βA + γM 较小，logistic 近似于 log-linear Poisson 模型）：

设定：Pr(Y=1 | A, M) ≈ exp(α + βA + γM)（即对数线性模型）。同时中介 M = μ + δA + ε，ε ~ N(0, σ²)，独立于 A。
核心问题：在线性 OLS 模型下，总效应为 β + γδ。在 logistic 模型下，log-odds 尺度上的效应是线性的（logit(Pr(Y|A,M)) 对 A 是线性的），但概率尺度和 OR 尺度是非线性的。

论文的核心思路：作者不再追求“总效应 = 精确的 β + γδ”的恒等式，而是通过概率链式法则（law of total probability）来构造近似公式:

Pr(Y=1 | 设置A为1) = E_M{ Pr(Y=1 | A=1, M) | A=1 } Pr(Y=1 | 设置A为0) = E_M{ Pr(Y=1 | A=0, M) | A=0 }

但这里的关键是直接效应和间接效应：可以构造一个“设置A=1但保持M的分布与A=0时相同”的场景： Pr(Y=1 | A=1, but Indirect Effect removed) = E_{M|A=0}[ Pr(Y=1 | A=1, M) | A=0 ]

在这个最简例子的推导：利用 Pr(Y=1 | A, M) ≈ exp(α + βA + γM)，以及 M|A=0 的分布是 N(μ, σ²)，则：
- E_{M|A=0}[exp(α + β*1 + γM)] = exp(α + β + γμ + 0.5γ²σ²) （正态矩母函数）
- E_{M|A=0}[exp(α + β*0 + γM)] = exp(α + γμ + 0.5γ²σ²)
从而得到：log(Pr(Y=1 | A=1)) - log(Pr(Y=1 | A=0)) ≈ β + γδ （注意这里 log scale 相当于风险比的对数）。而直接效应近似为 β，间接效应近似为 γδ。这与线性 OLS 形式完全一致（只是从“均值差”变成了“对数风险比差”）。核心思想是：在对数线性或罕有病模型下，非线性效应分解的近似公式退化成了线性路径公式的结构。论文的一般情形只是在此类特定近似假设（对数线性、无交互或弱交互、正态中介）下，加入交互项、非正态中介等一般化因素的“加壳”版本。

三、这篇论文做了什么¶

三句话：
1. 研究了logistic 回归与 Cox 比例风险模型两类非线性模型下暴露对结局的总效应如何通过中介变量分解为直接与间接效应的近似公式。
2. 核心工具是 Taylor 展开 与 Delta 方法，在参数模型设定下，将路径公式的精确线性乘积（a*b）推广为通过 E_M[logit(Pr(Y|A,M))] 与 E_M[log(h(t|A,M))] 的一阶近似。
3. 主要结论是：在无交互或弱交互假设下，logistic 模型的对数几率（log-odds）尺度和 Cox 模型的对数风险比（log-hazard）尺度下的直接/间接效应可由参数估计值按公式计算，且近似误差在 O(γδ) 量级（在小暴露效应或罕有病假设下）。
关键设定与假设：
- 模型设定：
  - Logistic 模型：logit(Pr(Y=1|A,M,C)) = α + βA + γM + ψA*M，其中 ψ 为交互项系数。C 为协变量。
  - Cox 模型：h(t|A,M,C) = h0(t) * exp(βA + γM + ψA*M)，其中 h0(t) 是基线风险函数。
  - 中介模型：E[M|A,C] = μ + δA + κC （线性）或 logit(Pr(M=1|A,C)) = α_M + δA + κC（二值中介）。
- 假设：
  - 无不可观测混杂（Sequential Ignorability）：给定 C，A 是近似随机的；给定 A 和 C，M 与 Y 的混杂是充分测量的。
  - 一致性（Consistency）
  - 无 X-World 反事实冲突（automatically satisfied in parametric framework with no exposure-mediator interaction counterfactuals）。
  - 与已有文献的对比：相比 Imai et al. (2010)，本文没有强调“natural direct/indirect effect”的识别条件，而是完全依赖参数模型的封闭形式来近似；相比 MacKinnon (2007)，本文给出了更系统的 logistic 和 Cox 模型下的分解公式，并考虑了交互项。
主要结果：
- 结果 1（Logistic，无交互）：在 logit(Pr(Y|A,M)) = α + βA + γM 下，总效应（对数几率尺度）为 β + γδ，直接效应为 β，间接效应为 γδ。在概率尺度上，使用 Delta 方法得到近似：总效应 ≈ P0(1-P0)(β+γδ)，直接效应 ≈ P0(1-P0)β，间接效应 ≈ P0(1-P0)γδ。其中 P0 = Pr(Y=1|A=0,M=E[M|A=0])。核心直觉：在线性预测项 α+βA+γM 的“投影”下，logistic 模型的系数存在乘积分解，但需转换到 log-odds 尺度。
- 结果 2（Logistic，含交互）：当模型含 A*M 交互项时，logit(Pr(Y|A,M,C)) = α + βA + γM + ψA*M。间接效应的近似 ≈ (γ + ψ)δ，直接效应 ≈ β + ψ*E[M|A=0]。这是最有趣的结果：交互项的引入使间接效应依赖于中介模型系数 γ + ψ，而直接效应依赖于 E[M|A=0] 的值（即控制中介的基线水平）。
- 结果 3（Cox 比例风险模型）：类似地，在 h(t|A,M) = h0(t)*exp(βA+ γM) 下（无交互），对数风险比尺度的分解为 TE_logHR = β + γδ。与 logistic 模型的关键不同：Cox 模型不需要转换到概率尺度，因为它的效应一直以累乘形式（hazard ratio）呈现，分解是乘性的（即 HR_TE = exp(β) * exp(γδ)）。
- 理论支撑：结果以“近似公式”形式给出，作者未提供严谨的误差项渐近展开（如 Op(n^{-1/2}) 或 op(1)），而是通过模拟实验来展示近似效果在什么场景下“好”（小效应量、罕有病、正态中介）。
证明路线与技术技巧（方法型的，重点在方法设计）：
- 本论文是方法型而非理论型，其主要“证明”是推导过程本身：
  1. 写出模型与嵌套期望：E[Y|A=1] = E_M[ E[Y|A=1,M] | A=1 ]。对于间接效应，写下 E[Y|A=1, M distributed as M|A=0] = E_M[ E[Y|A=1,M] | A=0 ]。
  2. 代入参数模型：在 logistic 下，E[Y|A=1,M] = logit^{-1}(α + β*1 + γM + ψ*1*M)，在 Cox 下则对应于累积缩放生存函数。
  3. 进行线性近似：核心技巧是假设暴露效应较小（β、δ 或交互项 ψ 较小），使得倒逻辑函数 logit^{-1}(x) 或风险比率在 x 的均值附近可以作一阶 Taylor 展开。具体而言，作者将 E_M[logit^{-1}(α+β+γM+ψM) | A=0] 在点 M = E[M|A=0] 处作 Delta 展开，保留一阶项。
  4. 代入中介模型：E[M|A=0] = μ，E[M|A=1] = μ + δ。此时期望的差值被简化为仅由 β、γ、δ、ψ 组成的代数式。
  5. 关键跳跃点：推导的关键跳跃在于通过 Delta 方法将二阶矩 Var(M|A) 的影响吸收进一阶近似中，并假定 Var(M)γ² 效应远小于主效应（即罕见结局或小效应假设下的 0.5γ²σ² 项可忽略或可被调整但不影响核心分解结构）。难点在于，当结局率较高或中介方差较大时，这一近似会失效，而作者未给出详细的二阶校正公式。
真实例子与应用：
- 本文包含模拟实验（在真实数据部分）。场景：一个二值暴露 A、连续中介 M、二值结局 Y，数据生成于 logistic 模型（无交互），参数从一般到极端变化（OR_TE 从 1.2 到 2.0）。
- 如何应用：模拟生成数据后，分别拟合 (1) 完整 logistic 模型（Y ~ A + M），(2) 中介模型（M ~ A），然后用本文的公式（β + γδ）计算“估计的”总效应、直接效应和间接效应。同时，利用真实数据（反事实结构）计算真实的直接与间接效应作为 ground truth。
- 关键结果：模拟显示，当真实总体效应较小（OR_TE ≈ 1.2-1.5）、且中介模型解释力不高时，该近似公式的偏差在可接受范围（< 5% 的相对偏差）。当效应增大或中介方差很大时，偏差显著增大（> 20%），尤其是在概率尺度而非 log-odds 尺度下更明显。
- 例子想说明什么：该例子旨在验证“在特定参数空间内（小效应量、较低y率）”近似是合理的；同时暴露了该近似的局限性——当效应过大或中介变动剧烈时，近似失效。这提示了研究者的一种权衡：如果愿意坚守一个较窄的参数设定，可以用该近似避开复杂的非参数模拟，否则需要采用 Imai 等人基于模拟/g-formula 的方法。
🔎 结论是否比证明窄：是。作者在 Abstract 和 Introduction 中声称给出了“analogous decompositions for other models”，但在论文中实际证明的只是“在特定一阶线性假设下，logistic 和 Cox 模型的路径公式近似可行”。更 careful 的表述应该是在罕见结局/小暴露效应假设下给出的一阶近似，而作者将其泛化为一个通用工具。另外，当交互项 ψ 出现时，其推导中的“间接效应 ≈ (γ+ψ)δ”严格依赖于对 E[M|A=0] 的 Taylor 展开，若中介分布偏斜或中介为非连续且与结局存在强交互，该公式可能完全失效。

四、开放问题¶

近似误差的理论界：本文未给出近似公式的渐近误差项（如 Op(n^{-1/2}) 还是更差的 Op(1)）。一个直接的开放问题是：能否在更一般的非/半参数设定下，证明这些近似公式是一致估计（如 n^{1/2} 收敛）还是仅能通过模拟验证?（扎根于本文第三节“模拟实验”部分的结果，显示误差大小依赖于参数设定，但无理论界。）
高维/连续交互下的精确分解：本文仅考虑了单个中介和线性交互（ψA*M）。若中介是多维（M_1, ... , M_k）或交互形式复杂（如高阶项 A*M²），路径公式的近似是否会保持可预测的代数结构，还是需要更复杂的计算（如因果图的 \(do\) 演算或结构化模拟）？（扎根于本文对 logistic 交互项的处理仅给出一阶近似，未推广到非线性高维交互。）
连接半参数效率理论：本文限于参数模型下的近似。研究者可以问：能否利用 influence function 构造一个介于“完全参数近似”和“完全非参数模拟”之间的双稳健估计量，使得当一个子模型（如处理/中介的分布或结局模型）正确指定时，直接/间接效应的估计是 sqrt(n) 一致的？（扎根于本文的 1-2 节，完全没有引用或讨论 semiparametric efficiency theory / influence functions 在该问题上的应用，这是一个明确的、可利用的 gap。）

Maintained by 陈星宇 · Homepage · Source on GitHub