跳转至

Causal Mediation Analysis for Sparse and Irregular Longitudinal Data

讲者: Fan Li
讨论人: Georgia Papadogeorgou
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-02-23
主题: 因果推断
视频: https://youtu.be/l1C3DPf9eZw · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

本报告关注的子方向是纵向数据下的因果中介分析——在时间轴上处理暴露、中介和结局三者关系,并试图区分直接效应和间接效应(即中介效应)。该方向的核心追问是:当观测在时间上稀疏、不规则,且中介和结局都可能随时间变化时,如何正确定义、识别并估计因果中介效应?

奠基与主流路线: - 经典框架:Baron & Kenny (1986) 提出两阶段结构方程模型(SEM),通过线性回归估计“Z→M”和“Z+M→Y”的系数,间接得到间接效应和直接效应。该论文引用近10万次,但缺乏因果解释。 - 因果化:Robins & Greenland (1992)、Pearl (2001) 利用潜在结果正式定义自然直接效应(NDE)和自然间接效应(NIE)。Imai, Keele & Yamamoto (2010) 则给出识别假设(序列可忽略性等),证明在假设下 Baron-Kenny 估计量具有因果含义。此后涌现大量工作(VanderWeele, Tchetgen Tchetgen, Lok, Daniels, 及许多作者),涵盖新数据结构、识别理论、建模策略和软件。 - 现有纵向扩展: - 稀疏且规则时序:VanderWeele & Tchetgen Tchetgen (2017)、Lin et al. (2017)、Zheng & van der Laan (2017) 处理暴露或中介为纵向但观测间隔规则、缺失稀疏的情形。 - 密集规则时序(功能数据视角):Lindquist (2012)、Zhao et al. (2018) 将 fMRI 等密集时间序列视为函数型数据,提出功能中介分析。

本报告的站位: 上述工作不适用于中介和结局同时为稀疏、不规则时序的情形(如电子健康档案、生态学中的机会取样)。讲者 Fan Li 与合作者将功能数据视角(FPCA) 注入 Imai 等人的因果中介框架,把稀疏不规则观测视为潜在光滑随机过程的带噪实现,通过对过程进行降维估计(Bayesian FPCA)来插补任意时间点的值,再代入两阶段 SEM 估计因果效应。该工作发表于 Annals of Applied Statistics (Zeng et al., 2021),与生物学应用论文 (Rosenbaum et al., 2020, PNAS) 并列。

关键引文(从幻灯片和转录中提取,多人名靠领域常识确认): - Baron & Kenny (1986) —— 经典 SEM - Robins & Greenland (1992), Pearl (2001) —— 潜在结果定义 - Imai, Keele & Yamamoto (2010) —— 因果识别的标准假设 - VanderWeele & Tchetgen Tchetgen (2017) —— 稀疏规则纵向中介 - Lindquist (2012) —— 功能中介 - Yao, Müller, Wang (2005) —— 稀疏 FPCA 方法(幻灯片提及) - Kowal & Bourgeois (2020) —— Gaussian process prior on PCs(幻灯片提及)

注:以上作者名及年份均来自幻灯片文字抽取,若与音频转写不一致,以幻灯片为准。

二、最小内核 / 一个最简例子

核心思想:假设暴露(Z)是二值(0/1),中介 M(t) 和结局 Y(t) 是定义在连续时间 t∈[0,T] 上的随机过程,但每个个体只在稀疏、不规则的时间点上观测到带噪声的 M(t_ij)Y(t_ij)。我们将这些离散观测视为潜在光滑过程 M_i(t)Y_i(t) 的实现加上测量误差。因果效应定义在过程的轨迹上,而非离散观测上。

符号: - Z_i:个体 i 的处理状态(0 对照,1 处理)。 - M_i(t):潜在中介过程(光滑,无测量误差)。观测值为 M_ij = M_i(t_ij) + ε_ij,其中 ε_ij~N(0,σ_m²)。 - Y_i(t):潜在结局过程,观测 Y_ij = Y_i(t_ij) + ν_ijν_ij~N(0,σ_y²)。 - 协变量 X_ij(静态或时变,独立于 Z_iM_i(t)Y_i(t))。

潜在结果(需扩展至过程): - M_i^z(t):个体 i 在暴露水平 z 下直到时间 t 的潜在中介过程。 - Y_i^z,m(t):在暴露 z 且中介过程为 m 时的潜在结局过程。 - 跨世界反事实(cross-world counterfactual)如 Y_i(1, M_i^0(t)) 被视为自然直接/间接效应定义的核心,也引发争议。

因果估计量(均为时间 t 的函数): - 总效应 (TE):τ_TE(t) = E[Y_i(1, M_i^1(t)) - Y_i(0, M_i^0(t))] - 平均因果中介效应 (ACME):τ_ACME(z)(t) = E[Y_i(z, M_i^1(t)) - Y_i(z, M_i^0(t))],z=0,1 - 平均自然直接效应 (ANDE):τ_ANDE(z)(t) = E[Y_i(1, M_i^z(t)) - Y_i(0, M_i^z(t))]

识别假设(延长自 Imai 等 2010): 1. 可忽略性(无混淆){Y^1,Y^0,M^1,M^0} ⊥ Z | X,即给定协变量,处理分配独立于潜在中介/结局过程。 2. 序列可忽略性(必要的中介-结局无异质性):在任意充分小的时间区间 (t, t+Δ) 内,结局过程的增量与中介过程的增量条件独立——给定 Z、协变量历史 X_t 和中介历史 M_t。这是最强的假设,也是本报告重点讨论的难点。

最简特例:取 T=2(两个时间点),处理 Z∈{0,1} 为二值,协变量为空。则观测数据为 {M_i1, Y_i1, M_i2, Y_i2}(可能缺失部分时间点)。这时中介过程退化为两个时间点的随机向量。ACME(1) 可写为: τ_ACME(1)(t=2) = E[Y_i(1, M_i^1(2)) - Y_i(1, M_i^0(2))]。识别需要: - 可忽略性成立(无未测混杂影响Z和Y,M)。 - 序列可忽略性:Y_i(1,m) 的增量在 t=1→2 与 M_i(1)→M_i(2) 的增量独立,给定历史 Z, M_i(1)

估计策略:用 FPCA 将两个时间的 M(t) 映射到少数主成分得分(如 ε_1, ε_2),再用贝叶斯方法从观测中恢复得分;然后拟合: - 中介模型:M(t_j) = X'β_M + Σ_r ζ_r ψ_r(t_j) + 噪声,其中得分 ζ_r 关于 Z 假定分布(如 ζ_r ~ N(χ_r^Z, λ_r²)); - 结局模型:Y(t_j) = X'β_Y + f(M^{t_j},γ) + Σ_s η_s(t_j) θ_s + 噪声,其中 f 可设定为同时刻、滞后或累积效应; 最后将系数代入效应公式(例如 τ_ACME = Σ_r γ (χ_r^1 - χ_r^0) ψ_r(t))得到后验均值及区间。

三、报告主体:讲者讲了什么

[0:00-0:03] 主持人介绍:Online Causal Inference Seminar, 欢迎 Fan Li, 问答助手 Shuxi Zeng。

[0:03-0:10] 讲者开场:感谢组织者,介绍合作者(博士生 Shuxi Zeng,合作生物学家 Susan Alberts, Elizabeth Archie, Stacy Rosenbaum)。论文即将发表在 Annals of Applied Statistics,另有工作论文和 PNAS 论文。

[0:10-0:20] 背景:中介分析框架。Baron-Kenny 两 SEM 极流行(引用近10万次),但无因果解释。因果中介分析自 1990 年代发展(Robins & Greenland 1992, Pearl 2001)。Imai et al. (2010) 建立假设连接 Baron-Kenny 和因果。很多后续工作。

[0:20-0:30] 研究动机:标准设置中 Z,M,Y 均为单次测量。许多新应用中至少一个是纵向的。现有纵向工作分两类:稀疏规则时序(VanderWeele & Tchetgen Tchetgen, 2017; Lin et al. 2017)和密集规则时序/功能中介(Lindquist, 2012; Zhao et al. 2018)。但稀疏不规则时序的中介和结局同时存在时不适用。

[0:30-0:42] 激励案例:安博塞利狒狒项目。目标:早期逆境(早产/母亡/干旱等)对成年期健康的影响是否通过社会关系或生理压力中介。数据:社会关系强度和粪糖皮质激素(fGC)浓度均呈稀疏不规则时序。不同个体观测数不同,两种变量网格可能不同。

[0:42-0:52] 主要想法:将观测轨迹视为潜在光滑随机过程的实现。采用功能数据视角(FDA),用功能主成分分析(FPCA)估计整个过程,从而可插补任何时间点的值。然后用插补后的过程代入两 SEM(即 Imai 框架)。适用于两种研究,本报告聚焦于纵向中介和结局的情形。

[0:52-1:00] 符号与模型设定:对每个个体 i,观测时间点 t_ij,观测 M_ijY_ij(为简化假设时间网格相同,实际可不同)。关键:M_ij = M_i(t_ij) + ε_ij, Y_ij = Y_i(t_ij) + ν_ij,其中 M_i(t), Y_i(t) 是连续时间光滑过程。

[1:00-1:08] 潜在结果定义(扩展至过程):用粗体表示过程(如 M^t_i 为截至 t 的过程)。假设 SUTVA。潜在中介过程 M^z_i(t),潜在结局过程 Y^z,m_i(t)(依赖处理 z 和中介过程 m)。跨世界反事实(cross-world)出现,例如 Y_i(1, M^0_i(t))。讨论后指出其争议性但暂时沿用标准框架。

[1:08-1:15] 因果估计量:总效应 τ_TE(t) = E[Y^1 - Y^0]。ACME(间接效应)τ_ACME(z)(t) = E[Y(z, M^1) - Y(z, M^0)]。ANDE(自然直接效应)τ_ANDE(z)(t) = E[Y(1,M^z) - Y(0,M^z)]。总效应 = ACME(z) + ANDE(1-z)。实际上识别两个就够。

[1:15-1:22] 识别假设: - 假设1(可忽略性):给定协变量 X^t,处理与潜在中介/结局过程独立。由于很多早期逆境是自然的(如旱灾),该假设相对合理。 - 假设2(序列可忽略性):在任一足够小的时间间隔,潜在结局增量与观测中介增量独立,给定 Z,X^t,M^t。该假设不控制过去结局,是强度最大的假设,在文献中常见(Bind et al. 2015, VanderWeele & Tchetgen 2017),但实际很难成立。

[1:22-1:30] 识别定理(可省略细节):在假设下,τ_TEτ_ACME 可由观测数据非参数识别,表达式涉及 E(Y|Z,X,M)F(M|Z,X) 的积分。这提示估计需两个模型:中介模型和结局模型,平行于 Baron-Kenny。

[1:30-1:38] 建模策略选择: - 挑战:稀疏不规则轨迹,观测噪声大,需恰当量化轨迹估计的不确定性。 - 方案:FPCA降维+贝叶斯方法量化不确定性。

[1:38-1:48] 中介过程模型化: - 使用 Karhunen-Loève 展开:M_i(t)=μ_M(X^t)+Σ_{r=1}^∞ ζ_{ir} ψ_r(t)。截断到前 R 个主成分(通常R=3或4解释>90%变异)。 - 观测模型:M_ij = X'_ij β_M + Σ_{r=1}^R ζ_{ir} ψ_r(t_ij) + ε_ij。 - 主成分函数用样条基展开,并设定正交约束。 - 主成分得分假设正态分布 ζ_{ir}~N(χ_r^{Z_i}, λ_r^2)。 - 采用贝叶斯先验:Gaussian process prior 在主成分函数上,multiplicative Gamma prior 在得分上(参考 Kowal & Bourgeois 2020)。

[1:48-1:56] 结局过程模型化: - 类似 FPCA:Y_ij = X'_ij β_Y + f(M^{t_ij}_i, γ) + Σ_{s=1}^S η_s(t_ij) θ_{is} + ν_ij。 - 函数 f 的选择重要: - 同时刻模型:f = M_i(t_ij) γ - 滞后模型:f = M_i(t_ij) γ_1 + M_i(t_{i,j-1}) γ_2 - 累积模型:f = ∫_0^{t_ij} γ(s, t_ij) M_i(s) ds。 - 两模型分开拟合(非联合),用插补的 M_i(t) 输入结局模型。

[1:56-2:04] 估计与推断:因果效应可写为模型系数的函数(幻灯片给出公式)。贝叶斯后验通过 Gibbs sampling 轻松得到,将后验样本直接代入公式即可。容易处理 M 和 Y 不同网格的情形。扩展至生存结局(Cox PH)也可行。

[2:04-2:08] 应用实证结果(狒狒数据): - 192只成年雌性,6种早期逆境分别分析。协变量包括繁殖状态、最近30天气温、群体密度、降雨量等。 - 前两个FPC解释>80%变异(中介52.67%+31.46%;结局54.70%+33.77%),前三个>90%。 - 图例展示:三条示例狒狒的观测 vs. 插值过程;主成分得分按逆境数分组。 - 结果:早期逆境(特别是干旱、高群体密度、母亡)显著降低成年社会关系强度,并显著增加fGC(压力)。但间接效应接近零,即社会关系的减弱并非压力增加的主要中介路径。详细结果见 Rosenbaum et al. (2020, PNAS)。

[2:08-2:10] 敏感性分析: - 扩展 Imai et al. (2010) 的敏感性分析至随机过程。假设中介和结局模型中残差反映未测混杂,序列可忽略性要求残差正交,定义敏感性参数 ρ = Corr(u_r, ω_s)。 - 给定一系列 ρ 值重新估计效应,发现结果对 ρ 非常敏感。但 ρ 是 scale-free 且难以解释(如 ρ=0.1 对应多强的偏离?)。

[2:10-2:15] 总结与反思: - 贡献:提出适用于稀疏不规则纵向中介和结局的因果中介分析框架;用 Bayesian FPCA 处理稀疏时序;应用于真实生态数据;设计了敏感性分析。 - 但“end up with more questions than answers”——尤其因果中介分析在实践中的普及度低:尽管 Baron-Kenny 极流行,但 2018 年精神病学文献中成千上万篇提到中介的分析中仅约 10 篇使用了因果中介(据 Nguyen, Schmid, Stuart 2020 调查)。讲者坦言自己不安于在应用中使用“因果”一词,因为假设太强、难以检查,且结果敏感。

[2:15-2:20] 讨论者 Georgia Papadogeorgou 的发言概要与讲者回应: - 讨论者要点: 1. 纵向结局引入复杂性:序列可忽略性条件未对过去结局做调整,但若过去结局影响中介增量,则可能违反。条件化过去结局可能导致 exposure-induced confounding。 2. 不规则时序的“潜在过程”定义潜在结果:若观测值视为过程的随机实现,则潜在结果本身是随机的?建议通过个体平均潜在结果或考虑随机干预(stochastic intervention)来规避问题。 3. 讲者补充:对因果中介在实践中的低普及深有同感,呼吁研究社在理论发展同时关注可落地性。

四、对应论文与开放问题

对应论文(从幻灯片和转录确认): 1. Zeng, S., Rosenbaum, S., Archie, E., Alberts, S., & Li, F. (2021). Causal mediation analysis for sparse and irregular longitudinal data. Annals of Applied Statistics, forthcoming. arXiv:2007.01796. → 本报告的核心论文。 2. Zeng, S., Lange, E., Archie, E., Alberts, S., & Li, F. (2021). Causal mediation analysis with longitudinal mediators and survival outcomes: Evaluating the effects of early adversity on survival in wild baboons. Working paper. → 讨论生存结局的扩展。 3. Rosenbaum, S., Zeng, S., Campos, F.A., Gesquiere, L.R., Altmann, J., Alberts, S.C., Li, F., & Archie, E.A. (2020). Social bonds do not mediate the relationship between early adversity and adult glucocorticoids in wild baboons. Proceedings of the National Academy of Sciences, 33: 20052-20062. → 生物学应用结果。

开放问题(扎根于转录/幻灯片的具体词句): 1. 序列可忽略性未控制过去结局 → 假设过于理想
- 讨论者多次指出:“the assignment of the mediator ... is assumed to be independent of potential outcomes over that small time interval, but that doesn't condition on previously observed outcomes” [1:00?];讲者也承认“it doesn't condition on the previous outcome ... this assumption is likely to be violated” [0:29]. - 问题:能否引入过去结局作为条件变量同时仍保持识别?若导致 exposure-induced confounding,如何解决?

  1. 敏感性分析参数 ρ 含义不清
  2. 讲者:“ρ is scale-free and hard to interpret ... we don't know whether ρ=0.1 is a strong violation” [1:03?]。
  3. 问题:在分层/纵向设置下,如何定义可比且可解读的敏感性参数?能否构造类似 E-value 或基于边界方法的敏感性工具?

  4. 不规则观测时间的选择性(informative observation times)

  5. 问答环节匿名提问:“the pattern of when observations occur over time is informative ... how to accommodate this or do sensitivity analyses?” [0:33 event],讲者表示“that's a very good question ... we haven't addressed in this paper”。
  6. 问题:若观测时点与潜在过程相关(如 EHR 中生病时才就诊),FPCA 的随机缺失假设是否合理?如何调整模型或做敏感性分析?

  7. 因果中介分析在实务中几乎未被采用——如何 bridging the gap?

  8. 讲者最后幻灯片直言:“causal mediation is not more popular ... conceptually and practically hard, even with software; assumptions untestable, likely violated, results sensitive” [1:11-1:14].
  9. 问题:是否存在一条更稳健(或更易被领域专家接受)的路径?能否在温和假设下提供部分识别或 bounds?

  10. “潜在过程”作为潜在结果载体的哲学基础

  11. 讨论者提出疑虑:“what does it mean to define potential outcomes in terms of unobservable processes that could never be observed?” [1:05?]
  12. 问题:能否将效应定义在“个体平均潜在结果”(对测量误差取期望)上,从而避免依赖未观测过程?或者改用随机干预(stochastic intervention)下的直接/间接效应(类似 DIDE)?

Maintained by 陈星宇 · Homepage · Source on GitHub

评论