Mediation analysis in longitudinal intervention studies with an ordinal treatment-dependent confounder¶

作者: Mikko Valtanen, Tommi Härkänen, Matti Uusitupa, Jaakko Tuomilehto, Jaana Lindström et al.
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：因果中介分析旨在将处理对结局的总效应拆解为直接效应与间接效应（通过中介变量传导）。当存在处理依赖混杂——即一个既受处理影响、又混淆中介与结局关系的变量时，经典的自然直接/间接效应（Natural Direct/Indirect Effects, NDE/NIE）在非参数结构方程模型（NPSEM）下将失去点识别。本子方向的核心统计问题在于：在处理依赖混杂存在时，如何通过引入额外的因果假设（如单调性、无交互）或改变目标 estimand（如干预性效应），恢复中介效应的识别或给出其偏识别界，并将其推广到纵向中介与生存结局的复杂动态设定。

发展脉络： - 奠基工作：Pearl (2001) 在 NPSEM 下定义了自然直接与间接效应，给出了无处理依赖混杂时的非参数识别公式，但留下了一个巨大的口子：一旦中介与结局间存在受处理影响的混杂 \(L\)，识别所需的 cross-world 独立性假设（即 \(Y_{a,m} \perp M_{a^*} | C\)）将与 \(L\) 受 \(A\) 影响这一事实产生逻辑冲突，导致非参数识别失效。 - 主要进展（处理依赖混杂下的识别突围）： - 路线 1：引入额外假设恢复点识别。Tchetgen Tchetgen & VanderWeele (2014) 证明，若 \(L\) 为二值且处理对 \(L\) 的效应满足单调性（即 \(A\) 只在一个方向上影响 \(L\)），或 \(M\) 与 \(L\) 无加性交互，则 NDE/NIE 可点识别。VanderWeele (2014) 进一步将其统一为四路分解。 - 路线 2：改变 estimand 绕过 cross-world 假设。VanderWeele, Vansteelandt & Robins (2014) 提出干预性直接/间接效应，该效应基于随机干预分布定义，无需 cross-world 独立性，在处理依赖混杂下可点识别，但 Miles (2022) 指出其不满足 sharp null criterion，即当个体层面无间接效应时，该 estimand 在总体上可能不为零，丧失了纯粹的“中介传导”解释。 - 路线 3：偏识别。Miles et al. (2017) 放弃点识别，在无单调性或无 cross-world 假设下，通过优化反事实联合概率矩阵给出了 NIE 的偏识别界。 - 纵向与生存设定的推广：VanderWeele & Tchetgen Tchetgen (2016) 与 Lin et al. (2017) 将干预性效应推广至时变处理与中介，提出了 mediational g-formula；Zheng & van der Laan (2017) 基于随机干预定义了生存结局下的自然效应分解并推导了高效影响函数；Zheng & Liu (2021) 利用联合模型处理纵向中介与生存结局，放宽了 sequential ignorability。 - 本文的位置：本文回到了路线 1（单调性假设恢复点识别），但将其从二值 \(L\) 推广至有序 \(L\)，并整合了纵向中介（函数实体）与生存结局（受限无病时间），给出了分层特异性敏感性参数下的非参数经验表达式。

子线索聚类： 1. 处理依赖混杂下的识别理论：聚焦于 \(L\) 存在时 NDE/NIE 的识别困境与突围。核心文献为 Tchetgen & VanderWeele (2014) 的单调性/无交互识别、VanderWeele (2014) 的干预性效应、Miles et al. (2017) 的偏识别界。 2. 纵向中介与生存结局的因果框架：聚焦于如何将中介从静态变量推广为时变轨迹，并将结局从连续/二值推广为事件时间。核心文献为 VanderWeele (2016)、Lin (2017)、Zheng (2017)、Zheng & Liu (2021) 的 mediational g-formula 与联合模型。 3. 中介效应的分解与解释性：聚焦于总效应如何拆解及各成分的因果解释。核心文献为 Pearl (2001) 的自然效应、VanderWeele (2013, 2014) 的三路/四路分解、Miles (2022) 对干预性间接效应解释性的质疑。

这个方向在追问的核心问题： 1. 在处理依赖混杂存在时，何种额外假设（单调性、无交互、独立反事实）能恢复自然效应的点识别，这些假设的实证可检验性如何？ 2. 干预性中介效应虽然可点识别，但其因果解释性（是否真正捕捉了“传导机制”）是否存在根本缺陷？ 3. 当中介为纵向轨迹、结局为生存时间时，如何避免对处理依赖混杂的条件化偏误，并给出非参数或半参数的识别与估计框架？

⚠️ 作者的 framing： - 作者将缺口 frame 为：现有单调性识别（Tchetgen & VanderWeele 2014）仅限于二值 \(L\)，而实际应用中 \(L\) 常为有序变量（如健康状态等级）；同时，纵向中介与生存结局的现有框架（干预性效应路线）牺牲了自然效应的因果解释性。因此，将单调性推广至有序 \(L\) 并结合纵向/生存设定，是“显然的下一步”。 - 淡化的竞争路线：作者在 intro 中提及了干预性效应路线，但仅引用 VanderWeele (2014b) 与 Miles (2022) 一笔带过其“解释性不同”，未深入讨论为何坚持自然效应路线而非采用干预性路线——这是作者的选择，但研究者需自行判断在有序 \(L\) 下，干预性效应是否更稳妥。 - 缺失的引用：Intro 中未引用 Didelez et al. 或 Robins & Richardson 对 cross-world 假设的本体论批评，也未引用半参数效率理论（如 Zheng & van der Laan 2017 的 TMLE）在类似设定下的最新进展。研究者可去核查：在有序 \(L\) 的单调性设定下，是否已有半参数有效估计的文献被遗漏。

张力：未见明显对立引用。Tchetgen & VanderWeele (2014) 的单调性识别与 Miles et al. (2017) 的偏识别界是互补而非矛盾——前者在单调性下给点识别，后者在无单调性下给界。Miles (2022) 对干预性效应解释性的质疑与 VanderWeele (2014) 对其的推崇存在张力，但本文选择了自然效应路线，回避了此张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：处理变量（二值，\(a \in \{0, 1\}\)，如生活方式干预 vs 对照）。
\(C\)：基线混杂变量（可观测，不受 \(A\) 影响）。
\(L\)：处理依赖混杂变量（有序变量，取值 \(l \in \{1, 2, \dots, K\}\)，如健康状态等级；受 \(A\) 影响，且混淆 \(M\) 与 \(Y\) 的关系）。
\(M\)：中介变量（纵向轨迹，如体重随时间的变化曲线；受 \(A\) 与 \(L\) 影响，影响 \(Y\)）。
\(Y\)：结局变量（受限无病时间 / Restricted disease-free time，如未患 2 型糖尿病的生存时间；受 \(A, L, M\) 影响）。
\(R\)：删失指示变量（\(R=1\) 表示未删失，可观测 \(Y\)；\(R=0\) 表示删失，仅观测删失时间）。
反事实量：
\(L_a\)：若 \(A\) 设为 \(a\) 时 \(L\) 的取值。
\(M_a\)：若 \(A\) 设为 \(a\) 时 \(M\) 的轨迹。
\(Y_{a, m}\)：若 \(A\) 设为 \(a\) 且 \(M\) 设为 \(m\) 时 \(Y\) 的取值。
\(Y_{a, M_{a^*}}\)：若 \(A\) 设为 \(a\)，但 \(M\) 保持其在 \(A=a^*\) 时的自然值时 \(Y\) 的取值（cross-world 反事实，NDE/NIE 的核心）。
可观测数据：对每个个体，可观测 \((C, A, L, M \text{ 的多次测量}, R, Y \text{ 或删失时间})\)。不可观测的是 cross-world 反事实的联合分布，如 \((L_1, L_0)\) 或 \((M_1, M_0)\)，只能靠假设去识别。

模型：NPSEM（非参数结构方程模型），即 \(C = f_C(U_C)\), \(A = f_A(U_A)\)（通常为随机分配），\(L = f_L(A, C, U_L)\), \(M = f_M(A, L, C, U_M)\), \(Y = f_Y(A, L, M, C, U_Y)\), \(R = f_R(C, A, L, M, U_R)\)，其中 \(U\) 为相互独立的潜变量（蕴含了 Pearl 的因果图与部分独立性假设，但不蕴含 cross-world 独立性）。

第二步：最小内核——有序 \(L\) 下的单调性识别

剥掉纵向中介与生存结局的复杂性，考虑最简特例：\(M\) 为静态变量，\(Y\) 为连续结局，\(L\) 为有序变量（\(K=3\)），\(A\) 为二值。

核心数学困难：NDE 的识别需要计算 \(E[Y_{1, M_0}]\)，其展开涉及 \(E[Y_{1, m} | M_0 = m, C]\)。由于 \(L\) 受 \(A\) 影响，\(M_0 = m\) 对应的 \(L\) 分布为 \(P(L_0 | M_0=m, C)\)，而 \(Y_{1, m}\) 对应的 \(L\) 分布为 \(P(L_1 | M_1=m, C)\)。两者不同，无法直接用观测数据替换，导致识别断裂。

单调性假设如何破：假设 \(A\) 对 \(L\) 的效应满足单调性，即 \(L_1 \geq L_0\) 几乎必然成立（如干预只会改善或维持健康状态，不会恶化）。在此假设下，反事实联合分布 \((L_1, L_0)\) 被约束：\(P(L_1 < L_0) = 0\)。对于有序 \(L\)，这蕴含了 \(P(L_1 = k, L_0 = j) = 0\) 对所有 \(k < j\)。此时，\(E[Y_{1, M_0}]\) 的识别公式中，不可观测的 \(P(L_0 | M_0=m, C)\) 与 \(P(L_1 | M_1=m, C)\) 的差异，可通过单调性约束下的分层特异性敏感性参数（stratum-specific sensitivity parameters）来桥接。具体地，定义 \(\delta_k = P(L_1 = k | L_0 = k, C)\)（在 \(L_0=k\) 时 \(L_1\) 仍为 \(k\) 的概率），这些参数在单调性下满足 \(\sum_{j \leq k} P(L_1 = j | L_0 = k, C) = 1\) 且 \(P(L_1 = j | L_0 = k, C) = 0\) 对 \(j < k\)。作者证明，将 \(\delta_k\) 视为自由敏感性参数（而非必须假设为 1），NDE/NIE 可识别为 \(\delta_k\) 的函数，且给出了非参数经验表达式——即仅依赖观测分布 \(P(Y, M, L, A, C)\) 与 \(\delta_k\) 的公式。当 \(\delta_k = 1\)（即 \(L_1 = L_0\)，处理对 \(L\) 无效应），公式退化为经典无处理依赖混杂的识别公式。

为什么成立：单调性将 \((L_1, L_0)\) 的联合分布从 \(K^2\) 个自由度压缩至 \(K(K+1)/2\) 个自由度（排除了 \(k < j\) 的格子），使得不可观测的 cross-world 条件分布可被观测边际分布与剩余的 \(\delta_k\) 参数唯一表达。这是二值 \(L\) 单调性识别（Tchetgen & VanderWeele 2014）在有序 \(L\) 上的直接推广，但自由度压缩的代数结构更复杂，敏感性参数从 1 个变为 \(K-1\) 个。

三、这篇论文做了什么¶

三句话：①研究了纵向干预研究中存在有序处理依赖混杂时，自然直接/间接效应的识别问题；②核心工具是单调性假设（\(L_1 \geq L_0\)）与分层特异性敏感性参数 \(\delta_k\)；③主要结论是中介效应可识别至 \(\delta_k\) 的非参数经验表达式，且单调性假设的可行性可通过观测边际分布的约束进行实证检验。

关键设定与假设： - NPSEM：如第二节所述，潜变量 \(U\) 相互独立，蕴含了因果图与部分独立性，但不蕴含 cross-world 独立性。 - 单调性假设：\(L_1 \geq L_0\) 几乎必然。统计含义：处理 \(A=1\) 对有序混杂 \(L\) 的效应是非递减的（如干预只会提升健康等级）。相比 Tchetgen & VanderWeele (2014) 的二值单调性（\(L_1 \geq L_0\) 意味着 \(L_1=1 \Rightarrow L_0=1\)），本文推广至有序 \(L\)，单调性蕴含了更复杂的联合分布约束。 - 无删失或可忽略删失：\(R \perp Y | (A, L, M, C)\)（或更弱的条件），保证生存结局的可识别性。 - 纵向中介为函数实体：\(M\) 被视为平滑轨迹 \(m(t)\)，观测值为 \(m(t) + \epsilon(t)\)。这避免了将纵向中介离散化为多个时间点变量时产生的处理依赖混杂条件化偏误。 - 结局为受限无病时间：\(Y\) 定义为 \(\min(T, \tau)\)，其中 \(T\) 为事件时间，\(\tau\) 为限制时间点。这避免了比例风险假设的依赖，相比 Zheng & Liu (2021) 的联合模型路线更稳健。

主要结果： 1. 识别定理（Theorem 1，核心）：在单调性假设下，NDE 与 NIE 可识别为分层敏感性参数 \(\delta_k(c) = P(L_1 = k | L_0 = k, c)\) 的函数，且给出了非参数经验表达式。直觉：单调性将 cross-world 反事实分布 \((L_1, L_0)\) 约束至可由观测分布与 \(\delta_k\) 表达的结构，桥接了识别断裂。必要条件：单调性假设与 NPSEM 的独立性。解决的技术难点：有序 \(L\) 下 \((L_1, L_0)\) 联合分布的自由度压缩与 cross-world 条件分布的代数表达。 2. 单调性假设的实证可检验性（Proposition 1）：单调性假设对观测边际分布 \(P(L | A=1, C)\) 与 \(P(L | A=0, C)\) 施加了约束（如 \(P(L \leq k | A=1, C) \leq P(L \leq k | A=0, C)\) 对所有 \(k\)）。若数据违反此约束，单调性假设不成立。这给出了一个可实证检验的必要条件，增强了假设的可信度。 3. 敏感性分析框架：将 \(\delta_k\) 视为自由参数（在 \([0, 1]\) 内变动），NDE/NIE 的识别值随 \(\delta_k\) 变动形成区间，实现了对单调性假设违反的敏感性分析。相比 Miles et al. (2017) 的偏识别界（优化联合概率矩阵），本文的敏感性参数更具分层特异性解释（\(L_0=k\) 时 \(L_1\) 不变的比例）。

证明路线与技术技巧： - 整体路线： 1. 在 NPSEM 下展开 NDE/NIE 的反事实表达式，暴露出不可观测的 cross-world 条件分布 \(P(L_0 | M_0=m, C)\) 与 \(P(L_1 | M_1=m, C)\) 的差异。 2. 利用单调性假设（\(L_1 \geq L_0\)），将 \((L_1, L_0)\) 的联合分布参数化为 \(\delta_k\) 与观测边际分布的函数。 3. 将 cross-world 条件分布表达为 \(\delta_k\) 与观测条件分布 \(P(L | A, M, C)\) 的代数组合。 4. 代入 NDE/NIE 的展开式，消去不可观测量，得到仅依赖观测分布与 \(\delta_k\) 的非参数经验表达式。 5. 推导单调性对观测边际分布的约束，给出实证可检验条件。 - 关键跳跃点：从单调性约束到 cross-world 条件分布的代数表达。难点在于有序 \(L\) 下，\((L_1, L_0)\) 的联合分布需满足 \(P(L_1 < L_0) = 0\) 且边际分布与观测分布一致，如何将此约束转化为 \(P(L_0 | M_0=m, C)\) 与 \(P(L_1 | M_1=m, C)\) 的关系。作者通过定义 \(\delta_k\) 并利用有序变量的累积概率性质，构造了从 \(L_0\) 到 \(L_1\) 的“转移矩阵”，在单调性下该矩阵为上三角，从而将 cross-world 条件分布唯一表达。 - 技术技巧点名： - 反事实代数与联合分布参数化：用于将单调性约束转化为 \((L_1, L_0)\) 联合分布的参数化表达，是识别证明的核心工具。 - 纵向中介的函数实体表示：将 \(M\) 视为随机函数 \(m(t)\)，避免离散化带来的条件化偏误，借鉴了 Lindquist (2012) 的函数中介分析思路。 - 受限无病时间：将生存结局定义为 \(\min(T, \tau)\)，避免比例风险假设，借鉴了 Royston & Parmar (2013)。 - 联合模型与共享随机效应：在参数估计阶段，使用联合模型（纵向中介轨迹 + 生存结局）与共享随机效应（随机截距）来捕捉 \(M\) 与 \(Y\) 的关联，借鉴了 Papageorgiou et al. (2019) 与 Zheng & Liu (2021)。

真实例子与应用： - 数据 / 场景：芬兰糖尿病预防研究（Finnish Diabetes Prevention Study, DPS），5 年随访的高风险人群，评估生活方式干预（\(A\)）对避免 2 型糖尿病（\(Y\)，受限无病时间）的效应中，体重减少（\(M\)，纵向轨迹）的中介作用，同时将其他健康相关变化（如饮食、运动）视为有序处理依赖混杂（\(L\)，3 级健康状态）。 - 怎么用上去： 1. 检验单调性：比较 \(P(L \leq k | A=1)\) 与 \(P(L \leq k | A=0)\)，发现干预组的健康状态分布向更高等级偏移，满足单调性的必要条件。 2. 估计中介效应：在 \(\delta_k\) 的默认值（如 \(\delta_k=1\)，即假设 \(L_1=L_0\)）下，计算 NDE 与 NIE 的非参数经验表达式值；然后变动 \(\delta_k\) 进行敏感性分析，观察 NIE 的区间。 3. 参数模型实现：使用联合模型（纵向 BMI 轨迹的线性混合模型 + 生存结局的 Cox 模型，共享随机截距）拟合观测数据，代入识别公式的参数版本。 - 得到什么结果：在 \(\delta_k=1\) 下，NIE 显著（体重减少中介了约 60% 的总效应）；敏感性分析显示，即使 \(\delta_k\) 降至 0.5（即半数人的健康状态未因干预改善），NIE 仍为正且显著。说明体重减少的中介作用对单调性假设的违反具有一定鲁棒性。 - 想说明什么：展示方法在真实纵向干预数据中的可行性，验证单调性假设的实证可检验性，并展示敏感性分析如何量化对假设违反的鲁棒性。

🔎 结论是否比证明窄： - 作者在 Theorem 1 中严格证明了在单调性假设与 NPSEM 下，NDE/NIE 可识别至 \(\delta_k\) 的非参数经验表达式。但在实证分析中，作者使用了参数联合模型来代入识别公式，这引入了参数模型正确性的额外假设（如线性混合模型、Cox 模型、共享随机效应的结构），而定理本身是非参数的。作者在文中明确提及了这一点，但未给出半参数或非参数估计方法（如 IPW 或 TMLE）的实现。这是一个从非参数识别到参数估计的“窄化”，研究者需注意。

四、开放问题（点到为止，扎根具体语句）¶

半参数有效估计：本文给出了非参数识别公式，但实证估计依赖参数联合模型。识别公式对应的半参数效率界与高效影响函数是什么？能否构造多重稳健的半参数估计器（如 TMLE 或一步估计）？扎根于文中“Fully parametric expressions can then be obtained by plugging in the assumed joint distribution...”一句——这里留了从参数到半参数的口子。
单调性假设的渐近检验：Proposition 1 给出了单调性的必要条件（观测边际分布的约束），但仅是非正式检验。能否构造一个渐近正式检验（如基于累积概率差的假设检验），并控制其势与第一类错误？扎根于文中“The feasibility of the monotonicity assumption can be assessed using empirical data, based on restrictions on the marginal distributions”一句——这里留了从“评估”到“正式检验”的口子。
干预性效应在有序 \(L\) 下的估计：本文坚持自然效应路线，淡化了干预性效应路线。在有序 \(L\) 与纵向中介设定下，干预性间接效应的半参数估计（如 mediational g-formula 的 TMLE）是否更易实现且更稳健？扎根于 intro 中对 VanderWeele (2014b) 与 Miles (2022) 的简短提及——研究者可去核查同子领域近期文献，看干预性路线在有序 \(L\) 下是否有新进展。
偏识别界的收紧：当单调性假设不成立时，本文建议参考 Miles et al. (2017) 的偏识别界。但在有序 \(L\) 与纵向中介设定下，偏识别界的计算与收紧（如利用纵向轨迹的平滑性约束）是否可行？扎根于文中“For sensitivity analyses, we used the approach of Miles et al. 17 to find lower and upper bounds...optimising the expressions with respect to a joint probability matrix without the constraints implied by the monotonicity”一句——这里留了从二值 \(L\) 的偏识别到有序 \(L\) 的偏识别的口子。

Maintained by 陈星宇 · Homepage · Source on GitHub

Mediation analysis in longitudinal intervention studies with an ordinal treatment-dependent confounder¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论