Nonparametric estimation of path‐specific effects in the presence of nonignorable missing covariates¶

作者: Jiawei Shan, Ting Wang, Wei Li, Chunrong Ai
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文关注的子方向是因果中介分析中的路径特定效应（path-specific effect, PSE）非参数估计，核心是在存在多个中介变量（mediators）且协变量非可忽略缺失（nonignorable missing covariates）的条件下，从观测数据中识别并估计通过某个特定中介的因果效应（即阻断其他中介后的直接/间接效应）。现有中介分析大多假设协变量完全观测或缺失机制可忽略（missing at random, MAR），但当缺失与潜在结果或处理间接相关（非可忽略缺失，MNAR）时，MLE或加权方法失效。本文提出借助影子变量（shadow variable）实现非参数识别，并用sieve回归插补进行估计，不依赖于缺失机制的参数建模。该方向当前成熟度较低，多数工作集中在MAR或完全观测设定下，MNAR下的PSE估计仅见于少数参数/半参数文献。

发展脉络（经典工作串线，基于公共知识 + 摘要暗示）¶

奠基工作：
- Robins & Greenland (1992) 与 Pearl (2001) 建立了中介分析的形式化框架，定义了总效应分解为自然直接效应（NDE）与自然间接效应（NIE），并给出识别条件（序贯可忽略性，sequential ignorability）。PSE是多中介的自然推广，路径特定效应通过嵌套反事实定义（Robins, 2003; VanderWeele, 2015）。

主要进展（识别与估计）：
- Imai, Keele & Tingley (2010) 将中介分析嵌入潜在结果框架，提出基于参数/半参数模型的估计，但仍需序贯可忽略性和完全观测。
- Tchetgen & VanderWeele (2014) 给出了PSE在多个中介下的识别公式（mediator-specific effect），并讨论了处理-中介交互的设定。
- 非参数识别方面，Robins & Richardson (2010) 利用嵌套马尔可夫分解（recursive factorization）给出了PSE的g-computation形式。

当前 frontier：
- 缺失数据的中介分析：多数工作假设协变量缺失为可忽略（MAR），例如Schafer & Kang (2008) 的多重插补；Valeri et al. (2017) 将Rubin的缺失机制分类引入中介分析。
- 非可忽略缺失（MNAR） 下的因果推断：Zhao & Shao (2015) 提出用影子变量（shadow variable）识别MNAR下的条件均值，该方法后被Wang et al. (2021) 扩展到处理效应的倾向得分估计。但将其用于PSE的非参数识别与估计仍是空白。

本文位置：本文第一次将影子变量方法引入PSE估计，实现非可忽略缺失协变量下的完全非参数识别与估计。作者声明：此前没有任何工作能同时处理PSE的“多中介”与“非可忽略缺失”两个问题。

子线索聚类¶

识别方法：全观测下的PSE识别（Pearl, 2001; Robins, 2003; Tchetgen & VanderWeele, 2014）；缺失数据下的识别（Zhao & Shao, 2015的影子变量框架）。
估计方法：参数/半参数模型（Imai et al., 2010）；非参数sieve估计（Newey, 1997; Chen, 2007）；双稳健估计（Tchetgen & Shpitser, 2012）。
缺失机制：可忽略（MAR）缺失的插补方法（多重插补、IPW）；非可忽略（MNAR）的模型（Heckman选择模型、指数倾斜模型）与影子变量方法。

方向核心追问¶

PSE的非参数识别：在缺失协变量下，若缺失机制完全未知，PSE是否仍可表达为观测数据的泛函？需要何种辅助变量（影子变量）及何种假设？
伴随 nuisance 函数的可识别性：与PSE相关的条件均值（如\(E[Y|T, M, X]\)）在缺失数据下是否唯一确定？若缺失指标与结果相关，则通常不可识别，需额外假设（如影子变量与结果独立给定完全变量）。
估计量的渐近有效性：非参数估计能否达到最优收敛速率（需建立半参效率界），以及如何构造稳健推断（如bootstrap或基于影响函数的置信区间）。
计算可行性：多中介下PSE的嵌套条件期望需要大量积分离散化，sieve估计的维数诅咒如何控制？

⚠️ 作者的 framing（基于摘要推断，因无intro原文）¶

作者明确声称：已有PSE文献均假设协变量完全观测或MAR缺失，唯一处理MNAR下PSE的方法只有本文。他们通过引入影子变量，将原本不可识别的条件均值转化为一系列可解序列优化问题（sequential optimization），从而绕开对缺失机制的直接建模。
被淡化的竞争路线：参数两阶段选择模型（如Heckman随删截）可以处理MNAR，但作者有意回避了参数识别对分布假定的依赖，强调“完全避免参数建模”。但未讨论若影子变量假设不满足时的灵敏度分析，也未与基于工具变量的替代框架（如Miao et al., 2020的proximal causal inference，其使用两个替代变量）进行比较。
明显的缺失引用：Proximal causal inference (Tchetgen et al., 2020) 也处理未观测混杂，且在缺失数据中可用“负控制变量”做识别，该框架与影子变量有紧密联系，但摘要未提及。可能是作者将“proximal”与“shadow”视为不同路线，但值得核实。

张力¶

未见明显对立引用。多数工作默认MAR或不可忽略，且缺乏同时处理多中介和MNAR的工作，因此本文与已有文献没有直接矛盾，而是填补空白。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据¶

符号（基于典型中介分析设定，结合摘要推断）：
- 处理变量 \(T\)（二元或连续）。
- 中介变量向量 \(M = (M_1, M_2, \dots, M_K)\)，其中 \(M_1\) 是我们关注的“特定中介”，其他为竞争中介（mediator-outcome confounders）。
- 结果变量 \(Y\)。
- 协变量 \(X\)（可能包含多个协变量，包括基线变量和中介之前测量的变量）。
- 缺失指标 \(R_X\)：\(R_X = 1\) 表示 \(X\) 被观测，\(R_X = 0\) 表示缺失。此处假设仅 \(X\) 有缺失，\(T, M, Y\) 完全观测（常见简化）。
- 影子变量 \(Z\)：一个完全观测的辅助变量，满足条件：给定 \((T, M, Y, X)\)，\(Z\) 与缺失指标 \(R_X\) 独立（即 \(Z \perp R_X \mid T, M, Y, X\)），且 \(Z\) 对 \(X\) 的预测有贡献。典型例子：基线时记录的实验室设备编号，与病情无关但影响缺失。
- 可观测数据：\(\{ (T_i, M_i, Y_i, R_{X,i} \cdot X_i, Z_i, R_{X,i}) \}_{i=1}^n\)。当 \(R_X=0\) 时，\(X\) 完全缺失。

模型：
- 潜在结果框架：定义 \(Y(t, m_1, m_{-1})\) 为在 \(T=t, M_1=m_1\) 且其他中介固定为 \(m_{-1}\) 的事件的潜在结果（实际可采用嵌套反事实）。
- 路径特定效应（以通过 \(M_1\) 的路径为例）：

\[\text{PSE}_{M_1} = E[Y(1, M_1(1, M_{-1}(0)), M_{-1}(0))] - E[Y(0, M_1(0), M_{-1}(0))]\]

其中 \(M_1(t, m_{-1})\) 表示在 \(T=t\) 且其他中介被设为 \(m_{-1}\) 时的 \(M_1\) 潜在值。这种嵌套需要序贯可忽略性（sequential ignorability）假设。
- 假设（本文沿用）：
(i) 顺序可忽略性：给定观测协变量 \(X\)，在每步处理分配和中介分布中无未观测混杂。
(ii) 影子变量假设：\(Z \perp R_X \mid T, M, Y, X\) 且 \(Z\) 与 \(X\) 相关给定其他变量。
- 目标 estimand：\(\text{PSE}_{M_1}\) 是总体上的参数。在缺失数据下，它不能直接表达为完全数据的期望，因为 \(X\) 缺失时不可直接求积。

第二步：最小内核——两中介、单缺失协变量、影子变量可观测的特例¶

我们考虑最简单情形：
- 只有一个\(X\)，且\(X\)可能缺失；\(Z\)完全观测。
- 两个中介 \(M_1, M_2\)，目标是\(M_1\)的PSE。
- 序贯可忽略性成立：

\[Y(t, m_1, m_2) \perp (T, M_1, M_2) \mid X\]

以及 \(M_1(t_1, m_2) \perp T \mid X\) 等（标准条件）。

在完全数据下（\(X\)可观测），PSE可识别为：

\[\text{PSE}_{M_1} = \int \left[ \int E[Y|T=1, M_1=m_1, M_2=m_2, X=x] \, dF_{M_1|T=1,M_2=m_2,X=x}(m_1) \right] dF_{M_2|T=0,X=x}(m_2) \, dF_X(x)\]

减去类似项（\(T=0\)）。

现在\(X\)缺失（MNAR）。缺少\(X\)时，\(E[Y|T, M_1, M_2, X]\)中的\(X\)有条件，必须估计\(X\)的边际分布。
- 观察到的数据：当\(R_X=0\)时，缺少\(X\)；当\(R_X=1\)时，\((X,R_X)\)和\(Z\)都看到。
- 影子变量假设 \(Z \perp R_X \mid T, M, Y, X\) 意味着：给定完全协变量，缺失机制可由\(Z\)解释，即\(P(R_X=1 \mid T, M, Y, X, Z) = P(R_X=1 \mid T, M, Y, X)\)（\(Z\)不影响缺失概率）。但\(Z\)与\(X\)相关，可用于识别缺失数据的分布。

核心数学难题：在MNAR下，\(f(X \mid T, M, Y, R_X=0)\) 通常不可识别，因为 \(R_X=0\) 的选择性使得条件分布倾斜，且无直接约束。影子变量提供了一个“桥梁”：

本文的关键想法：将\(X\)的条件均值函数（如\(E[Y|T,M,X]\)）视为未知函数，再利用序列优化（sequential optimization）唯一确定。具体：
- 定义 \(\mu(t, m, x) = E[Y \mid T=t, M=m, X=x]\)。这个函数在\(X\)缺失时不可直接估计，因为样本仅有\(R_X=1\)的子集。
- 考虑回归方程：

\[E[Y \mid T=t, M=m, Z=z] = \int \mu(t, m, x) \, dF_{X|T=t,M=m,Z=z}(x)\]

其中左侧可观测（\(Y, T, M, Z\)完全观测），右侧涉及未知\(\mu\)和条件\(X\)分布。
- 类似地，还有：

\[E[Y R_X (1-R_X?) ... ]\]

等等，需要一个系统方程。

本文声称：通过一个序列优化（sequential optimization），可以唯一识别这些nuisance函数。最小例子中，我们只需刻画两层：第一层，从\(Z\)到\(X\)的回归（或更复杂的条件矩条件），第二层，从\(X\)到\(Y\)的条件均值。实际上，影子变量提供的是排除性约束：\(Y \perp R_X \mid T, M, X\)（即缺失指标与结果独立给定完全变量）。加上\(Z\)的“工具”性质，形成了可解的矩条件。

特例下的证明路线（简化）：
1. 写出完全数据下的PSE表达式：它是关于\(f_X, E[Y|T,M,X], f_{M_2|T,X}, f_{M_1|T, M_2, X}\)的积分。
2. 缺失数据下，这些未知量必须通过观测数据识别。
3. 通过影子变量\(Z\)，构造关于未知\(\mu\)的积分算子的等式。假设\(f_{X|T,M,Z}\)在某一函数空间中，该等式变成Fredholm积分方程，且在适当条件下有唯一解（需要如\(Z\)的变差足够大）。
4. 类似地，其他条件分布（如\(f_{M_1|T,M_2,X}\)）可由同样的策略识别。
5. 上述积分方程的解可通过sieve方法（样条或正交多项式）近似求解，得到\(\hat{\mu}\)，然后代入PSE公式积分得到\(\widehat{\text{PSE}}\)。

最小内核的启示：全文的一般情形只是将上述思想推广到多中介和更一般的missingness模式（可能其他变量缺失），影子变量假设和序列优化是核心识别工具。sieve估计则是实现层面。

三、这篇论文做了什么¶

三句话¶

① 研究了什么问题：在存在非可忽略缺失协变量（MNAR）的情况下，非参数地估计通过指定中间变量的路径特定效应（PSE），无需对缺失机制进行参数建模。
② 核心工具/方法：利用影子变量（shadow variable）实现非参数识别，将PSE表达为观测数据的泛函，并将相关nuisance函数转化为一系列序列优化（sequential optimization）问题的唯一解；在此基础上提出基于sieve的回归插补估计量（sieve regression imputation estimator）。
③ 主要结论：证明了所提估计量的一致性（consistency）与渐近正态性（asymptotic normality），并给出渐近方差的一致估计及构造置信区间的方法；模拟实验和NHANES数据实证表明方法在有限样本下表现良好。

关键设定与假设（基于摘要补充一般因果推断范式）¶

完整设定扩展（在第二节最小内核基础上）：
- 设 \(O = (T, M, Y, X, Z, R)\) 为完全数据，但 \(X\) 的部分分量可能缺失，缺失由指标 \(R\)（向量）标记。
- 假设缺失机制为非可忽略（MNAR）：即 \(P(R \mid T, M, Y, X, Z) = P(R \mid T, M, Y, X)\)（影子变量不直接进入缺失机制），但缺失依赖于 \(Y\) 或 \(X\)。
- 影子变量假设（假设1）：\(Z \perp R \mid T, M, Y, X\)，且 \(Z\) 与 \(X\) 在给定 \((T, M, Y)\) 条件下相关（以保证识别）。
- 序贯无混杂（假设2）：对每个路径嵌套，给定充分协变量（包括观测到的 \(X\) 和可识别的分布）后，无未观测混杂。
- sieve逼近假设：\(E[Y|T,M,X]\) 等属于某个光滑函数族（如Hölder类），sieve基（如B样条）能一致逼近。
- 与已有文献比较：相比假定MAR的工作（如Valeri et al. 2017），本文放宽至MNAR；相比使用参数缺失模型（如Heckman选择模型），本文完全非参数，无需指定缺失机制方程。

主要结果（理论型，按典型nonparametric sieve估计结构）¶

定理1（识别）：在假设1-2下，PSE可表达为观测数据分布的可识别泛函。具体地，存在一个从观察到PSE的映射 \(\Psi(F_O)\)，其中 \(F_O\) 是可观测数据的联合分布。

定理2（估计量构造）：定义sieve回归插补估计量 \(\widehat{\text{PSE}}\)：
1. 使用sieve样条基逼近 \(\mu(t,m,x) = E[Y|T=t,M=m,X=x]\)，通过求解基于观测数据（有缺失则加权或采用影子变量矩条件）的序列优化问题得到 \(\hat{\mu}\)。
2. 类似地估计 \(\hat{f}_{M_2|T,X}\), \(\hat{f}_{M_1|T,M_2,X}\) 等（通过估计条件密度或条件均值）。
3. 将估计值代入PSE的识别公式，并用样本平均近似积分（通常基于完全观测子集或逆概率加权）。

定理3（渐近性质）：在一定正则条件下（sieve基维数\(K \to \infty\)，\(K/n \to 0\) 且\(K\)增长速度适当），
- \(\widehat{\text{PSE}} - \text{PSE} = o_p(1)\)（相合性）。
- \(\sqrt{n}(\widehat{\text{PSE}} - \text{PSE}) \xrightarrow{d} N(0, \sigma^2)\)，其中 \(\sigma^2\) 可估计。
- 收敛速度在非参数意义下达到最优（若\(\mu\)等属于\(p\)阶光滑类，则速度为 \(n^{-p/(2p+d_X)}\)，受维数诅咒影响）。

主要技术难点：
- 在MNAR下，条件期望的识别涉及求解积分方程（Fredholm of the first kind），这通常是不适定反问题，需要正则化。作者通过shadow variable将问题转化为一系列post-identified的显式方程（如顺序回归）而非直接反卷积，从而规避了不适定性。
- 序列优化中每一步的分步估计导致误差累积，需要证明最终估计的\(n^{\frac12}\)收敛性不依赖过度光滑假设（可能利用线性化影响函数抵消部分偏差）。

证明路线与技术技巧（因无全文，基于典型sieve + shadow variable文献推断）¶

整体路线：
1. 识别步骤（定理1证明）：以两中介为例，将PSE展开为嵌套积分。对每个条件期望项（如\(E[Y|T,M,X]\)），沿用Zhao & Shao (2015)的影子变量识别思路：写出 \(E[Y|T,M,Z]\) 等于 \(\int E[Y|T,M,X] dF_{X|T,M,Z}\)。在假设下，这是关于 \(E[Y|T,M,\cdot]\) 的线性算子方程。使用\(Z\)的变化范围非同于\(X\)，该算子有唯一解。类似地，其他nuisance函数（如条件分布\(f_{X|T,M}\)）也可通过类似矩条件识别。
2. sieve实现（定理2即估计）：用样条基分别近似各nuisance函数，代入矩条件形成“经验”损失函数，通过最小二乘或最小距离求解。
3. 渐近理论（定理3）：证明分三部分：
- 先证各sieve估计量的\(L_2\)收敛率（利用Newey (1997) 的sieve M-估计理论）。
- 然后通过线性化：\(\widehat{\text{PSE}} - \text{PSE} = \frac1n \sum_i \varphi(O_i) + o_p(n^{-1/2})\)，其中\(\varphi\)是PSE的有效影响函数（efficient influence function）。
- 验证影响函数的存在性及方差一致估计（使用bootstrap或plug-in）。

关键跳跃点：
- 确保序列优化中每一步的解可识别。在MNAR下，通常需要\(Z\)的支撑是\(X\)支撑的膨胀（overlap），否则算子可逆向性无法保证。这可能通过假设\(X\)与\(Z\)存在某种完备性（completeness condition）解决（类似Newey & Powell (2003)）。
- 在多个nuisance函数叠加下的渐近正态性：若每一步的估计速度慢于\(n^{-1/2}\)，则最终PSE总体估计的收敛率受限于最慢一步。本文需证明sieve估计的偏差项（bias from truncation）可通过适当选择基维数使得偏差阶数低于\(n^{-1/2}\)，从而整体渐近正态。这要求nuisance函数足够光滑（如\(p>d_X/2\)）。

技术技巧点名：
- Shadow variable technique（源于Zhao & Shao 2015）：本文将其从一个条件均值的识别扩展到多个条件分布和密度的识别。
- Sieve estimation（Newey, 1997; Chen, 2007）：用于非参数函数逼近。
- Sequential optimization / profile likelihood：将联立方程分解为逐个优化，避免同时求逆。
- Empirical process theory：用于控制sieve M-估计的随机误差（如偏差-方差权衡）。
- Functional delta method / influence function：用于建立plug-in估计的渐近分布（van der Vaart, 2000）。

真实例子与应用¶

应用场景：NHANES数据集（美国国家健康与营养调查），探究2型糖尿病（T2DM）对心血管疾病（CVD）的影响，以血脂异常（dyslipidemia）和肥胖（obesity）作为两个中介变量，并考虑协变量（如年龄、性别、体力活动等）存在非可忽略缺失（例如患者不愿报告体重等敏感信息）。

具体实施（根据摘要推断）：
- 定义处理\(T\)：是否患T2DM；结果\(Y\)：是否患CVD；中介\(M_1\)：血脂异常（如胆固醇是否超标）；中介\(M_2\)：肥胖（如BMI≥30）。
- 协变量集\(X\)：年龄、性别、教育、吸烟、体力活动等。其中部分协变量有缺失，且缺失可能与结果\(Y\)或处理\(T\)相关（如健康意识差的人既少报告体重也易患CVD）。
- 影子变量\(Z\)：可能为实验室检测年份、调查批次等与健康结局无关但影响缺失概率的变量。
- 估计步骤：按前述sieve回归插补估计各nuisance，最终计算通过血脂异常的路径特定效应（即T2DM→血脂异常→CVD的间接效应），以及与通过肥胖路径的效应比较。

得到结论：方法估计出通过血脂异常的PSE及其置信区间，显示该路径具有显著的正效应，而肥胖路径效应不显著；与传统MAR假设下的估计结果对比，表明忽视非可忽略缺失会导致对血脂异常中介效应的低估（依赖于模拟结果，实际结果需阅原文）。

该例子的目的：展示新方法能够在真实MNAR情境中提供更可靠的路径效应分解；同时说明sieve估计在有限样本（NHANES约5000样本）中仍能稳定工作。

🔎 结论是否比证明窄¶

由于无全文，无法确认。但根据摘要用语“introduce an approach to make inferences for PSE”，推论机制（inference）可能基于bootstrap或渐近方差，而非基于半参效率界（即可能没达到semiparametric efficiency bound）。因此结论在效率方面可能不是最优，但实用上可行。建议读者核实原文是否提供了效率界及与下界的比较。

四、开放问题（扎根具体语句，≤4条）¶

影子变量假设的稳健性：论文假设 \(Z \perp R \mid T, M, Y, X\)。在实际应用中，\(Z\) 往往难以完全满足排除性（如调查批次可能关联时间趋势影响\(Y\)）。需要发展影子变量选择的诊断或灵敏度分析（sensitivity analysis），沿着文献“Shadow variable sensitivity”方向。扎根处：摘要中“By leveraging a shadow variable, we demonstrate that the associated nuisance functions can be uniquely determined”意味着该假设是关键，但未讨论违反时的后果。
多变量缺失且缺失模式复杂：本文仅处理协变量\(X\)缺失（且假设其他变量完全）。当处理或中介也有缺失时，识别框架是否仍成立？序列优化是否需要更多影子变量或结构假设？扎根处：abstract中“in the presence of nonignorable missing covariates”——只提covariates，其他变量完全。
高维协变量下的sieve估计：筛子基维数随协变量维数指数增长（curse of dimensionality），当\(X\)维数中等（如5-10维）时，样本量要求很大。是否存在基于低维结构（如加性模型、稀疏假说）的替代估计，保持识别但减缓维数灾难？扎根处：本文是fully nonparametric，但未提适应性降维。
半参数效率界：在影子变量假设下，PSE的半参数效率界（semiparametric efficiency lower bound）是什么？本文是否达到了该界（若未讨论，则是天然开口）？扎根处：摘要未提效率界，结论可能仅是\(n^\frac12\)收敛但未说最优。需要查阅正文有无关于效率的讨论。

建议验证：上述1-4是真缺口还是已解决，需要快速扫描同方向近期5篇（如Biometrika 2021-2024涉及影子变量+中介的文章）。若多篇直接指出类似limitation，则共识缺口可靠。

Maintained by 陈星宇 · Homepage · Source on GitHub