Mediation analysis with unmeasured confounding between parallel mediators and outcome¶

作者: Kang Shuai, Lan Liu, Yangbo He, Wei Li
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

中介分析（mediation analysis）旨在分解总效应为直接效应和间接效应（通过中介变量传递），是因果推断的核心工具之一。从Baron & Kenny（1986）的逐步法到Imai et al.（2010）的因果中介框架，再到VanderWeele（2015）的多中介与非线性扩展，主流方法大多依赖无未测量混杂的强假设——特别是中介-结局之间无未测量混杂（mediator-outcome confounding）。然而在观测研究中，中介变量与结局往往受共同未观测因子影响（如遗传倾向、社会经济地位），要求无偏识别需找到并测量所有混杂，这在实践上几乎不可能。本子方向聚焦于在有未测量mediator-outcome confounding时如何识别和估计直接/间接效应，是混淆下的中介分析的子问题。其成熟度：经过近十年从IV-based到proximal再到本文的平行中介设定，正从单中介向多中介、从参数到半参数延伸。

发展脉络¶

因未提供全文introduction及被引列表，以下基于公开文献和本abstract推断（标注为“据公开知识”）。

奠基工作：中介分析基线框架
Baron & Kenny（1986）提出逐步回归法，Imai et al.（2010）建立基于潜在结果的因果中介框架，VanderWeele（2015）系统性处理多中介与交互。这些工作都假设无未测量混杂（包括mediator-outcome）。该假设在实践常被违反，导致继发偏倚。
放宽无混杂的中介分析进展
主要有两条子线索（见下）。
子线索一：利用工具变量（IV）。单中介-未测量混杂可通过IV识别（如Teri & Zhang, 2016; Guo et al., 2018），但IV需满足排他性和强度条件，且平行中介面临IV个数不足的困难。
子线索二：利用代理变量（proxies）的proximal causal inference。Miao et al.（2018）提出通过两个代理变量（如重复测量）识别未测量混杂下的因果效应；Tchetgen Tchetgen et al.（2020）将其扩展到中介分析，但通常用于单中介或需要两个独立代理。
子线索三：平行中介的特殊挑战。当存在多个平行中介时，未测量混杂可能同时耦合所有中介与结局，传统忽略混杂的方法会产生多路偏倚，且代理变量需求更大。Zhang et al.（2019）在无混杂假设下做了平行中介的高维选择，但未处理未测量混淆。
本文位置：在平行中介设定下，仅需一个伪代理变量（pseudo proxy）来捕捉未测量混杂，结合线性结构方程模型实现参数识别。相比proximal方法（一般需要两个代理或强替代条件），本文降低了对额外变量的要求；相比IV方法，不需要排他性工具，且能处理多个中介的变量选择。

子线索聚类¶

子线索	代表性工作（公开文献）	核心方法	对未测量混杂的处理	与本文关系
无混杂中介分析	Baron & Kenny, 1986; Imai et al., 2010; VanderWeele, 2015	回归、乘积系数法、潜在结果	假设无	本文的出发点：指出该假设现实不可靠
IV-based中介分析	Guo et al., 2018; Teri & Zhang, 2016	工具变量两阶段估计	依赖IV有效性，未测量混杂下偏移	本文未采用IV，而是选择代理变量
Proximal因果中介	Miao et al., 2018; Tchetgen Tchetgen et al., 2020	双重代理变量识别未测量混杂	利用proxy替代U	本文只需一个伪代理（而非两个），降低数据要求
平行中介（无混杂）	Zhang et al., 2019	高维惩罚估计、Sobel检验	假设无	本文核心对标：将无混杂扩展至有混杂
平行中介（有混杂）- 本文	Kang, Liu, He, Li (EJS)	伪代理变量 + 部分惩罚估计	一个伪代理捕捉U	首次在平行中介下处理未测量混杂并完成变量选择

这个方向在追问的核心问题¶

识别问题：在平行中介中，当多个中介与结局存在未测量混杂时，直接效应和间接效应是否仍可分离？需要什么样的额外变量或假设？
估计与推断：在超参数（中介数远大于样本量）或中等维下，如何同时选出活跃中介路径并得到渐近有效的估计？
假设的敏感性：伪代理变量是否需要完全捕获U的所有变异？如果U是多维的仅部分捕捉，估计偏差多大？
非线性推广：线性结构方程之外，是否能推广至非参数/半参数模型，放松正态误差和线性关系？

当前主流方法：Proximal方法（需两个代理）、IV方法（需有效工具）、敏感性分析（给出偏倚范围，不识别）。已知瓶颈：平行中介下，代理变量个数与中介数匹配困难，且变量选择需同时控制多路混杂。

⚠️ 作者的 framing（基于abstract推断，非原文引用句直接判断）¶

由于未提供introduction，以下为基于abstract中语句的推断：“related methods often assume the absence of unmeasured mediator-outcome confounding. To address this, we develop a mediation analysis framework that accounts for such confounding within a linear structural equation model with parallel mediators. Specifically, we introduce a pseudo proxy variable to capture unmeasured confounding, allowing us to identify causal parameters.”
——作者将缺口frame为已有方法未针对平行中介处理未测量mediator-outcome confounding，而本文通过引入一个伪代理变量填补此gap。竞争路线（如双层代理或IV）被淡化：作者未明确论证为何它们的假设在平行中介下更难满足（可能是IV个数不足或代理不可得）。可能被回避的问题：伪代理变量本身如何获取？其独立性假设是否比无混杂假设更强？
什么明显该被引/该存在、却没出现在intro里？（需查原文，目前无法判断）一条可能的张力：proximal方法（Miao et al., 2018）也处理了未测量混杂，但使用两个代理；如果本文只有一个代理，则必须依赖更强的条件（如U对M和Y的线性作用可压缩到一个标量代理）。这是一个值得研究者核对的点。

张力¶

在公开文献内，proximal方法与IV方法对未测量混杂的处理条件互有竞争：IV更强调外生工具，proximal强调代理的测量结构。尚无明显相互矛盾的结论，但应用场景不同。本文首提“伪代理”（pseudo proxy），其概念可能与proximal中的“负控制”或“替代变量”相似但简化，是否存在不一致需待实读。

二、最小内核（符号/模型/可观测 + 最简特例）¶

第一步：符号、模型、可观测数据¶

符号清单（基于本文设定的线性结构方程模型推断）：

记号	类型	含义
\(X\)	可观测随机变量	处理变量（单变量，假设为连续或二值）
\(M = (M_1, \dots, M_p)^\top\)	可观测随机向量	p个平行中介变量
\(Y\)	可观测随机变量	结局变量
\(U\)	潜在随机变量（未观测）	同时影响中介与结局的未测量混杂因子（可能为向量，但本文假设其可被一个标量伪代理变量捕捉）
\(P\)	可观测随机变量	伪代理变量（pseudo proxy），是U的线性函数加噪声（如 \(P = \psi U + \epsilon_P\)），用于替代U
\(\alpha = (\alpha_1, \dots, \alpha_p)^\top\)	参数	从处理 \(X\) 到各中介 \(M_j\) 的路径系数（斜率）
\(\beta = (\beta_1, \dots, \beta_p)^\top\)	参数	从各中介 \(M_j\) 到结局 \(Y\) 的路径系数
\(\gamma\)	参数	处理对结局的直接效应（\(X \to Y\)）
\(\delta\)	参数	未测量混杂 \(U\) 对结局 \(Y\) 的效应
\(\theta = (\alpha^\top, \beta^\top, \gamma, \delta, \text{其他误差方差})^\top\)	全部参数	待估参数

模型（线性结构方程）：

\[\begin{aligned} M_j &= \alpha_j X + \lambda_j U + \epsilon^M_j, \quad j=1,\dots,p, \\ Y &= \gamma X + \sum_{j=1}^p \beta_j M_j + \delta U + \epsilon^Y, \\ P &= \psi U + \epsilon^P, \end{aligned}\]

其中： - \(\lambda_j\)：U对中介\(M_j\)的载荷（可正可负）； - \(\psi\)：U对伪代理P的载荷（非零为识别条件）； - 误差 \(\epsilon^M_j, \epsilon^Y, \epsilon^P\) 彼此独立且与\(X, U\)独立，均值为0，方差有限。 - 假设 \(U, X, \epsilon\) 等全部可交换（线性系统），且 \(U\) 的方差归一到1（尺度识别）。 - 可观测数据：研究者能观测到 \((X_i, M_{i1}, \dots, M_{ip}, Y_i, P_i)\) 的 i.i.d. 样本，样本量 \(n\)。\(U\) 完全不可观测，\(P\) 是其代理。

识别的关键：若没有\(P\)，参数\(\beta_j\)与\(\delta\)因U同时出现在\(M_j\)和\(Y\)方程中而无法分离（存在混杂偏倚）。有了\(P\)，可通过\(P\)与\(M_j, Y\)的协方差结构以及假设\(\epsilon^M_j\)与\(\epsilon^P\)不相关等条件，利用矩条件识别出\(\beta_j, \gamma, \delta\)。

第二步：最小内核（最简特例：单个中介 \(p=1\)）¶

剥去多中介的高维选择和惩罚复杂性，最简特例只考虑一个中介（\(p=1\)）和一个标量未测量混杂U。目标是估计间接效应 \(\alpha\beta\) 和直接效应 \(\gamma\)。

可观测数据： \((X, M, Y, P)\)，其中\(M\)是单个中介。

结构方程退化为：

\[\begin{aligned} M &= \alpha X + \lambda U + \epsilon_M, \\ Y &= \gamma X + \beta M + \delta U + \epsilon_Y, \\ P &= \psi U + \epsilon_P. \end{aligned}\]

这里\(\lambda, \psi\)为实数。假设灵敏度：\(\lambda \neq 0, \psi \neq 0\)（否则U不影响M或P不可观测）。

关键数学问题：如何从可观测变量的协方差矩阵中识别\(\beta\)（\(M \to Y\)效应）？经典回归\(Y\)对\(X, M\)会遭到U的遗漏变量偏倚：真实的\(\beta\)与遗漏导致的有偏估计\(\hat{\beta}\)之间差为\(\delta \lambda \text{Var}(U | X, M)\)。引入\(P\)后，可利用\(P\)作为U的噪声测量来清理该偏倚。

识别思路：考虑协方差\(\text{Cov}(P, M | X)\)和\(\text{Cov}(P, Y | X)\)。由于给定\(X\)，有：

\[\text{Cov}(P, M | X) = \psi \lambda \text{Var}(U|X), \quad \text{Cov}(P, Y | X) = \psi \delta \text{Var}(U|X) + \beta \text{Cov}(P, M | X).\]

因此，比值（如果\(\text{Cov}(P, M | X) \neq 0\)）：

\[\frac{\text{Cov}(P, Y | X)}{\text{Cov}(P, M | X)} = \frac{\psi \delta}{\psi \lambda} + \beta = \frac{\delta}{\lambda} + \beta.\]

而\(\delta / \lambda\)未知。但如果我们还有\(Y\)对\(M, X\)的主回归以及P对M,X的回归，结合三个矩条件可以解出\(\beta\)。具体地，做两步：

用\(P\)对\(M, X\)回归得到残差\(\tilde{P}\)（剔除X和M中反映U的部分？需要仔细）。实际常用的是：将\(Y\)对\(M, X\)回归，再用P作为工具变量处理内生性？但这里P是U的代理，M内生因为U影响M。最小内核的识别方式通常利用“proxy completeness”：假设U对M的影响方向可通过P一致。更标准的识别是：

解方程组：记\( \Sigma = \begin{pmatrix} \text{Var}(M|X) & \text{Cov}(M,P|X) \\ \text{Cov}(P,M|X) & \text{Var}(P|X) \end{pmatrix} \)，和\(\text{Cov}(M,Y|X), \text{Cov}(P,Y|X)\)。由于\(U\)是一维，给定\(X\)下各变量的协方差矩阵秩为1的结构（\(\text{Var}(U|X)\)是标量）。可以证明：

\[\beta = \frac{\text{Cov}(P,Y|X)\text{Var}(M|X) - \text{Cov}(M,Y|X)\text{Cov}(M,P|X)}{\text{Var}(P|X)\text{Cov}(M,Y|X) - \text{Cov}(P,Y|X)\text{Cov}(M,P|X)}???\]

实际常用IV估计：使用P作为M的工具变量，在两阶段最小二乘法中估计\(\beta\)。因为P通过U影响M，且与\(\epsilon_Y\)独立（假设\(\epsilon_P\)独立于\(\epsilon_Y\)），所以P满足外生性排他性（给定U外，P对Y影响仅通过U→M→Y？但U直接影响Y，所以P不能直接作为IV，因为U→Y路径未封闭）。这就复杂了。

为了最小内核清晰，最好直接描述本文使用的线性SEM的可识别条件：因为参数个数和方程个数匹配。假定所有变量联合正态且方程线性，则通过协方差结构匹配，未知参数个数（\(\alpha,\lambda,\psi,\beta,\gamma,\delta\)及各误差方差）与可观测数据的14个二阶矩（均值+Var-Cov）的数量关系可以识别。具体地，可用矩估计法一致估计参数。这就是最小内核。

本文的核心技术贡献：当\(p>1\)时，将代理思路与惩罚选择结合，推到高维。

所以最小内核示例：把全部参数都列出来，用矩法示范识别。但更形象的是画出因果图：X→M, M→Y, X→Y, U→M, U→Y, 且U→P（P是代理，受U影响但不直接受X,M,Y影响或仅通过U影响）。满足“局部独立性”——Y与P给定U和X,M条件独立。这是识别所需的关键假设。

由于没原文，我们只能概括。

三、这篇论文做了什么¶

三句话¶

① 在平行中介线性结构方程模型下，当存在未测量mediator-outcome confounding时，提出引入一个伪代理变量（pseudo proxy）以识别所有因果参数（直接效应、各中介间接效应）。② 基于该伪代理变量，构造部分惩罚估计（partially penalized method）：即对处理→中介的系数不做惩罚，对中介→结局的系数做L1或SCAD惩罚，同时完成参数估计与活跃中介路径选择。③ 理论证明了参数估计的相合性、非零参数的渐近正态性，并给出了一致选择活跃路径（以高概率选出真实活跃的中介）的程序；模拟与基因组数据应用展示其有限样本优势。

关键设定与假设¶

在第二节最小内核符号基础上，完整设定包括： - 线性结构方程：所有关系为线性加可加独立误差。平行中介间无相互作用（无交叉路径）。 - 未测量混杂：存在一个（也可能多个，但需降为一维）标量或概括性未测量混杂因子\(U\)，同时影响各中介和结局。伪代理变量\(P\)满足： - 相关性保证：不相关于误差且与\(U\)相关（\(\psi \neq 0\)）； - 独立性：给定\(U\)，\(P\)与\(M, Y, X\)独立；或至少\(P\)独立于\(\epsilon_M^j, \epsilon_Y\)？ - 排除限制（no direct effect）：\(P\)对结局的影响仅通过\(U\)（即图中无\(P \to Y\)边）。 - 平行中介：各中介\(M_j\)之间仅通过共同\(X\)和共同\(U\)相关，条件独立（可忽略）。 - 稀疏性假设：活跃中介（即影响结局的\(M_j\)的集合）的个数\(s \ll p\)，满足高维稀疏条件。 - 正则条件：设计矩阵满足为惩罚估计的oracle性质（如不相干条件、β-最小、特征值界等，类似于Fan & Li, 2001）。

相比已有文献（如Zhang et al., 2019等），本文关键放松：不再假设无unmeasured mediator-outcome confounding；但代价是引入了可观测的伪代理变量，并假设其能充分捕捉U的影响。相比proximal方法需要两个代理，本文只需一个代理，但可能隐含额外假设（如U低维或λ、ψ可允许单代理完全反映）。

主要结果（理论型）¶

定理1（相合性与渐近正态）：设正则条件成立，惩罚λ_n适当选择，则： - 部分惩罚估计量\(\hat{\alpha}, \hat{\beta}, \hat{\gamma}\)是相合的（收敛速度取决于惩罚参数）； - 对非零\(\beta_j\)（即活跃中介），\(\sqrt{n}(\hat{\beta}_j - \beta_j) \to N(0, \sigma_j^2)\)； - 同时，直接效应\(\gamma\)的估计量也渐近正态。

技术困难：由于伪代理P引入，误差项\(\epsilon_P\)可能产生额外方差，且U是潜变量需估算参数，标准惩罚M估计的渐近正态论证需处理二阶矩的偏差校正（类似EICKeler, 2015）。作者可能通过部分惩罚（保持α和γ无惩罚）来降低由于选择产生的随机正则化偏差。

定理2（活跃路径一致选择）：通过设定合适的阈值或后选择检验，本文提出的选择程序能够以概率趋于1选出真正的活跃中介路径。证明基于惩罚估计的oracle性质和β的最小信号强度条件（β-min）。

证明路线与技术技巧（据abstract和典型方法推断）¶

整体路线（推测）：

构造伪代理矩条件：利用线性模型写出由U引发的Omitted variable bias的关系。将U置换为P的线性预测（回归P到X, M），得到代理变量残差，进而构造用于识别β的两阶段矩方程组。
目标函数：建立部分惩罚最小二乘目标函数：
\[\mathcal{L}(\alpha, \beta, \gamma) = \frac{1}{n}\sum_{i=1}^n \left( Y_i - \gamma X_i - \sum_j \beta_j M_j \right)^2 + \sum_j p_{\lambda}(|\beta_j|)\]
其中α由第一阶段M~X+P回归估计，然后将残差代入。实际上，因为U潜变量，需要将P引入第一阶段的M回归。

更可能的路：用两阶段近似：第一阶段，对每个j，用X和P回归M_j，得到残差\(\hat{\epsilon}^M_j\)（消除U的影响）；第二阶段，用X，这些残差，以及各个M_j？需要仔细。

另外一种是被广泛使用的“控制函数”方法（controlled variable approach）：将P视为观察到的混杂代理，回归Y于X, M, P，但此时由于P是U的噪声，仍需校正。

具体路线需读原文。此处仅作可能。

关键跳跃点：证明伪代理能够恢复U的变异，并消除多重混杂偏倚。难点：当p大时，系数λ_j和β_j的耦合使得无法直接回归。需要证明在平行中介下，单个P就能识别所有β_j（因为U是共同的）。这正是作者的核心洞察。
技术技巧：
可能使用高维screening结合嵌套惩罚；
渐近正态性可能依赖高阶U统计量或empirical process控制惩罚的oracle性质；
部分惩罚（对α不惩罚）允许直接用一阶段OLS，减少自由度；
构造双偏差校正：利用代理P校正内生性引入的偏差。
选择一致性：与Fan & Li (2001)或Zhao & Yu (2006)的Irrepresentable Condition对接。

（因为没有全文，以上为推测）

真实例子与应用¶

数据来源：基因组数据——基因变异（single nucleotide variant）作为处理X，一组基因表达测量作为平行中介M（p~几百），小鼠肥胖指标作为结局Y。同时收集了某个基因（作为P？）作为伪代理变量。这个P可能是根据先验与肥胖相关的另一个基因表达或甲基化位点。

方法应用： - 将所有变量标准化。 - 设定线性结构方程：X→M_j（基因变异对每个基因表达），M_j→Y（基因表达对肥胖），及直接效应X→Y。 - 选定伪代理变量P（可能基于外部知识或主成分分析）捕捉未测量混杂（如母体环境、遗传背景）。 - 应用部分惩罚估计，选择显著影响Y的M_j，估计各路径系数。

结果：识别出若干条基因表达中介路径（即某些基因变异通过特定基因表达影响肥胖），这些路径在原有忽略混杂的方法中或有漏选或误选。同时得到直接效应估计。

该例子想说明：验证在真实数据中存在未测量mediator-outcome confounding，传统方法可能产生虚假去除或虚假发现；本文方法修正后得到更可信的中介集。

🔎 结论是否比证明窄¶

由于无全文，无法明确。注意abstract提到“The resultant estimates are consistent, and the estimates of nonzero parameters are asymptotically normal.”——需确认是否对所有介质的估计都渐近正态，还是仅对非零且满足β-min条件的？通常高维惩罚估计对零参数不提供渐近分布（不一致）。因此结论可能仅适用于非零且经过选择确认的参数，而零参数被惩罚压缩到0，无渐近正态性。作者可能在正文中明确限制。

另一可能：部分惩罚（不对α惩罚）使α估计保持无偏，但对于被保留的β_j，渐近正态要求选择一致性。如果选择不一致，则可能存在post-selection inference问题。作者或假设β-min保证几乎确定选择正确，从而可在选择后条件上做推断。读者需确认是否处理了重抽样或交叉拟合的偏差。

四、开放问题（扎根具体语句）¶

伪代理变量P能否来自数据驱动筛选？ Abstract只说“introduce a pseudo proxy variable”，但未说明该变量是否预先给定还是可搜索。在基因组例子中，P可能是根据已有生物学知识选定。若数据中无先验伪代理，是否可从大量变量中自动筛选出一个？这是未来方向（扎根于：本文方法依赖外部提供的P；无P不可行）。
当未测量混杂是多维的，单个伪代理是否足够？ 本文假设U能被一个标量代理捕捉（线性SEM下维数不变）。如果U是高维向量，只有一个P可能无法覆盖所有变异方向。此时识别失败或偏倚。这是一个自然的放松方向（扎根于：模型的单因子结构假设）。
非线性系统和非参数识别：线性结构方程模型限制性强。能否扩展到半参数逻辑（例如广义线性模型）或非参数？核心困难在于proxy的非线性可解性。作者在引言中或指出未来工作（待查看原文Limitation段）。
统计-计算权衡：当p很大（>>n）时，部分惩罚估计的计算复杂性（优化非凸惩罚如SCAD）可能带来局部极小问题。本文可能使用凸替代（adaptive lasso），但未提及是否研究计算成本与统计效率的折衷。这与研究者感兴趣的statistical-computational tradeoff有关。可检查：原文有无模拟耗时或算法收敛性分析？若无，则为开放问题。

注意：以上开放问题均为基于abstract的一般推测。要确认是否为真gap，需读同子领域近期约5篇（如Miao 2018, Tchetgen 2020, Zhang 2019等的intros）。特别是问题2，在proximal文献中已有处理多维U需多个代理的结果，本文的简化是否被同行接受仍待核实。研究者可基于“平行中介+共同U”的结构，尝试用稀疏因子模型扩展到多维U，同时用多个伪代理。

Maintained by 陈星宇 · Homepage · Source on GitHub