跳转至

Mediation analysis with unmeasured confounding between parallel mediators and outcome

作者: Kang Shuai, Lan Liu, Yangbo He, Wei Li
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

中介分析(mediation analysis)旨在分解总效应为直接效应和间接效应(通过中介变量传递),是因果推断的核心工具之一。从Baron & Kenny(1986)的逐步法到Imai et al.(2010)的因果中介框架,再到VanderWeele(2015)的多中介与非线性扩展,主流方法大多依赖无未测量混杂的强假设——特别是中介-结局之间无未测量混杂(mediator-outcome confounding)。然而在观测研究中,中介变量与结局往往受共同未观测因子影响(如遗传倾向、社会经济地位),要求无偏识别需找到并测量所有混杂,这在实践上几乎不可能。本子方向聚焦于在有未测量mediator-outcome confounding时如何识别和估计直接/间接效应,是混淆下的中介分析的子问题。其成熟度:经过近十年从IV-based到proximal再到本文的平行中介设定,正从单中介向多中介、从参数到半参数延伸。

发展脉络

因未提供全文introduction及被引列表,以下基于公开文献和本abstract推断(标注为“据公开知识”)。

  • 奠基工作:中介分析基线框架
    Baron & Kenny(1986)提出逐步回归法,Imai et al.(2010)建立基于潜在结果的因果中介框架,VanderWeele(2015)系统性处理多中介与交互。这些工作都假设无未测量混杂(包括mediator-outcome)。该假设在实践常被违反,导致继发偏倚。

  • 放宽无混杂的中介分析进展
    主要有两条子线索(见下)。
    子线索一:利用工具变量(IV)。单中介-未测量混杂可通过IV识别(如Teri & Zhang, 2016; Guo et al., 2018),但IV需满足排他性和强度条件,且平行中介面临IV个数不足的困难。
    子线索二:利用代理变量(proxies)的proximal causal inference。Miao et al.(2018)提出通过两个代理变量(如重复测量)识别未测量混杂下的因果效应;Tchetgen Tchetgen et al.(2020)将其扩展到中介分析,但通常用于单中介或需要两个独立代理。
    子线索三:平行中介的特殊挑战。当存在多个平行中介时,未测量混杂可能同时耦合所有中介与结局,传统忽略混杂的方法会产生多路偏倚,且代理变量需求更大。Zhang et al.(2019)在无混杂假设下做了平行中介的高维选择,但未处理未测量混淆。

  • 本文位置:在平行中介设定下,仅需一个伪代理变量(pseudo proxy)来捕捉未测量混杂,结合线性结构方程模型实现参数识别。相比proximal方法(一般需要两个代理或强替代条件),本文降低了对额外变量的要求;相比IV方法,不需要排他性工具,且能处理多个中介的变量选择。

子线索聚类

子线索 代表性工作(公开文献) 核心方法 对未测量混杂的处理 与本文关系
无混杂中介分析 Baron & Kenny, 1986; Imai et al., 2010; VanderWeele, 2015 回归、乘积系数法、潜在结果 假设无 本文的出发点:指出该假设现实不可靠
IV-based中介分析 Guo et al., 2018; Teri & Zhang, 2016 工具变量两阶段估计 依赖IV有效性,未测量混杂下偏移 本文未采用IV,而是选择代理变量
Proximal因果中介 Miao et al., 2018; Tchetgen Tchetgen et al., 2020 双重代理变量识别未测量混杂 利用proxy替代U 本文只需一个伪代理(而非两个),降低数据要求
平行中介(无混杂) Zhang et al., 2019 高维惩罚估计、Sobel检验 假设无 本文核心对标:将无混杂扩展至有混杂
平行中介(有混杂)- 本文 Kang, Liu, He, Li (EJS) 伪代理变量 + 部分惩罚估计 一个伪代理捕捉U 首次在平行中介下处理未测量混杂并完成变量选择

这个方向在追问的核心问题

  1. 识别问题:在平行中介中,当多个中介与结局存在未测量混杂时,直接效应和间接效应是否仍可分离?需要什么样的额外变量或假设?
  2. 估计与推断:在超参数(中介数远大于样本量)或中等维下,如何同时选出活跃中介路径并得到渐近有效的估计?
  3. 假设的敏感性:伪代理变量是否需要完全捕获U的所有变异?如果U是多维的仅部分捕捉,估计偏差多大?
  4. 非线性推广:线性结构方程之外,是否能推广至非参数/半参数模型,放松正态误差和线性关系?

当前主流方法:Proximal方法(需两个代理)、IV方法(需有效工具)、敏感性分析(给出偏倚范围,不识别)。已知瓶颈:平行中介下,代理变量个数与中介数匹配困难,且变量选择需同时控制多路混杂。

⚠️ 作者的 framing(基于abstract推断,非原文引用句直接判断)

由于未提供introduction,以下为基于abstract中语句的推断:“related methods often assume the absence of unmeasured mediator-outcome confounding. To address this, we develop a mediation analysis framework that accounts for such confounding within a linear structural equation model with parallel mediators. Specifically, we introduce a pseudo proxy variable to capture unmeasured confounding, allowing us to identify causal parameters.”
——作者将缺口frame为已有方法未针对平行中介处理未测量mediator-outcome confounding,而本文通过引入一个伪代理变量填补此gap。竞争路线(如双层代理或IV)被淡化:作者未明确论证为何它们的假设在平行中介下更难满足(可能是IV个数不足或代理不可得)。可能被回避的问题:伪代理变量本身如何获取?其独立性假设是否比无混杂假设更强?
什么明显该被引/该存在、却没出现在intro里?(需查原文,目前无法判断)一条可能的张力:proximal方法(Miao et al., 2018)也处理了未测量混杂,但使用两个代理;如果本文只有一个代理,则必须依赖更强的条件(如U对M和Y的线性作用可压缩到一个标量代理)。这是一个值得研究者核对的点。

张力

在公开文献内,proximal方法与IV方法对未测量混杂的处理条件互有竞争:IV更强调外生工具,proximal强调代理的测量结构。尚无明显相互矛盾的结论,但应用场景不同。本文首提“伪代理”(pseudo proxy),其概念可能与proximal中的“负控制”或“替代变量”相似但简化,是否存在不一致需待实读。

二、最小内核(符号/模型/可观测 + 最简特例)

第一步:符号、模型、可观测数据

符号清单(基于本文设定的线性结构方程模型推断):

记号 类型 含义
\(X\) 可观测随机变量 处理变量(单变量,假设为连续或二值)
\(M = (M_1, \dots, M_p)^\top\) 可观测随机向量 p个平行中介变量
\(Y\) 可观测随机变量 结局变量
\(U\) 潜在随机变量(未观测) 同时影响中介与结局的未测量混杂因子(可能为向量,但本文假设其可被一个标量伪代理变量捕捉)
\(P\) 可观测随机变量 伪代理变量(pseudo proxy),是U的线性函数加噪声(如 \(P = \psi U + \epsilon_P\)),用于替代U
\(\alpha = (\alpha_1, \dots, \alpha_p)^\top\) 参数 从处理 \(X\) 到各中介 \(M_j\) 的路径系数(斜率)
\(\beta = (\beta_1, \dots, \beta_p)^\top\) 参数 从各中介 \(M_j\) 到结局 \(Y\) 的路径系数
\(\gamma\) 参数 处理对结局的直接效应(\(X \to Y\)
\(\delta\) 参数 未测量混杂 \(U\) 对结局 \(Y\) 的效应
\(\theta = (\alpha^\top, \beta^\top, \gamma, \delta, \text{其他误差方差})^\top\) 全部参数 待估参数

模型(线性结构方程)

\[\begin{aligned} M_j &= \alpha_j X + \lambda_j U + \epsilon^M_j, \quad j=1,\dots,p, \\ Y &= \gamma X + \sum_{j=1}^p \beta_j M_j + \delta U + \epsilon^Y, \\ P &= \psi U + \epsilon^P, \end{aligned}\]

其中: - \(\lambda_j\):U对中介\(M_j\)的载荷(可正可负); - \(\psi\):U对伪代理P的载荷(非零为识别条件); - 误差 \(\epsilon^M_j, \epsilon^Y, \epsilon^P\) 彼此独立且与\(X, U\)独立,均值为0,方差有限。 - 假设 \(U, X, \epsilon\) 等全部可交换(线性系统),且 \(U\) 的方差归一到1(尺度识别)。 - 可观测数据:研究者能观测到 \((X_i, M_{i1}, \dots, M_{ip}, Y_i, P_i)\) 的 i.i.d. 样本,样本量 \(n\)\(U\) 完全不可观测,\(P\) 是其代理。

识别的关键:若没有\(P\),参数\(\beta_j\)\(\delta\)因U同时出现在\(M_j\)\(Y\)方程中而无法分离(存在混杂偏倚)。有了\(P\),可通过\(P\)\(M_j, Y\)的协方差结构以及假设\(\epsilon^M_j\)\(\epsilon^P\)不相关等条件,利用矩条件识别出\(\beta_j, \gamma, \delta\)

第二步:最小内核(最简特例:单个中介 \(p=1\)

剥去多中介的高维选择和惩罚复杂性,最简特例只考虑一个中介(\(p=1\))和一个标量未测量混杂U。目标是估计间接效应 \(\alpha\beta\) 和直接效应 \(\gamma\)

可观测数据\((X, M, Y, P)\),其中\(M\)是单个中介。

结构方程退化为

\[\begin{aligned} M &= \alpha X + \lambda U + \epsilon_M, \\ Y &= \gamma X + \beta M + \delta U + \epsilon_Y, \\ P &= \psi U + \epsilon_P. \end{aligned}\]

这里\(\lambda, \psi\)为实数。假设灵敏度:\(\lambda \neq 0, \psi \neq 0\)(否则U不影响M或P不可观测)。

关键数学问题:如何从可观测变量的协方差矩阵中识别\(\beta\)\(M \to Y\)效应)?经典回归\(Y\)\(X, M\)会遭到U的遗漏变量偏倚:真实的\(\beta\)与遗漏导致的有偏估计\(\hat{\beta}\)之间差为\(\delta \lambda \text{Var}(U | X, M)\)。引入\(P\)后,可利用\(P\)作为U的噪声测量来清理该偏倚。

识别思路:考虑协方差\(\text{Cov}(P, M | X)\)\(\text{Cov}(P, Y | X)\)。由于给定\(X\),有:

\[\text{Cov}(P, M | X) = \psi \lambda \text{Var}(U|X), \quad \text{Cov}(P, Y | X) = \psi \delta \text{Var}(U|X) + \beta \text{Cov}(P, M | X).\]

因此,比值(如果\(\text{Cov}(P, M | X) \neq 0\)):

\[\frac{\text{Cov}(P, Y | X)}{\text{Cov}(P, M | X)} = \frac{\psi \delta}{\psi \lambda} + \beta = \frac{\delta}{\lambda} + \beta.\]

\(\delta / \lambda\)未知。但如果我们还有\(Y\)\(M, X\)的主回归以及P对M,X的回归,结合三个矩条件可以解出\(\beta\)。具体地,做两步:

  1. \(P\)\(M, X\)回归得到残差\(\tilde{P}\)(剔除X和M中反映U的部分?需要仔细)。实际常用的是:将\(Y\)\(M, X\)回归,再用P作为工具变量处理内生性?但这里P是U的代理,M内生因为U影响M。最小内核的识别方式通常利用“proxy completeness”:假设U对M的影响方向可通过P一致。更标准的识别是:

解方程组:记\( \Sigma = \begin{pmatrix} \text{Var}(M|X) & \text{Cov}(M,P|X) \\ \text{Cov}(P,M|X) & \text{Var}(P|X) \end{pmatrix} \),和\(\text{Cov}(M,Y|X), \text{Cov}(P,Y|X)\)。由于\(U\)是一维,给定\(X\)下各变量的协方差矩阵秩为1的结构(\(\text{Var}(U|X)\)是标量)。可以证明:

\[\beta = \frac{\text{Cov}(P,Y|X)\text{Var}(M|X) - \text{Cov}(M,Y|X)\text{Cov}(M,P|X)}{\text{Var}(P|X)\text{Cov}(M,Y|X) - \text{Cov}(P,Y|X)\text{Cov}(M,P|X)}???\]
实际常用IV估计:使用P作为M的工具变量,在两阶段最小二乘法中估计\(\beta\)。因为P通过U影响M,且与\(\epsilon_Y\)独立(假设\(\epsilon_P\)独立于\(\epsilon_Y\)),所以P满足外生性排他性(给定U外,P对Y影响仅通过U→M→Y?但U直接影响Y,所以P不能直接作为IV,因为U→Y路径未封闭)。这就复杂了。

为了最小内核清晰,最好直接描述本文使用的线性SEM的可识别条件:因为参数个数和方程个数匹配。假定所有变量联合正态且方程线性,则通过协方差结构匹配,未知参数个数(\(\alpha,\lambda,\psi,\beta,\gamma,\delta\)及各误差方差)与可观测数据的14个二阶矩(均值+Var-Cov)的数量关系可以识别。具体地,可用矩估计法一致估计参数。这就是最小内核。

本文的核心技术贡献:当\(p>1\)时,将代理思路与惩罚选择结合,推到高维。

所以最小内核示例:把全部参数都列出来,用矩法示范识别。但更形象的是画出因果图:X→M, M→Y, X→Y, U→M, U→Y, 且U→P(P是代理,受U影响但不直接受X,M,Y影响或仅通过U影响)。满足“局部独立性”——Y与P给定U和X,M条件独立。这是识别所需的关键假设。

由于没原文,我们只能概括。

三、这篇论文做了什么

三句话

① 在平行中介线性结构方程模型下,当存在未测量mediator-outcome confounding时,提出引入一个伪代理变量(pseudo proxy)以识别所有因果参数(直接效应、各中介间接效应)。② 基于该伪代理变量,构造部分惩罚估计(partially penalized method):即对处理→中介的系数不做惩罚,对中介→结局的系数做L1或SCAD惩罚,同时完成参数估计与活跃中介路径选择。③ 理论证明了参数估计的相合性、非零参数的渐近正态性,并给出了一致选择活跃路径(以高概率选出真实活跃的中介)的程序;模拟与基因组数据应用展示其有限样本优势。

关键设定与假设

在第二节最小内核符号基础上,完整设定包括: - 线性结构方程:所有关系为线性加可加独立误差。平行中介间无相互作用(无交叉路径)。 - 未测量混杂:存在一个(也可能多个,但需降为一维)标量或概括性未测量混杂因子\(U\),同时影响各中介和结局。伪代理变量\(P\)满足: - 相关性保证:不相关于误差且与\(U\)相关(\(\psi \neq 0\)); - 独立性:给定\(U\)\(P\)\(M, Y, X\)独立;或至少\(P\)独立于\(\epsilon_M^j, \epsilon_Y\)? - 排除限制(no direct effect):\(P\)对结局的影响仅通过\(U\)(即图中无\(P \to Y\)边)。 - 平行中介:各中介\(M_j\)之间仅通过共同\(X\)和共同\(U\)相关,条件独立(可忽略)。 - 稀疏性假设:活跃中介(即影响结局的\(M_j\)的集合)的个数\(s \ll p\),满足高维稀疏条件。 - 正则条件:设计矩阵满足为惩罚估计的oracle性质(如不相干条件、β-最小、特征值界等,类似于Fan & Li, 2001)。

相比已有文献(如Zhang et al., 2019等),本文关键放松:不再假设无unmeasured mediator-outcome confounding;但代价是引入了可观测的伪代理变量,并假设其能充分捕捉U的影响。相比proximal方法需要两个代理,本文只需一个代理,但可能隐含额外假设(如U低维或λ、ψ可允许单代理完全反映)。

主要结果(理论型)

定理1(相合性与渐近正态):设正则条件成立,惩罚λ_n适当选择,则: - 部分惩罚估计量\(\hat{\alpha}, \hat{\beta}, \hat{\gamma}\)是相合的(收敛速度取决于惩罚参数); - 对非零\(\beta_j\)(即活跃中介),\(\sqrt{n}(\hat{\beta}_j - \beta_j) \to N(0, \sigma_j^2)\); - 同时,直接效应\(\gamma\)的估计量也渐近正态。

技术困难:由于伪代理P引入,误差项\(\epsilon_P\)可能产生额外方差,且U是潜变量需估算参数,标准惩罚M估计的渐近正态论证需处理二阶矩的偏差校正(类似EICKeler, 2015)。作者可能通过部分惩罚(保持α和γ无惩罚)来降低由于选择产生的随机正则化偏差。

定理2(活跃路径一致选择):通过设定合适的阈值或后选择检验,本文提出的选择程序能够以概率趋于1选出真正的活跃中介路径。证明基于惩罚估计的oracle性质和β的最小信号强度条件(β-min)。

证明路线与技术技巧(据abstract和典型方法推断)

整体路线(推测)

  1. 构造伪代理矩条件:利用线性模型写出由U引发的Omitted variable bias的关系。将U置换为P的线性预测(回归P到X, M),得到代理变量残差,进而构造用于识别β的两阶段矩方程组。
  2. 目标函数:建立部分惩罚最小二乘目标函数:
    \[\mathcal{L}(\alpha, \beta, \gamma) = \frac{1}{n}\sum_{i=1}^n \left( Y_i - \gamma X_i - \sum_j \beta_j M_j \right)^2 + \sum_j p_{\lambda}(|\beta_j|)\]
    其中α由第一阶段M~X+P回归估计,然后将残差代入。 实际上,因为U潜变量,需要将P引入第一阶段的M回归。

更可能的路:用两阶段近似:第一阶段,对每个j,用X和P回归M_j,得到残差\(\hat{\epsilon}^M_j\)(消除U的影响);第二阶段,用X,这些残差,以及各个M_j?需要仔细。

另外一种是被广泛使用的“控制函数”方法(controlled variable approach):将P视为观察到的混杂代理,回归Y于X, M, P,但此时由于P是U的噪声,仍需校正。

具体路线需读原文。此处仅作可能。

  1. 关键跳跃点:证明伪代理能够恢复U的变异,并消除多重混杂偏倚。难点:当p大时,系数λ_j和β_j的耦合使得无法直接回归。需要证明在平行中介下,单个P就能识别所有β_j(因为U是共同的)。这正是作者的核心洞察。

  2. 技术技巧

  3. 可能使用高维screening结合嵌套惩罚;
  4. 渐近正态性可能依赖高阶U统计量empirical process控制惩罚的oracle性质;
  5. 部分惩罚(对α不惩罚)允许直接用一阶段OLS,减少自由度;
  6. 构造双偏差校正:利用代理P校正内生性引入的偏差。
  7. 选择一致性:与Fan & Li (2001)或Zhao & Yu (2006)的Irrepresentable Condition对接。

(因为没有全文,以上为推测)

真实例子与应用

数据来源:基因组数据——基因变异(single nucleotide variant)作为处理X,一组基因表达测量作为平行中介M(p~几百),小鼠肥胖指标作为结局Y。同时收集了某个基因(作为P?)作为伪代理变量。这个P可能是根据先验与肥胖相关的另一个基因表达或甲基化位点。

方法应用: - 将所有变量标准化。 - 设定线性结构方程:X→M_j(基因变异对每个基因表达),M_j→Y(基因表达对肥胖),及直接效应X→Y。 - 选定伪代理变量P(可能基于外部知识或主成分分析)捕捉未测量混杂(如母体环境、遗传背景)。 - 应用部分惩罚估计,选择显著影响Y的M_j,估计各路径系数。

结果:识别出若干条基因表达中介路径(即某些基因变异通过特定基因表达影响肥胖),这些路径在原有忽略混杂的方法中或有漏选或误选。同时得到直接效应估计。

该例子想说明:验证在真实数据中存在未测量mediator-outcome confounding,传统方法可能产生虚假去除或虚假发现;本文方法修正后得到更可信的中介集。

🔎 结论是否比证明窄

由于无全文,无法明确。注意abstract提到“The resultant estimates are consistent, and the estimates of nonzero parameters are asymptotically normal.”——需确认是否对所有介质的估计都渐近正态,还是仅对非零且满足β-min条件的?通常高维惩罚估计对零参数不提供渐近分布(不一致)。因此结论可能仅适用于非零且经过选择确认的参数,而零参数被惩罚压缩到0,无渐近正态性。作者可能在正文中明确限制。

另一可能:部分惩罚(不对α惩罚)使α估计保持无偏,但对于被保留的β_j,渐近正态要求选择一致性。如果选择不一致,则可能存在post-selection inference问题。作者或假设β-min保证几乎确定选择正确,从而可在选择后条件上做推断。读者需确认是否处理了重抽样或交叉拟合的偏差。

四、开放问题(扎根具体语句)

  1. 伪代理变量P能否来自数据驱动筛选? Abstract只说“introduce a pseudo proxy variable”,但未说明该变量是否预先给定还是可搜索。在基因组例子中,P可能是根据已有生物学知识选定。若数据中无先验伪代理,是否可从大量变量中自动筛选出一个?这是未来方向(扎根于:本文方法依赖外部提供的P;无P不可行)。

  2. 当未测量混杂是多维的,单个伪代理是否足够? 本文假设U能被一个标量代理捕捉(线性SEM下维数不变)。如果U是高维向量,只有一个P可能无法覆盖所有变异方向。此时识别失败或偏倚。这是一个自然的放松方向(扎根于:模型的单因子结构假设)。

  3. 非线性系统和非参数识别:线性结构方程模型限制性强。能否扩展到半参数逻辑(例如广义线性模型)或非参数?核心困难在于proxy的非线性可解性。作者在引言中或指出未来工作(待查看原文Limitation段)。

  4. 统计-计算权衡:当p很大(>>n)时,部分惩罚估计的计算复杂性(优化非凸惩罚如SCAD)可能带来局部极小问题。本文可能使用凸替代(adaptive lasso),但未提及是否研究计算成本与统计效率的折衷。这与研究者感兴趣的statistical-computational tradeoff有关。可检查:原文有无模拟耗时或算法收敛性分析?若无,则为开放问题。

注意:以上开放问题均为基于abstract的一般推测。要确认是否为真gap,需读同子领域近期约5篇(如Miao 2018, Tchetgen 2020, Zhang 2019等的intros)。特别是问题2,在proximal文献中已有处理多维U需多个代理的结果,本文的简化是否被同行接受仍待核实。研究者可基于“平行中介+共同U”的结构,尝试用稀疏因子模型扩展到多维U,同时用多个伪代理。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论