Individualized Dynamic Mediation Analysis Using Latent Factor Models¶
作者: Yijiao Zhang, Yubai Yuan, Yuexia Zhang, Zhongyi Zhu, Annie Qu
来源: Journal of the American Statistical Association
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1080/01621459.2026.2641242
一、核心问题与贡献(3句话)¶
- 本文研究了纵向数据中个体化、时变的中介效应的估计问题,并允许存在非稀疏的中介变量集和未测量的时变混杂因素——这两点使传统静态或同质中介分析失效。
- 核心方法是变系数结构方程模型(varying-coefficient SEM)与潜变量因子模型(latent factor model)的结合:变系数刻画时间动态性和个体异质性,因子模型吸收因未测量混杂导致的中介效应异质性,同时提出基于正则化的非稀疏中介选择策略。
- 主要贡献包括:提出首个同时处理个体异质性、时间动态性、非稀疏选择和未测量时变混杂的中介分析框架;证明了估计量的渐近正态性和群体水平中介选择的相合性;通过DNA甲基化数据展示了实际价值。
二、基础设定¶
- 核心概念与符号:
- \(Y_{it}\):个体 \(i\) 在时间 \(t\) 的结果;\(A_{it}\):处理;\(M_{ijt}\):第 \(j\) 个中介变量(\(j=1,\dots,p\));\(X_{it}\):观测到的协变量。
- 个体化时变中介效应:\(\beta_{ij}(t) = b_j(t) + \eta_i(t)^\top \gamma_j\),其中 \(b_j(t)\) 为群体水平的时变效应,\(\eta_i(t)\) 为个体潜变量(反映未测量时变混杂),\(\gamma_j\) 为因子载荷。
- 变系数结构方程模型:
\[M_{ijt} = \alpha_{0j}(t) + \alpha_{1j}(t) A_{it} + \eta_i(t)^\top \alpha_{2j} + \varepsilon_{ijt}^{(M)},\]
\[Y_{it} = \theta_0(t) + \theta_1(t) A_{it} + \sum_{j=1}^p \beta_{ij}(t) M_{ijt} + \eta_i(t)^\top \theta_2 + \varepsilon_{it}^{(Y)},\]
其中 \(\eta_i(t) \in \mathbb{R}^d\) 是 \(d\) 维潜因子,反映未测量时变混杂;\(\varepsilon\) 为随机误差。 - 关键假设:
- 因子可识别性:潜因子 \(\eta_i(t)\) 与观测协变量、误差独立,且因子载荷满足旋转可识别条件(如 \(\alpha_{2j}, \gamma_j\) 的某些约束)。这比假设“可忽略性”更强,但允许混杂效应随时间变化。
- 时变系数的光滑性:系数函数(如 \(b_j(t), \alpha_{0j}(t)\) 等)属于某光滑函数类(如 Sobolev 类),保证通过局部多项式或样条估计的一致收敛。
- 中介变量选择的稀疏性:假设真正的“有效”中介变量个数 \(s = o(n/\log p)\),且 \(d\) 固定。这区别于要求精确稀疏的正则化,允许非稀疏的弱信号中介(即大量中介效应非零但很小)。
- 误差独立性:给定 \((A, X, \eta)\),误差 \(\varepsilon^{(M)}\) 和 \(\varepsilon^{(Y)}\) 独立且同分布,且与处理 \(A\) 和潜因子 \(\eta\) 独立。这与标准结构方程模型的假设类似,但放松了无未测量混杂的要求(通过潜变量吸收)。
- 与已有文献(如 Imai et al. 2010, VanderWeele 2015)的区别:传统纵向中介分析通常假设无时变混杂或只处理静态混杂;Zhao et al. (2020) 用负控制处理未测量混杂但假设中介效应同质;本文通过潜因子模型自然引入个体异质性,且允许非稀疏选择。
- 问题背景:已有高阶中介分析多假设中介效应在时间上不变、在个体间同质,或只处理少量中介变量。本文针对这些不足,提出一个能同时处理个体异质性、时间动态、非稀疏中介集和未测量时变混杂的完整框架。
三、主要定理 / 核心结果¶
定理1(极大极小估计的渐近正态性)¶
- 陈述:在正则条件下,变系数估计量 \(\hat{\beta}_{ij}(t)\)(局部多项式估计)满足:
\[\sqrt{n h} \left( \hat{\beta}_{ij}(t) - \beta_{ij}(t) \right) \xrightarrow{d} N(0, \Sigma_{ij}(t)),\]其中 \(h\) 为带宽,\(\Sigma_{ij}(t)\) 为渐近方差。
- 直观解释:对于每个个体和每个中介变量,时变中介效应的估计以参数速率收敛到真实值,且方差可显式计算。
- 解决的技术难点:潜因子 \(\eta_i(t)\) 不可观测,但通过因子模型的EM型算法可一致估计其“伪值”;变系数部分与潜变量正交化后的估计仍保持正态性,关键在于证明潜因子估计的误差不影响主估计的一阶渐近展开。
- 适用条件与局限:要求带宽 \(h\) 恰当趋于0(欠平滑会导致偏差主导,过平滑导致方差主导);潜因子维度 \(d\) 固定且被正确指定(过度估计可能损失效率,欠估计导致未测量混杂残留);要求非稀疏中介变量个数 \(p\) 可随 \(n\) 增长但 \(p \ll n\)。
定理2(中介变量选择的相合性)¶
- 陈述:若群体水平中介效应 \(b_j(t)\) 非零的集合为 \(\mathcal{S}\),则基于自适应Lasso的惩罚估计 \(\hat{\mathcal{S}}\) 满足:
\[P(\hat{\mathcal{S}} = \mathcal{S}) \to 1 \quad \text{as } n \to \infty.\]
- 直观解释:即使个体层面的中介效应是异质的,群体平均效应(\(b_j(t)\) 的积分或加权平均)仍可通过正则化方法在变量选择上实现一致。
- 解决的技术难点:个体异质性(即 \(\eta_i(t)\gamma_j\) 项)使得不同个体的中介效应不同,但对群体水平选择构成噪声干扰;通过潜因子吸收后的残差项被有效降噪,使选择仍可行。
- 适用条件与局限:需要真正群体水平效应足够强(信噪比条件 \(\min_{j \in \mathcal{S}} \|b_j\|_2 \gg \sqrt{\log p / n}\));非稀疏(弱信号)中介模型下该一致性只针对群体水平效应,不保证每个个体层面的真实中介变量都被选入。
四、证明框架 / 方法设计¶
(论文重点在方法设计,理论证明是补充性,因此按应用/方法型结构处理)
4.1 识别策略与估计量设计¶
- 三步估计框架:
- 因子与载荷的估计:利用中介变量和结果方程的联合似然,通过因子模型的变分EM算法交替更新潜因子 \(\eta_i(t)\) 和载荷参数(\(\alpha_{2j},\gamma_j,\theta_2\))。这一步吸收了未测量时变混杂。
- 变系数的局部估计:给定潜因子估计值,用局部多项式回归(或B样条)分别估计方程中的时变系数 \(\alpha_{0j}(t),\alpha_{1j}(t),b_j(t)\) 和非时变系数 \(\theta_1(t)\) 等。这种做法类似广义可加模型的两步法。
- 个体化中介效应的计算:代入估计值,得到 \(\hat{\beta}_{ij}(t) = \hat{b}_j(t) + \hat{\eta}_i(t)^\top \hat{\gamma}_j\)。群体水平中介选择通过惩罚岭回归或自适应Lasso对 \(\{\hat{b}_j(t)\}\) 进行变量选择。
- 核心假设的可信度分析:潜变量模型吸收了未测量混杂,但隐含假设是混杂结构可由低维因子充分近似(\(d\) 固定且正确指定)。实践中可通过特征值衰减率或交叉验证选择 \(d\)。无法直接验证因子与处理、误差的独立性,需依靠敏感性分析(论文未做)。
- 稳健性检验策略:模拟实验中对 \(d\) 的误设定、误差分布、信噪比变化进行了测试,结果表明方法在中度误设定下仍保持鲁棒。
- 计算/实现细节:EM算法采用梯度下降更新;局部多项式估计的带宽通过交叉验证选择;优化目标包含自适应Lasso惩罚项,参数通过BIC选择。算法复杂度 \(O(nT p d)\),在 \(p\) 较大时可通过并行加速。
4.2 证明主干逻辑(简要说明定理证明思路)¶
- 主要采用鞅差分解 + 局部多项式渐近展开的经典路线:先证明潜因子估计误差为 \(o_p((n h)^{-1/2})\),再对变系数估计展开,利用一阶泰勒展开忽略高阶项,最后应用中心极限定理。
- 中介选择一致性的证明:利用惩罚估计的Oracle性质(Fan & Li 2001),将潜因子影响视为误差,证明在适当条件数下非零系数的惩罚项产生渐近可忽略偏差,而零系数被收缩到0。
五、问题发现:研究者能做什么¶
(A) 立即可做(最多2条)
- 问题表述:考察本文提出的个体化中介效应估计量的半参效率界——即推导该estimand(如 \(\beta_{ij}(t)\) 或群体水平平均效应 \(\int b_j(t) dt\))在给定潜变量模型下的最小渐近方差,并与本文实现方差进行比较。
- 用到武器库:estimation theory in causal inference(准备推导EIF的经验) + high-dimensional asymptotics(处理非稀疏中介的维度增长)。
- 第一步具体动作:写出该模型对应的参数化/半参数模型(将因子和载荷视为无穷维参数),在假设潜因子完全可识别(即不存在旋转任意性)下,计算 \(\beta_{ij}(t)\) 的有效影响函数(EIF),并推导Cramér-Rao下界。已知结构方程模型的EIF往往涉及score函数正交化,可参照Robins et al. (1992) 的“非参数结构方程”方法。
-
与本文已有结果的关系:补全效率性质——本文只给了渐近正态性(特定估计量的收敛速度),但未讨论是否达到最优收敛速率(即minimax最优性)。若EIF推导成功,可检验本文局部多项式估计是否达到该界,或提出改进(如DML版本)。
-
问题表述:在模拟设定中,验证二阶U-统计量能否用于更高效地估计个体化中介效应——将个体水平效应 \(\beta_{ij}(t)\) 视为参数 \(\theta_i\),用去偏差的U-统计量代替局部多项式,评估bias-variance权衡。
- 用到武器库:computation of higher-order U-statistics(treewidth / tensor contraction / einsum) + software development。
- 第一步具体动作:针对模拟生成的数据,写出估计 \(\beta_{ij}(t)\) 的U统计量形式:对每个个体 \(i\),用“成对交互”型核(如 \(\hat{\beta}_i = \frac{1}{n-1}\sum_{k \neq i} h(Y_i,Y_k,A_i,A_k,M_i,M_k)\));计算其treewidth复杂度(因涉及时间点 \(t\) 的变系数,可能需用einsum优化);用小规模模拟比较 MSE 与局部多项式法。
- 与本文已有结果的关系:提供另一种估计方案——U-统计量对模型误设可能更稳健,且可给出有限样本区间的显式方差公式(二阶U-统计量的方差有闭合形式);本文的方法依赖带宽选择,U-统计量则无此麻烦。
(B) 中期可做(最多2条)
- 缺哪一块:需要掌握identification theory in causal inference中的潜变量识别与proximal因果推断的等价性——具体说是理解潜因子模型与负控制变量(negative control)在识别未测量混杂时的假设强度差异,并能够形式化推导识别条件。
- 补哪1-2篇文献:
- Tchetgen Tchetgen et al. (2020) "An Introduction to Proximal Causal Inference"(JASA)——系统介绍proximal identification的框架和假设。
- Miao et al. (2018) "Identifying causal effects with proxy variables"(Biometrika)——讨论利用confounder proxy来识别平均处理效应,其中涉及因子模型视角。
-
补完之后能做什么:提出“Proximal Dynamic Mediation”替代方案:用近端变量代替潜因子模型,可能回避因子可识别性假设,改用负控制条件;然后与本文方法在相同模拟和数据上进行比较,写出关于两种策略的假设优越性、有限样本表现的对比论文。
-
缺哪一块:需要更深入地理解semiparametric theory中的正交得分(orthogonal score)与去偏差机器学习(DML)在纵向数据中的应用。
- 补哪1-2篇文献:
- Chernozhukov et al. (2018) "Double/Debiased Machine Learning for Treatment and Structural Parameters"(EJ)——DML框架及cross-fitting技术。
- Kennedy (2016) "Semiparametric theory and empirical processes in causal inference"(Annual Review)——对正交得分和效率界的基础介绍。
- 补完之后能做什么:将本文的变系数估计替换为DML版本:用任意机器学习模型估计中结果方程和暴露方程,构造正交得分,从而允许更灵活的非参数模型(不用局部多项式),同时得到半参有效的估计。具体地,写出 \(\beta_{ij}(t)\) 的EIF(若不在A中完成,则作为补全),然后给出一步估计或cross-fitting实现。
(C) 暂不建议(最多2条)
- 缺什么机器:本文的个体化中介效应涉及每个个体的时变曲线,其估计和推断在高维中介(\(p\) 大)下需要同时控制误差在时间和个体上的多重性,这需要大规模同时置信区间的理论(如bootstrap calibration或multiscale testing)——而非研究者武器库内已有的工具(非参统计、高维渐近、U-统计量侧重期望而非联合置信区间)。
- 为何不易绕过去:即使有有的渐近正态性,对大量个体和中介变量同时做假设检验需控制族系错误率(FWER或FDR),且这些置信区间在函数空间(时间)上又需考虑带光滑性的调优。这涉及函数型数据的多重比较技术,与研究者主要技能栈重叠小。
-
结论:暂不建议跟进的子问题。
-
缺什么机器:本文的潜因子模型通过低维线性因子吸收未测量混杂,但未考虑高维因子结构(\(d\) 随 \(n\) 增长)或非线性因子。处理这些需要非参数因子模型的最优检测与估计理论(如Bai & Li的panel factor theory)或非线性特征映射(kernel PCA),而非当前工具包中的线性因子或U-统计量。
- 为何不易绕过去:若将本文的因子扩展到非线性或高维,识别条件、计算效率和推断理论将完全改变,需全新概率工具,短期内无法基于现有武器构建。
- 结论:待未来研究兴趣转向时再考虑。
值得精读的关键参考文献(2-3篇) - Zhao et al. (2020) "Longitudinal mediation analysis with time-varying mediators"(JASA):是本文最直接的竞争者——使用负控制变量处理未测量混杂,可作为与本文潜因子方案的对比基准。值得读的原因是:理解了该文的识别假设后,可将(B1)中proximal思想的比较具体化。 - Fan & Li (2001) "Variable Selection via Nonconcave Penalized Likelihood":本文中介选择一致性的理论核心引用此文的Oracle性质。若想严格检验本文选择一致性的证明条件,需要重温此文的正则化渐近理论,这是立即可做问题(A2)的基础。 - Tchetgen Tchetgen et al. (2020) "An Introduction to Proximal Causal Inference":如前所述,这是中期问题(B1)的必读文献,也是理解潜变量法替代路径的入口。
六、延伸思考与练习¶
- 假设扰动:若修改“潜因子维度 \(d\) 固定且已知”这一假设为 \(d\) 未知且可能随 \(n\) 增长(如 \(d = O(\exp(\sqrt{\log n}))\)),结论会如何变化?技术上需要处理因子数的选择及高维奇异值分解的收敛性,可能落入(C)的范畴——缺“大规模因子模型的推断理论”(涉及随机矩阵理论中的spiked模型,但您熟悉随机矩阵理论,可以列为中期有待加强的)。实际上,随机矩阵理论属于您primary interests中的high-dimensional statistics(随机矩阵理论),所以这可能是个可做的方向,但本文未涉及时变因子的高维扩展,技术上需要处理动态因子的非参数估计,暂时仍建议归为中期(需要结合您已有的随机矩阵知识与动态因子模型文献)。
- 开放问题:
- 作者提出可考虑时变处理?!(原文末提及)——允许处理 \(A_{it}\) 也有滞后效应。这可能引入新的识别挑战(如何处理时滞混杂与静态个体的依赖关系)。
- 当 \(p\) 远大于 \(n\) 时,中介选择的相合性需要更强的稀疏性条件,但与允许非稀疏中介的精神矛盾。能否在联合回归框架下放松这一矛盾?可能需引入“变量聚类+组稀疏”的中介分组假设。
- 理解检测题:考虑一个简化设定:假设无观测协变量 \(X\),处理 \(A_i\) 在时间上不变(仅个体间变异),中介 \(M_{it}\) 和结果 \(Y_{it}\) 按本文模型生成,但潜因子 \(\eta_i\) 也不随时间变化(仅为个体固定效应)。请证明此时本文的估计量退化为传统的“个体固定效应模型”,并写出此时 \(\beta_{ij}(t)\) 的识别公式(与标准固定效应中介分析的关系)。这能检验是否真正理解潜因子在这里如何吸收未测量混杂以及为什么需要时变性。
Maintained by 陈星宇 · Homepage · Source on GitHub