Decomposition of longitudinal disparities: an application to the fetal growth-singletons study¶
作者: Sang Kyu Lee, Seonjin Kim, Mi-Ok Kim, Katherine L Grantz, Hyokyoung G Hong
来源: Biostatistics
主题: 流行病学
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 健康差异分解旨在将不同人口组(如种族/族裔)之间在健康结果上的观测差异,拆解为可由观测协变量解释的部分与不可解释的残差部分。其根本统计问题是:组间差异中,多少归因于协变量分布的不均衡,多少归因于协变量对结果的作用强度(回归系数)在不同组间的结构性不同?当前该方向在横截面设定下已有成熟框架(Oaxaca-Blinder, Peters-Belson),但在纵向设定下如何刻画差异的动态演变,以及如何将特定关键变量(modifier)的交互贡献从笼统的“已解释差异”中剥离出来,仍是正在发展的前沿。
发展脉络 - 奠基工作:Oaxaca-Blinder 分解(经济学,工资差异)与 Peters-Belson (PB) 方法(流行病学,健康差异)。它们将组间差异 \(\Delta\) 分为“已解释”(协变量分布差异)与“未解释”(系数差异)两部分。 - 主要进展: - PB 方法的扩展:Li et al. (2014) [11] 将 PB 扩展至逻辑回归与复杂调查数据下的多组比较;Hong et al. (2024) [16] 提出分位回归分解(QRD),处理异方差分布下不同分位数上的差异,指出“协变量对差异的解释力度随结果分位数变化”。 - 因果视角的引入:Jackson & VanderWeele (2017) [6] 指出传统分解缺乏因果干预解释,并提出一种控制混杂但保留种族与混杂关联的新型分解,试图弥合 Oaxaca-Blinder 与因果中介分析的鸿沟。 - 纵向与动态建模:Kim et al. (2021) [15] 提出预测性变系数纵向模型,刻画协变量效应随时间的动态演变;Grantz et al. (2018) [8] 建立胎儿生长速度百分位模型,为纵向差异分析提供了轨迹基准。 - 当前 frontier:如何在纵向轨迹中分解差异,并区分与特定 modifier 有关和无关的时间动态模式。 - 本文的位置:将横截面 PB 分解推广至纵向,并引入 modifier 交互的三分法,取代传统的二分法。
子线索聚类 1. 因果与中介视角的分解:Jackson & VanderWeele (2017) [6] 试图给 Oaxaca-Blinder 赋予因果干预含义,探讨如何通过干预目标变量(如教育)来缩减差异,而非简单抹平混杂。 2. 回归模型的 PB 扩展:Li et al. (2014) [11](多组/逻辑/调查数据)、Hong et al. (2024) [16](分位数/异方差),这条线索在放宽 PB 的模型设定与数据结构。 3. 纵向轨迹建模:Kim et al. (2021) [15]、Grantz et al. (2018) [8] 等,这条线索在建立纵向变系数与生长速度模型,为差异的动态评估提供条件均值/分位数的估计基础。
核心追问与瓶颈 1. 如何赋予分解以因果解释? 传统 PB 的“已解释”部分并不对应任何明确的因果干预,Jackson & VanderWeele [6] 试图解决,但在纵向时间序列上仍缺乏对应框架。 2. 如何处理纵向差异的动态性? 协变量分布与系数的作用随时间 \(t\) 变化,横截面分解无法捕捉轨迹差异的源头演变。 3. 如何剥离特定 modifier 的贡献? 传统 PB 将所有协变量打包为“已解释”,若某关键变量(如 BMI)与其它协变量有强交互,其贡献被淹没,无法单独追踪该变量相关的差异时间模式。
⚠️ 作者的 framing - 作者的说法:作者将缺口 frame 为“传统 PB 将所有协变量合并为一个‘已解释’成分,掩盖了特定 modifier 与其它协变量交互的复杂时间模式”。通过引入三分法(条件分布差异、modifier 分布及交互差异、未解释差异),本文声称能“分别刻画与 modifier 无关和有关的时间模式”。 - 被淡化或回避的路线:作者淡化了纵向因果中介分析这条路线。Jackson & VanderWeele [6] 已经指出 PB 与中介分析的桥梁,在纵向设定下,modifier 实际上扮演了中介变量的角色,但本文仍在 PB 的回归预测范式内操作,未采用潜在结果框架去严格定义 modifier 的路径效应。 - 明显该引但缺失的文献:纵向因果中介分析(longitudinal mediation / time-varying mediation)与 marginal structural models 的文献。如果 modifier 是时间依赖的,PB 的条件分布加权将面临时间依赖混杂,本文未引用处理纵向因果识别的标配文献(如 VanderWeele 的 longitudinal mediation 工作)。
张力 未见明显对立引用。但存在隐性张力:Jackson & VanderWeele [6] 强调 PB 缺乏因果识别必须引入混杂控制,而本文的纵向 PB 扩展依然沿用了回归预测范式,未正面回应 [6] 提出的“因果解释缺失”批评。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代 - \(t\):时间指标(如孕周 gestational age)。 - \(Y(t)\):时间 \(t\) 的纵向结果变量(如胎儿估计体重 EFW)。 - \(G\):组别指示变量(如种族/族裔,\(G=1\) 为优势组/参考组,\(G=0\) 为劣势组/目标组)。 - \(M\):Modifier 变量(本文特指一个关键解释变量,如母体孕前 BMI,假定其与其它协变量有交互)。 - \(X\):其它协变量向量(如母体年龄、产次等)。 - \(\mu(t, g, x, m) = E[Y(t) | G=g, X=x, M=m]\):在给定组别、协变量与 modifier 下,结果在时间 \(t\) 的条件期望。 - \(f(X, M | G)\):协变量与 modifier 在组 \(G\) 下的联合分布。 - 可观测数据:对每个个体 \(i\),观测到 \((Y_i(t_{ij}), G_i, M_i, X_i)\),其中 \(t_{ij}\) 是第 \(i\) 个个体的第 \(j\) 个测量时间。\(M_i, X_i\) 通常为基线测量。 - 不可观测 / 需假设识别的量:跨组的反事实预测——若劣势组 \(G=0\) 的个体拥有优势组 \(G=1\) 的回归系数,其结果期望是什么?这需要假设系数的可移植性或无交互修改。
第二步:最小内核 剥掉纵向变系数与非参数估计的加壳,核心数学内核是一个基于条件分布加权的代数分解恒等式。
考虑横截面(固定 \(t\))、线性模型且只有 \(M\) 与 \(X\) 交互的最简特例: \(\mu(g, x, m) = \beta_0 + \beta_G g + \beta_X x + \beta_M m + \beta_{XM} xm\)
组间差异 \(\Delta = E[Y|G=1] - E[Y|G=0]\)。 利用全期望公式与参考组 \(G=1\) 的系数,传统 PB 将 \(\Delta\) 分为: \(\Delta = \underbrace{E[\mu(1, X, M)|G=1] - E[\mu(1, X, M)|G=0]}_{\text{已解释}} + \underbrace{E[\mu(0, X, M)|G=0] - E[\mu(1, X, M)|G=0]}_{\text{未解释}}\)
本文的最小内核是对“已解释”部分做二次拆解。利用联合分布分解 \(f(X, M|G) = f(X|M, G)f(M|G)\): \(E[\mu(1, X, M)|G=1] - E[\mu(1, X, M)|G=0]\) \(= \int \mu(1, x, m) f(x, m|1) dm dx - \int \mu(1, x, m) f(x, m|0) dm dx\) \(= \int \int \mu(1, x, m) [f(x|m, 1) - f(x|m, 0)] f(m|1) dm dx\) (Component i) \(+ \int \int \mu(1, x, m) f(x|m, 0) [f(m|1) - f(m|0)] dm dx\) (Component ii)
- Component (i):在给定 \(M\) 下,\(X\) 条件分布差异的贡献,加权以 \(G=1\) 的 \(M\) 边缘分布。它衡量了“如果两组的 \(M\) 分布相同,仅因 \(X\) 随 \(M\) 变化的条件分布不同而造成的差异”。
- Component (ii):\(M\) 边缘分布差异的贡献,加上 \(M\) 与 \(X\) 交互项的贡献(因为 \(\mu\) 中含 \(xm\),即使 \(f(x|m, 0)\) 相同,\(m\) 的变化也会通过交互项改变期望)。它衡量了“与 modifier \(M\) 直接相关及通过交互相关的差异”。
推广至纵向,只需让 \(\beta\) 变成时间的函数 \(\beta(t)\),\(\Delta(t)\)、Component (i) \(C_1(t)\) 与 Component (ii) \(C_2(t)\) 均成为时间轨迹。论文的全部技术展开均围绕如何非参数/半参数地估计 \(C_1(t), C_2(t)\) 与未解释成分 \(C_3(t)\),并提取其时间模式。
三、这篇论文做了什么¶
三句话 ① 研究了纵向设定下不同人口组间健康差异随时间演变的动态分解问题;② 核心方法是将传统 Peters-Belson 分解中的“已解释差异”利用条件分布加权拆为与 modifier 交互无关(Component i)和有关(Component ii)的两部分,并在变系数纵向模型下进行估计;③ 主要结论是该三分法能揭示被传统二分法掩盖的、与特定 modifier(如母体 BMI)相关或不相关的差异时间模式,并在胎儿生长数据中实证了种族/族裔差异的动态源头。
关键设定与假设 - 设定:纵向结果 \(Y(t)\),组别 \(G\),基线 modifier \(M\) 与协变量 \(X\)。 - 模型假设:采用 Kim et al. (2021) [15] 的预测性变系数广义线性模型,系数随时间 \(t\) 变化,允许 \(M\) 与 \(X\) 的交互效应随时间演变。 - 参考组假设:沿用 PB 的核心假设,以优势组 \(G=1\) 的回归结构(系数)作为“标准”计算反事实预测。这隐含了“若劣势组具有优势组的系数,其结果会如何”的假设,且未解释成分 \(C_3(t)\) 完全归因于系数差异。 - Modifier 交互假设:模型明确包含 \(M\) 与 \(X\) 的交互项,这是 Component (i) 与 (ii) 能有意义拆解的前提;若无交互,Component (ii) 退化为纯粹的 \(M\) 边缘分布差异。 - 与已有文献对比:相比横截面 PB [11] 与 QRD [16],放宽了静态假设;相比 Jackson & VanderWeele [6],保留了 PB 的回归预测范式,未引入因果图与混杂控制假设,但细化了协变量贡献的拆解。
主要结果 - 分解恒等式:\(\Delta(t) = C_1(t) + C_2(t) + C_3(t)\),其中: - \(C_1(t)\):在公共 \(M\) 分布下 \(X\) 条件分布差异的贡献; - \(C_2(t)\):\(M\) 分布差异及其与 \(X\) 交互的联合贡献; - \(C_3(t)\):未解释的系数结构差异。 - 估计步骤: 1. 在参考组 \(G=1\) 上拟合变系数纵向模型,得到 \(\hat{\mu}(t, 1, x, m)\); 2. 估计 \(f(X|M, G)\) 与 \(f(M|G)\)(文中采用经验分布或核平滑); 3. 通过积分/加权平均计算 \(\hat{C}_1(t), \hat{C}_2(t), \hat{C}_3(t)\) 的轨迹。 - 推断:使用 Bootstrap 构建各成分轨迹的同步置信带,检验特定时间点上各成分是否显著异于零。
证明路线与技术技巧 本文属方法论与应用型,核心“证明”是代数恒等式的推导与估计量的渐近性质。 - 整体路线: 1. 写出组间差异 \(\Delta(t)\) 的观测定义; 2. 引入参考组反事实期望,将 \(\Delta(t)\) 拆为已解释与未解释; 3. 对已解释部分的联合分布 \(f(X, M|G)\) 应用条件概率公式 \(f(X|M,G)f(M|G)\); 4. 代数重组,将积分拆为 \(M\) 公共权重下的 \(X\) 条件分布差(\(C_1\))与 \(M\) 边缘分布差乘以条件期望(\(C_2\)); 5. 将横截面公式推广至变系数 \(\beta(t)\) 的纵向轨迹。 - 关键跳跃点:从传统 PB 的“协变量向量整体分布差异”跳跃到“基于单一 modifier 的条件分布拆解”。难点在于当模型含 \(M \times X\) 交互项时,\(C_2(t)\) 不仅包含 \(M\) 的主效应分布差异,还包含交互项的分布差异,代数展开需精确保留交互项的积分贡献,否则拆解不完备。 - 技术技巧: - 变系数纵向建模:借用 Kim et al. (2021) [15] 的非参数核与样条混合估计,处理 \(\beta(t)\) 的动态平滑。 - 条件分布加权:用经验分布或核密度估计 \(f(X|M, G)\),避免了参数化分布假设。 - Bootstrap 同步置信带:处理轨迹估计的逐点与整体推断。
真实例子与应用 - 数据:NICHD Fetal Growth Studies-Singletons cohort [2, 7, 8]。包含 1733 名低风险单胎妊娠孕妇,4个种族/族裔组(非 Hispanic 白人、黑人、 Hispanic、亚裔),纵向超声测量 EFW(孕周 16-41)。 - 怎么用上去:以白人组为参考组 \(G=1\),母体孕前 BMI 为 modifier \(M\),其它母体特征(年龄、产次等)为 \(X\)。拟合变系数模型,计算白人 vs. 黑人、白人 vs. Hispanic、白人 vs. 亚裔的 \(\Delta(t), C_1(t), C_2(t), C_3(t)\)。 - 得到什么结果:展示了胎儿生长差异在孕中晚期逐渐扩大的动态模式。关键发现:与 BMI 分布及交互相关的 \(C_2(t)\) 在特定时间段解释了相当比例的差异,而与 BMI 无关的 \(X\) 条件分布差异 \(C_1(t)\) 呈现不同的时间轨迹。未解释成分 \(C_3(t)\) 仍占主导,提示种族间的结构性系数差异(可能对应遗传 [9, 10] 或未观测环境因素)是胎儿生长差异的核心源头。 - 想说明什么:验证三分法的实证价值——若只看总“已解释”成分,会掩盖 BMI 相关差异与其它协变量相关差异在孕周上的不同演变节奏;分离 \(C_2(t)\) 有助于精准定位“干预 BMI 分布能缩减多少差异、在哪个孕周最有效”。
🔎 结论是否比证明窄 本文的分解恒等式在任意回归模型下代数成立,但估计与推断的渐近保证严重依赖变系数模型的正确设定与条件分布的平滑估计。作者在陈述“三分法能分别刻画时间模式”时,实质上假设了模型已正确捕捉 \(M \times X\) 的交互随时间变化,若模型欠拟合(如遗漏高阶交互),\(C_1\) 与 \(C_2\) 的拆解将包含模型设定误差,此时“与 modifier 有关/无关”的因果/机制解释将不再严格成立。
四、开放问题(点到为止)¶
- 纵向因果中介的识别统一:本文的 modifier \(M\) 在结构上等价于因果中介分析中的中介变量,\(C_2(t)\) 类似于自然间接效应(NIE)。但 PB 范式未引入潜在结果与混杂控制假设。开放问题:在纵向设定下,若赋予 \(C_1(t), C_2(t)\) 因果干预解释,需要引入哪些 sequential exchangeability 与 positivity 假设?(扎根点:Jackson & VanderWeele [6] 对 PB 缺乏因果识别的批评,及本文 intro 回避了 longitudinal mediation 文献)。
- 半参数效率界与 Debiased 估计:当前估计依赖变系数模型与条件分布的非参数/核平滑代入,存在 nuisance parameter 估计的收敛速率对 \(\hat{C}_k(t)\) 渐近分布的污染。开放问题:在非参数模型下,\(C_1(t), C_2(t)\) 的 semiparametric efficiency bound 是什么?能否通过 Higher-Order Influence Functions (HOIF) 或 cross-fitting 构造 debiased 估计器,以避免条件分布估计的偏倚?(扎根点:研究者 arsenal 中的 HOIF 与 semiparametric theory)。
- 时间依赖 Modifier:本文设定 \(M\) 为基线变量(孕前 BMI)。若 modifier 是时间依赖的 \(M(t)\)(如孕期增重速率),分解公式将面临时间依赖混杂(\(M(t)\) 受前期 \(Y(t-1)\) 反馈影响)。开放问题:如何将三分法推广至 time-varying modifier,并结合 g-formula 或 marginal structural models 进行识别?(扎根点:本文方法仅处理基线 \(M\) 的局限,及研究者 longitudinal causal inference 的 primary interest)。
Maintained by 陈星宇 · Homepage · Source on GitHub