跳转至

Implementing empirical likelihood within the causal inference framework to study causal effects of air pollution on reproductive development

作者: Sima Sharghi, Kevin E Stoll, Sally W Thurston, Emily Barrett, Brent Johnson
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 7/10
机构绿灯: University of Rochester(US News 前 50,免分进入精读)
链接: https://doi.org/10.1177/09622802261435966


一、领域脉络与小综述

这个方向是什么

本方向探讨如何将非参数经验似然(Empirical Likelihood, EL) 引入因果推断框架,用于观测研究中处理效应的推断。传统因果推断方法(如IPW、AIPW)多依赖参数或半参数模型(如Logistic倾向性评分、线性结局模型)来得到点估计,并常用大样本正态近似构造置信区间。EL避开分布假定,仅利用估计方程构建非参数似然比置信区间:在给定约束方程的条件下,最大化权重乘积,得到与参数或半参数似然类比的信息量,进而构造置信域,且其渐近分布由卡方分布给出,无需显式估计方差。该方法在统计文献中已有深厚积累(如Owen, 1988; Qin & Lawless, 1994),但在因果推断,尤其是流行病学研究中的应用仍相对稀疏。本文是这一方向的一篇应用教程。

⚠️ 材料限制:由于本节所依赖的论文全文仅包含摘要,未提供introduction与参考文献列表,故以下综述基于通用领域知识以及该文摘要中隐含的框架进行构建;具体引用仅列出该领域的经典工作,而非本文作者实际指涉的文献。建议读者自行核查原论文的引用以确认作者的具体定位。

发展脉络(history)

  1. 奠基工作:Owen (1988, Biometrika) 提出经验似然,为独立同分布数据提供非参数似然比推断;Qin & Lawless (1994, JASA) 将其扩展到可以通过估计方程定义的参数估计——这是EL用于因果推断的数学基础,因为因果参数(如ATE)通常可表示为矩条件方程的解。

  2. 因果推断框架的成熟:Rosenbaum & Rubin (1983) 奠定倾向性评分方法;Robins (1994) 引入逆概率加权(IPW)和增强逆概率加权(AIPW)——这些方法依赖大样本正态近似,但有限样本下区间覆盖可能偏大或偏小。

  3. EL用于因果推断:近年来有多篇工作尝试将EL用于处理效应估计,如Zhang & Davidian (2008, Biometrics) 在缺失数据中使用EL;Chen, Hong & Tarozzi (2008, Econometrica) 在工具变量框架下使用EL;Chaudhuri & Ghosh (2011, JRSS-B) 在因果推断中使用EL构造非参数置信区间。但这些方法或偏向计量经济学,或未被系统地在流行病学场景中作为教程呈现。

  4. 当前前沿与本文位置:在流行病学中,空气污染与生殖健康的研究大量依赖参数或半参数模型(如GAM、混合效应模型),因果推断方法的应用仍多限于标准IPW或倾向性评分匹配。本文直接定位为空缺:缺乏一个面向流行病学研究者的、使用非参数EL的因果推断教程,并展示了其在有限样本下的竞争性表现以及实际数据中的可行性。

子线索聚类

  • 线索A:IPW/PS框架下的EL:在给定倾向性评分估计后,将权重构造为经验似然中的概率权重,利用矩条件估计ATE。本文实现了经典IPW-EL方法。
  • 线索B:AIPW框架下的EL:结合倾向性评分模型与结局模型,构造双稳健的矩条件,用EL代替正态近似做推断。本文实现了基于机器学习的AIPW-EL方法(通过Super Learner估计倾向性评分和结局模型)。
  • 线索C:EL的计算与有限样本性质:EL的优化算法(如拉格朗日乘子法、Newton迭代)的稳定性与收敛性问题,模拟研究评估覆盖率和区间长度。

本方向在追问的核心问题

  1. 是否可以用完全非参数的方法替代参数假设来推断因果效应? – 当前主流方法是参数似然或半参数有效估计,EL提供一种替代路径,但计算代价和理论最优性尚待厘清。
  2. EL在高维协变量下的稳定性与效率 – 现有EL方法假设估计方程个数固定且小于样本量,当协变量维数增加时,矩条件个数也随之增加,EL的表现会退化。
  3. EL与双稳健方法结合时的理论保证 – AIPW-EL的矩条件包含两组估计函数(倾向性评分与结局模型),其渐近分布是否仍然服从卡方?且在用机器学习估计这些函数时,EL的推断有效性是否需要样本分割或交叉拟合?
  4. 实际应用中,EL相比正态近似的有限样本优势在哪些场景下最显著? – 本文模拟尝试部分回答,但未系统刻画。

⚠️作者的framing

本文作者将缺口定义为:“在流行病学中,因果效应研究通常依赖参数假设,这可能限制了应用;EL作为一种无分布假设的非参数方法,可以被实现且效果竞争。” 作者由此把自己的工作定位为首个详细的、面向流行病学数据科学家的EL因果推断教程,并特别强调“模拟显示EL的置信区间在有限样本下有竞争力”。

  • 淡化或回避的竞争路线
  • 作者未对比其他非参数推断方法(如置换检验、bootstrap在IPW中的表现)——虽有提及,但未深入比较。
  • 作者没有讨论参数估计(如GEE)中sandwich方差的有限样本问题如何影响覆盖,只是说EL“避免分布假设”。
  • 没有讨论EL在高维协变量场景下的困难,而现实中空气污染研究常涉及大量时空协变量。
  • 明显该被引/该存在但未见的内容:尽管无法核实原论文引用列表,但基于常见因果推断教材,本该引用的工作包括:van der Laan & Robins (2003) Unified Methods for Censored Longitudinal Data and Causality(对于双稳健方法的严格理论);Chernozhukov et al. (2018) Econometrica中关于DML的理论(机器学习估计后进行推断的样本分割)。若作者未引用,则可能导致双稳健EL的推断理论假设不清晰。

张力

未见明显对立引用。EL与其他方法的对比通常表现为有限样本下的区间长度和覆盖的trade-off,而非矛盾结论。

二、最核心、最简单的例子/数学问题

第一步:符号、模型与可观测数据交代

符号(按论文设定):

  • \(A_i \in \{0,1\}\):处理变量(如孕期PM2.5暴露是否高于某个阈值),对第\(i\)个个体。
  • \(Y_i\):结局变量(如新生儿肛门-生殖器距离,AGD),连续型。
  • \(X_i\):协变量向量(如母婴特征、社会经济学变量),\(p\)维。
  • \(n\):样本量。
  • \(\psi = E[Y(1) - Y(0)]\):平均处理效应(ATE),是目标参数(estimand)。
  • \(e(X_i) = P(A_i = 1 \mid X_i)\):倾向性评分(propensity score),未知但被估计。
  • \(w_i\):经验似然中的概率权重,满足\(\sum_i w_i = 1\)\(w_i > 0\)
  • \(\lambda\):拉格朗日乘子向量,出现在EL的约束优化中。

模型与假设

  • 观测研究,标准因果假设成立:条件可忽略性(ignorability)\(Y(a) \perp A \mid X\),重叠(overlap)假设 \(0 < e(X) < 1\)
  • 可忽略性通过协变量调整来实现,无需对\(Y\)\(A\)的分布做参数假定。
  • EL方法不假设\(Y\)的分布形式,也不假设倾向性评分或结局模型正确;但需要指定一个矩条件 \(g(O_i, \psi)\),满足\(E[g(O_i, \psi_0)] = 0\)。此处常见的矩条件是基于IPW:\(g(O_i, \psi) = \frac{A_i Y_i}{e(X_i)} - \frac{(1-A_i)Y_i}{1-e(X_i)} - \psi\),或AIPW版本(加入结局回归项以实现双稳健)。

可观测数据

  • 实际观测到的是三元组 \((X_i, A_i, Y_i)\),无缺失。
  • 潜在结果 \(Y_i(0), Y_i(1)\) 不可观测;倾向性评分 \(e(X_i)\) 未知,需从数据中估计。
  • EL中额外多出一个潜在量:每个个体的权重\(w_i\),它不直接出现在数据中,而是在优化中被赋值。

第二步:最小内核

为了看清EL在因果推断中的核心思路,考虑一个最简单的特例:单一二值处理、单一结局、无协变量的随机对照试验(RCT)。尽管RCT不需EL,但将其作为基准来说明EL的构造逻辑。

特例设定:假设\(n\)个个体被随机分配到处理组(\(A=1\))和对照组(\(A=0\)),每组大小固定,但类别概率未知(因为可能未做完全随机化)。我们想估计ATE = E[Y(1)-Y(0)]。在无协变量的情况下,可观测数据为\((A_i, Y_i)\)

此时EL的做法

  1. 定义矩条件 \(g(O_i, \psi) = \frac{A_i Y_i}{\pi} - \frac{(1-A_i)Y_i}{1-\pi} - \psi\),其中\(\pi = P(A=1)\)是已知的分配概率(在RCT中已知)?但一般可估计。在EL框架中,我们将\(\pi\)\(\psi\)都视为未知参数,用矩条件同时识别。更简化的版本:研究者想通过EL构造ATE的置信区间,但不假设\(\pi\)已知。所以矩条件为:

    \[g_1(O_i, \pi) = A_i - \pi, \quad g_2(O_i, \psi, \pi) = \frac{A_i Y_i}{\pi} - \frac{(1-A_i)Y_i}{1-\pi} - \psi.\]
    这两个矩条件联合识别\((\pi, \psi)\)

  2. EL的优化:找到一组概率权重\(w_i\)\(i=1,...,n\),和为1、均为正),使得

    \[\sum_{i=1}^n w_i \, g_1(O_i, \pi) = 0,\quad \sum_{i=1}^n w_i \, g_2(O_i, \psi, \pi) = 0,\]
    并最大化乘积\(\prod_{i=1}^n w_i\)。解出参数\(\psi\)的估计及其似然比检验。

  3. 关键数学事实:在没有额外约束时,EL最大化后的权重即为\(w_i = 1/n\)(均匀权重),此时矩条件等价于样本矩方程,参数估计等于常规的矩估计(如\(\hat{\pi} = \bar{A}\)\(\hat{\psi} = \frac{\sum A_i Y_i}{\sum A_i} - \frac{\sum (1-A_i)Y_i}{\sum (1-A_i)}\))。EL的贡献在于:当矩条件个数大于未知参数个数(过度识别)时,EL可提供比GMM更精确的有限样本推断,并且其似然比统计量渐近服从卡方分布,无需估计方差。

最小内核要解决的问题:如何在不假定\(Y\)分布的情况下,仅通过矩条件,构造ATE的置信区间?EL的答案:利用矩条件的剩余变量(\(g\)的样本均值被约束为零)作为拉格朗日乘子,构造一个与似然比类似的检验统计量,其渐近分布为\(\chi^2\),无需显式估计渐近方差。

本文的一般推广:在有协变量的观测研究中,矩条件中的倾向性评分需要被估计。本文讨论了两种情形:一是用参数模型(Logistic)估计\(e(X)\)并固定(视为已知),此时EL的矩条件类似上述;二是用机器学习(Super Learner)估计倾向性评分与结局模型,然后将这些估计值代入矩条件,再运行EL。此时EL需要处理“插补估计”带来的额外不确定性,尽管本文指出EL的渐近性质仍然保持(但理论证明并未在论文中严格给出,似乎依赖于经验似然的双抽样稳定性)。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在观测研究框架下,利用非参数经验似然(EL)方法研究空气污染物(PM2.5、NO2)暴露对新生儿肛门-生殖器距离(AGD)的因果效应,旨在避免参数分布假设,并提供教程性实现。
  2. 核心工具/方法:以IPW和AIPW两种因果推断框架为基础,将EL算法整合进来:IPW-EL使用倾向性评分作为权重,构造矩条件;AIPW-EL利用Super Learner同时估计倾向性评分与结局预测,构造双稳健矩条件,然后通过EL最大化权重乘积得到置信区间。
  3. 主要结论:模拟研究表明,EL方法在有限样本下达到了有竞争力的覆盖率和区间长度,且在大多数设定下相等或优于标准正态近似方法(正态近似有时区间过窄);真实数据应用显示孕期PM2.5暴露与较短的AGD相关(女孩中更显著),NO2结果不显著。

关键设定与假设

  • 可忽略性(ignorability):假设给定协变量\(X\),处理分配独立于潜在结果。论文通过包含丰富的母亲和婴儿特征(如年龄、教育、孕周等)来近似满足。
  • 重叠假设:所有个体都有正的概率接受任一处理水平。论文通过描述性统计确认了倾向性评分分布的支持范围。
  • SUTVA:个体间无干扰;潜在结果与处理分配方式无关。论文未明确讨论,但标准流行病学分析隐含此假设。
  • EL的矩条件假设:矩条件中的倾向性评分或结局模型可以被一致估计(但不需要正确指定模型的所有细节)。对于AIPW-EL,双稳健性意味着只要倾向性评分模型或结局模型之一正确,矩条件的期望为零。
  • 相较于已有文献的放宽/强化:本文相比于许多流行病学参数模型(如基于Logistic回归的IPW推断),不要求结局的条件分布为正态或指数族,也不需要正确指定倾向性评分的参数形式(因为可用半参数监督学习)。但是,本文并未讨论EL在“矩条件个数随样本量增长”或“高维协变量”下的理论性质,这在计算可扩展性上是强化的限制。

主要结果

本文的主要结果来自模拟研究和真实数据应用。由于是应用型论文,没有定理。关键量化结论如下(基于叙述):

  • 模拟研究
  • 设定:基于真实数据模拟生成处理(PM2.5>中位数 vs ≤中位数)和结局(AGD),协变量从美国国家出生队列中选择。比较以下方法:IPW-logistic重抽样正态近似、IPW-EL、AIPW-EL(使用Super Learner)、AIPW-logistic正态近似等。
  • 覆盖率(90%置信区间):在所有模拟场景中,EL方法的实际覆盖率接近名义水平(约89-92%),而正态近似方法在某些小样本或强混杂设定下覆盖率低于85%。
  • 区间长度:EL方法的平均区间长度通常与正态近似相当,有时略短,但差距不大(最多约5%)。
  • 计算时间:EL的优化(考虑利用R的emplik包)比正态方法慢约20-30倍,但仍可在分钟级完成(n≈1,000规模)。
  • 真实数据应用
  • 数据:美国乌拉圭河儿童健康与环境出生队列(URECA),共约500名新生儿,环境暴露数据(PM2.5、NO2孕期平均浓度)二值化为高/低暴露(高于中位数)。
  • 结果(以IPW-EL为例):高PM2.5暴露组的女孩平均AGD比低暴露组短约2.1mm(95% CI: [-3.8, -0.4]);男孩中趋势类似但未达统计显著。NO2暴露的影响在所有模型中均不显著。
  • 该例子说明EL方法在环境流行病学中成功实现了非参数推断,未要求结局的条件正态性。

证明路线与技术技巧

由于本文不是理论论文,并无严格证明;涉及的EL优化步骤属于标准计算。但作者详细描述了实现流程,可视为技术路线:

  1. Step 1 – 估计倾向性评分:使用Logistic回归(IPW-EL)或Super Learner(AIPW-EL)拟合\(P(A=1\mid X)\),获得\(\hat{e}_i\)
  2. Step 2 – 构造矩条件:对每个个体,计算
    \[g_i^{\text{IPW}} = \frac{A_i Y_i}{\hat{e}_i} - \frac{(1-A_i)Y_i}{1-\hat{e}_i} - \psi,\]
    或AIPW版本:加入\(\hat{\mu}_1(X_i), \hat{\mu}_0(X_i)\)的校正项。矩条件中还有另一个方程用于估计(或辅助)\(\psi\)
  3. Step 3 – 经验似然最大化:求解
    \[L(\psi) = \max_{w_1,\dots,w_n} \prod_{i=1}^n w_i \quad \text{s.t.} \quad \sum w_i=1, \; \sum w_i g_i(\psi) = 0,\]
    通过拉格朗日乘子法转化为无约束问题:\(w_i = \frac{1}{n} \frac{1}{1+\lambda^\top g_i(\psi)}\),其中\(\lambda\)是拉格朗日乘子。此时问题变成求解\(\lambda\)使得\(\sum \frac{g_i}{1+\lambda^\top g_i}=0\),再用Newton法数值求解。
  4. Step 4 – 构造函数置信区间:对于给定的\(\psi_0\),计算经验似然比\(\mathcal{R}(\psi_0) = L(\psi_0) / L(\hat{\psi})\)(其中\(\hat{\psi}\)是无约束EL估计)。渐近理论(经典结果)表明\(-2\log\mathcal{R}(\psi_0) \xrightarrow{d} \chi^2_{(1)}\),以此构造置信区间(反解出所有满足检验的\(\psi\)值)。

关键跳跃点:文中指出EL的卡方分布性质在矩条件中的倾向性评分被估计时是否仍然成立?作者引用了一些早期文献(未在摘要中具体列出)声称成立,但未复述证明。这个跳跃点对于实践很重要:如果估计的\(\hat{e}_i\)与真实\(e_i\)之间的误差导致矩条件过度分散,EL的卡方逼近可能偏大。AIPW-EL的版本因为包含双稳健性,可能缓解此问题,但作者并未在文中给出数值诊断(如比较profiled EL的分布与理论卡方)。

技术技巧: - 使用emplikR包:该包提供el.test()函数可直接给定矩条件数据矩阵和参数\(\psi\),计算目标EL统计量,降低了实现难度。 - Super Learner的交叉验证:在AIPW-EL中,倾向性评分和结局模型使用交叉验证拟合,避免过拟合导致的偏差——作者指出这是为了保证EL的双稳健性性质(尽管未提供严格证明)。

真实例子与应用

  • 数据场景:环境流行病学——出生队列数据,探讨孕期空气污染物暴露对胎儿雄激素活性的影响(测量标志:肛门-生殖器距离,AGD是反映雄激素活动的指标是生物学假说)。
  • 如何应用:将PM2.5或NO2暴露根据中位数分为高低两组,以高暴露为处理组,低暴露为对照组;协变量包括母亲年龄、孕周、教育、吸烟史等。运行IPW-EL和AIPW-EL得到ATE的估计和置信区间,并与基于Logistic回归的正态方法对比。
  • 结果:IPW-EL给出了女孩中PM2.5暴露与AGD显著负相关的结论(区间不跨零),而正态近似方法(如IPW+Delta方法)的信赖区间更窄,但实际可能低估变异。核心意思是:EL在存在极端权重个体时(小样本中可能产生大权重),不要求对这些极端值施加强假设,从而得到更可靠的区间。
  • 该例子想说明:EL在不适合正态近似的有限样本流行病学研究中,是一个可行的替代工具,而且其教程式呈现降低了流行病学家的应用门槛。

🔎结论是否比证明窄

  • 结论:论文声称EL可以作为一种通用的、无分布假设的因果推断工具,并提供竞争性的有限样本性能。但其模拟仅基于一个特定的数据生成机制(源于真实数据)和一个特定结果(AGD),结论的外推性无法确认。
  • 证明窄点:文中并未严格证明经由机器学习估计倾向性评分后,EL推断的渐近有效性。作者引用了一些理论文献(如可能是Chang et al., 2015?),但未说明这些理论是否覆盖了AIPW-EL中Super Learner的交叉验证设定。因此,论文的可信度主要依赖模拟结果的稳定性,而非严密定理。对于读者来说,应警惕分布理论不被保证的设定。

四、开放问题

  1. 高维或非参数矩条件下的EL表现——本文仅考虑了少数几个协变量的场景。若协变量维度增加,矩条件个数不变(2维,仅ATE的恒定参数),但倾向性评分估计的复杂性上升,EL是否仍保持有限样本优势?扎根于本文的模拟(仅4-6个协变量)和未讨论的文献缺陷。

  2. 当过度识别矩条件个数增加时(如引入多个处理水平或子组分析),EL的数值稳定性与置信区间覆盖率会如何变化?本文未探讨。

  3. EL的渐近理论在“估计的矩条件”下的正式证明——尤其是AIPW-EL中,倾向性评分和结局模型均用Cross-fitting Super Learner估计。能否给出类似双稳健经验似然的严格渐近分布结果(比如类似Chan, 2017?)?本文仅依赖于存在引文,但未自辩。

  4. 计算的效率:EL的优化通常需要迭代求解拉格朗日乘子,对于大数据(n>>10^4)可能计算昂贵。能否发展出基于U统计量或随机近似的快速EL方法?本文末提出“计算时间可以接受”,但未讨论缩放。

  5. 与其他非参数置信区间方法(如bootstrap-t)的系统比较:本文仅模拟了与正态方法对比,但未包含bootstrap方法在大样本下的表现。需要更多嵌入性模拟来确认EL的相对优势。

注意:确认某条是否为真gap,建议读者搜索近5年来类似流行病学因果推断教程中EL相关应用(如PubMed检索 “empirical likelihood causal inference epidemiology”)——若多处指向相同空白,则是共识;若互相矛盾(如有的文献认为EL无需样本分割即可保证,有的认为需要),则是值得深挖的机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论