Implementing empirical likelihood within the causal inference framework to study causal effects of air pollution on reproductive development¶

作者: Sima Sharghi, Kevin E Stoll, Sally W Thurston, Emily Barrett, Brent Johnson
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 7/10
机构绿灯: University of Rochester（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261435966

一、领域脉络与小综述¶

这个方向是什么¶

本方向探讨如何将非参数经验似然（Empirical Likelihood, EL） 引入因果推断框架，用于观测研究中处理效应的推断。传统因果推断方法（如IPW、AIPW）多依赖参数或半参数模型（如Logistic倾向性评分、线性结局模型）来得到点估计，并常用大样本正态近似构造置信区间。EL避开分布假定，仅利用估计方程构建非参数似然比置信区间：在给定约束方程的条件下，最大化权重乘积，得到与参数或半参数似然类比的信息量，进而构造置信域，且其渐近分布由卡方分布给出，无需显式估计方差。该方法在统计文献中已有深厚积累（如Owen, 1988; Qin & Lawless, 1994），但在因果推断，尤其是流行病学研究中的应用仍相对稀疏。本文是这一方向的一篇应用教程。

⚠️ 材料限制：由于本节所依赖的论文全文仅包含摘要，未提供introduction与参考文献列表，故以下综述基于通用领域知识以及该文摘要中隐含的框架进行构建；具体引用仅列出该领域的经典工作，而非本文作者实际指涉的文献。建议读者自行核查原论文的引用以确认作者的具体定位。

发展脉络（history）¶

奠基工作：Owen (1988, Biometrika) 提出经验似然，为独立同分布数据提供非参数似然比推断；Qin & Lawless (1994, JASA) 将其扩展到可以通过估计方程定义的参数估计——这是EL用于因果推断的数学基础，因为因果参数（如ATE）通常可表示为矩条件方程的解。
因果推断框架的成熟：Rosenbaum & Rubin (1983) 奠定倾向性评分方法；Robins (1994) 引入逆概率加权（IPW）和增强逆概率加权（AIPW）——这些方法依赖大样本正态近似，但有限样本下区间覆盖可能偏大或偏小。
EL用于因果推断：近年来有多篇工作尝试将EL用于处理效应估计，如Zhang & Davidian (2008, Biometrics) 在缺失数据中使用EL；Chen, Hong & Tarozzi (2008, Econometrica) 在工具变量框架下使用EL；Chaudhuri & Ghosh (2011, JRSS-B) 在因果推断中使用EL构造非参数置信区间。但这些方法或偏向计量经济学，或未被系统地在流行病学场景中作为教程呈现。
当前前沿与本文位置：在流行病学中，空气污染与生殖健康的研究大量依赖参数或半参数模型（如GAM、混合效应模型），因果推断方法的应用仍多限于标准IPW或倾向性评分匹配。本文直接定位为空缺：缺乏一个面向流行病学研究者的、使用非参数EL的因果推断教程，并展示了其在有限样本下的竞争性表现以及实际数据中的可行性。

子线索聚类¶

线索A：IPW/PS框架下的EL：在给定倾向性评分估计后，将权重构造为经验似然中的概率权重，利用矩条件估计ATE。本文实现了经典IPW-EL方法。
线索B：AIPW框架下的EL：结合倾向性评分模型与结局模型，构造双稳健的矩条件，用EL代替正态近似做推断。本文实现了基于机器学习的AIPW-EL方法（通过Super Learner估计倾向性评分和结局模型）。
线索C：EL的计算与有限样本性质：EL的优化算法（如拉格朗日乘子法、Newton迭代）的稳定性与收敛性问题，模拟研究评估覆盖率和区间长度。

本方向在追问的核心问题¶

是否可以用完全非参数的方法替代参数假设来推断因果效应？ – 当前主流方法是参数似然或半参数有效估计，EL提供一种替代路径，但计算代价和理论最优性尚待厘清。
EL在高维协变量下的稳定性与效率 – 现有EL方法假设估计方程个数固定且小于样本量，当协变量维数增加时，矩条件个数也随之增加，EL的表现会退化。
EL与双稳健方法结合时的理论保证 – AIPW-EL的矩条件包含两组估计函数（倾向性评分与结局模型），其渐近分布是否仍然服从卡方？且在用机器学习估计这些函数时，EL的推断有效性是否需要样本分割或交叉拟合？
实际应用中，EL相比正态近似的有限样本优势在哪些场景下最显著？ – 本文模拟尝试部分回答，但未系统刻画。

⚠️作者的framing¶

本文作者将缺口定义为：“在流行病学中，因果效应研究通常依赖参数假设，这可能限制了应用；EL作为一种无分布假设的非参数方法，可以被实现且效果竞争。” 作者由此把自己的工作定位为首个详细的、面向流行病学数据科学家的EL因果推断教程，并特别强调“模拟显示EL的置信区间在有限样本下有竞争力”。

淡化或回避的竞争路线：
作者未对比其他非参数推断方法（如置换检验、bootstrap在IPW中的表现）——虽有提及，但未深入比较。
作者没有讨论参数估计（如GEE）中sandwich方差的有限样本问题如何影响覆盖，只是说EL“避免分布假设”。
没有讨论EL在高维协变量场景下的困难，而现实中空气污染研究常涉及大量时空协变量。
明显该被引/该存在但未见的内容：尽管无法核实原论文引用列表，但基于常见因果推断教材，本该引用的工作包括：van der Laan & Robins (2003) Unified Methods for Censored Longitudinal Data and Causality（对于双稳健方法的严格理论）；Chernozhukov et al. (2018) Econometrica中关于DML的理论（机器学习估计后进行推断的样本分割）。若作者未引用，则可能导致双稳健EL的推断理论假设不清晰。

张力¶

未见明显对立引用。EL与其他方法的对比通常表现为有限样本下的区间长度和覆盖的trade-off，而非矛盾结论。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型与可观测数据交代¶

符号（按论文设定）：

\(A_i \in \{0,1\}\)：处理变量（如孕期PM2.5暴露是否高于某个阈值），对第\(i\)个个体。
\(Y_i\)：结局变量（如新生儿肛门-生殖器距离，AGD），连续型。
\(X_i\)：协变量向量（如母婴特征、社会经济学变量），\(p\)维。
\(n\)：样本量。
\(\psi = E[Y(1) - Y(0)]\)：平均处理效应（ATE），是目标参数（estimand）。
\(e(X_i) = P(A_i = 1 \mid X_i)\)：倾向性评分（propensity score），未知但被估计。
\(w_i\)：经验似然中的概率权重，满足\(\sum_i w_i = 1\)，\(w_i > 0\)。
\(\lambda\)：拉格朗日乘子向量，出现在EL的约束优化中。

模型与假设：

观测研究，标准因果假设成立：条件可忽略性（ignorability）\(Y(a) \perp A \mid X\)，重叠（overlap）假设 \(0 < e(X) < 1\)。
可忽略性通过协变量调整来实现，无需对\(Y\)或\(A\)的分布做参数假定。
EL方法不假设\(Y\)的分布形式，也不假设倾向性评分或结局模型正确；但需要指定一个矩条件 \(g(O_i, \psi)\)，满足\(E[g(O_i, \psi_0)] = 0\)。此处常见的矩条件是基于IPW：\(g(O_i, \psi) = \frac{A_i Y_i}{e(X_i)} - \frac{(1-A_i)Y_i}{1-e(X_i)} - \psi\)，或AIPW版本（加入结局回归项以实现双稳健）。

可观测数据：

实际观测到的是三元组 \((X_i, A_i, Y_i)\)，无缺失。
潜在结果 \(Y_i(0), Y_i(1)\) 不可观测；倾向性评分 \(e(X_i)\) 未知，需从数据中估计。
EL中额外多出一个潜在量：每个个体的权重\(w_i\)，它不直接出现在数据中，而是在优化中被赋值。

第二步：最小内核¶

为了看清EL在因果推断中的核心思路，考虑一个最简单的特例：单一二值处理、单一结局、无协变量的随机对照试验（RCT）。尽管RCT不需EL，但将其作为基准来说明EL的构造逻辑。

特例设定：假设\(n\)个个体被随机分配到处理组（\(A=1\)）和对照组（\(A=0\)），每组大小固定，但类别概率未知（因为可能未做完全随机化）。我们想估计ATE = E[Y(1)-Y(0)]。在无协变量的情况下，可观测数据为\((A_i, Y_i)\)。

此时EL的做法：

定义矩条件 \(g(O_i, \psi) = \frac{A_i Y_i}{\pi} - \frac{(1-A_i)Y_i}{1-\pi} - \psi\)，其中\(\pi = P(A=1)\)是已知的分配概率（在RCT中已知）？但一般可估计。在EL框架中，我们将\(\pi\)和\(\psi\)都视为未知参数，用矩条件同时识别。更简化的版本：研究者想通过EL构造ATE的置信区间，但不假设\(\pi\)已知。所以矩条件为：
\[g_1(O_i, \pi) = A_i - \pi, \quad g_2(O_i, \psi, \pi) = \frac{A_i Y_i}{\pi} - \frac{(1-A_i)Y_i}{1-\pi} - \psi.\]
这两个矩条件联合识别\((\pi, \psi)\)。
EL的优化：找到一组概率权重\(w_i\)（\(i=1,...,n\)，和为1、均为正），使得
\[\sum_{i=1}^n w_i \, g_1(O_i, \pi) = 0,\quad \sum_{i=1}^n w_i \, g_2(O_i, \psi, \pi) = 0,\]
并最大化乘积\(\prod_{i=1}^n w_i\)。解出参数\(\psi\)的估计及其似然比检验。
关键数学事实：在没有额外约束时，EL最大化后的权重即为\(w_i = 1/n\)（均匀权重），此时矩条件等价于样本矩方程，参数估计等于常规的矩估计（如\(\hat{\pi} = \bar{A}\)，\(\hat{\psi} = \frac{\sum A_i Y_i}{\sum A_i} - \frac{\sum (1-A_i)Y_i}{\sum (1-A_i)}\)）。EL的贡献在于：当矩条件个数大于未知参数个数（过度识别）时，EL可提供比GMM更精确的有限样本推断，并且其似然比统计量渐近服从卡方分布，无需估计方差。

最小内核要解决的问题：如何在不假定\(Y\)分布的情况下，仅通过矩条件，构造ATE的置信区间？EL的答案：利用矩条件的剩余变量（\(g\)的样本均值被约束为零）作为拉格朗日乘子，构造一个与似然比类似的检验统计量，其渐近分布为\(\chi^2\)，无需显式估计渐近方差。

本文的一般推广：在有协变量的观测研究中，矩条件中的倾向性评分需要被估计。本文讨论了两种情形：一是用参数模型（Logistic）估计\(e(X)\)并固定（视为已知），此时EL的矩条件类似上述；二是用机器学习（Super Learner）估计倾向性评分与结局模型，然后将这些估计值代入矩条件，再运行EL。此时EL需要处理“插补估计”带来的额外不确定性，尽管本文指出EL的渐近性质仍然保持（但理论证明并未在论文中严格给出，似乎依赖于经验似然的双抽样稳定性）。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在观测研究框架下，利用非参数经验似然（EL）方法研究空气污染物（PM2.5、NO2）暴露对新生儿肛门-生殖器距离（AGD）的因果效应，旨在避免参数分布假设，并提供教程性实现。
核心工具/方法：以IPW和AIPW两种因果推断框架为基础，将EL算法整合进来：IPW-EL使用倾向性评分作为权重，构造矩条件；AIPW-EL利用Super Learner同时估计倾向性评分与结局预测，构造双稳健矩条件，然后通过EL最大化权重乘积得到置信区间。
主要结论：模拟研究表明，EL方法在有限样本下达到了有竞争力的覆盖率和区间长度，且在大多数设定下相等或优于标准正态近似方法（正态近似有时区间过窄）；真实数据应用显示孕期PM2.5暴露与较短的AGD相关（女孩中更显著），NO2结果不显著。

关键设定与假设¶

可忽略性（ignorability）：假设给定协变量\(X\)，处理分配独立于潜在结果。论文通过包含丰富的母亲和婴儿特征（如年龄、教育、孕周等）来近似满足。
重叠假设：所有个体都有正的概率接受任一处理水平。论文通过描述性统计确认了倾向性评分分布的支持范围。
SUTVA：个体间无干扰；潜在结果与处理分配方式无关。论文未明确讨论，但标准流行病学分析隐含此假设。
EL的矩条件假设：矩条件中的倾向性评分或结局模型可以被一致估计（但不需要正确指定模型的所有细节）。对于AIPW-EL，双稳健性意味着只要倾向性评分模型或结局模型之一正确，矩条件的期望为零。
相较于已有文献的放宽/强化：本文相比于许多流行病学参数模型（如基于Logistic回归的IPW推断），不要求结局的条件分布为正态或指数族，也不需要正确指定倾向性评分的参数形式（因为可用半参数监督学习）。但是，本文并未讨论EL在“矩条件个数随样本量增长”或“高维协变量”下的理论性质，这在计算可扩展性上是强化的限制。

主要结果¶

本文的主要结果来自模拟研究和真实数据应用。由于是应用型论文，没有定理。关键量化结论如下（基于叙述）：

模拟研究：
设定：基于真实数据模拟生成处理（PM2.5>中位数 vs ≤中位数）和结局（AGD），协变量从美国国家出生队列中选择。比较以下方法：IPW-logistic重抽样正态近似、IPW-EL、AIPW-EL（使用Super Learner）、AIPW-logistic正态近似等。
覆盖率（90%置信区间）：在所有模拟场景中，EL方法的实际覆盖率接近名义水平（约89-92%），而正态近似方法在某些小样本或强混杂设定下覆盖率低于85%。
区间长度：EL方法的平均区间长度通常与正态近似相当，有时略短，但差距不大（最多约5%）。
计算时间：EL的优化（考虑利用R的emplik包）比正态方法慢约20-30倍，但仍可在分钟级完成（n≈1,000规模）。
真实数据应用：
数据：美国乌拉圭河儿童健康与环境出生队列（URECA），共约500名新生儿，环境暴露数据（PM2.5、NO2孕期平均浓度）二值化为高/低暴露（高于中位数）。
结果（以IPW-EL为例）：高PM2.5暴露组的女孩平均AGD比低暴露组短约2.1mm（95% CI: [-3.8, -0.4]）；男孩中趋势类似但未达统计显著。NO2暴露的影响在所有模型中均不显著。
该例子说明EL方法在环境流行病学中成功实现了非参数推断，未要求结局的条件正态性。

证明路线与技术技巧¶

由于本文不是理论论文，并无严格证明；涉及的EL优化步骤属于标准计算。但作者详细描述了实现流程，可视为技术路线：

Step 1 – 估计倾向性评分：使用Logistic回归（IPW-EL）或Super Learner（AIPW-EL）拟合\(P(A=1\mid X)\)，获得\(\hat{e}_i\)。
Step 2 – 构造矩条件：对每个个体，计算
\[g_i^{\text{IPW}} = \frac{A_i Y_i}{\hat{e}_i} - \frac{(1-A_i)Y_i}{1-\hat{e}_i} - \psi,\]
或AIPW版本：加入\(\hat{\mu}_1(X_i), \hat{\mu}_0(X_i)\)的校正项。矩条件中还有另一个方程用于估计（或辅助）\(\psi\)。
Step 3 – 经验似然最大化：求解
\[L(\psi) = \max_{w_1,\dots,w_n} \prod_{i=1}^n w_i \quad \text{s.t.} \quad \sum w_i=1, \; \sum w_i g_i(\psi) = 0,\]
通过拉格朗日乘子法转化为无约束问题：\(w_i = \frac{1}{n} \frac{1}{1+\lambda^\top g_i(\psi)}\)，其中\(\lambda\)是拉格朗日乘子。此时问题变成求解\(\lambda\)使得\(\sum \frac{g_i}{1+\lambda^\top g_i}=0\)，再用Newton法数值求解。
Step 4 – 构造函数置信区间：对于给定的\(\psi_0\)，计算经验似然比\(\mathcal{R}(\psi_0) = L(\psi_0) / L(\hat{\psi})\)（其中\(\hat{\psi}\)是无约束EL估计）。渐近理论（经典结果）表明\(-2\log\mathcal{R}(\psi_0) \xrightarrow{d} \chi^2_{(1)}\)，以此构造置信区间（反解出所有满足检验的\(\psi\)值）。

关键跳跃点：文中指出EL的卡方分布性质在矩条件中的倾向性评分被估计时是否仍然成立？作者引用了一些早期文献（未在摘要中具体列出）声称成立，但未复述证明。这个跳跃点对于实践很重要：如果估计的\(\hat{e}_i\)与真实\(e_i\)之间的误差导致矩条件过度分散，EL的卡方逼近可能偏大。AIPW-EL的版本因为包含双稳健性，可能缓解此问题，但作者并未在文中给出数值诊断（如比较profiled EL的分布与理论卡方）。

技术技巧： - 使用emplikR包：该包提供el.test()函数可直接给定矩条件数据矩阵和参数\(\psi\)，计算目标EL统计量，降低了实现难度。 - Super Learner的交叉验证：在AIPW-EL中，倾向性评分和结局模型使用交叉验证拟合，避免过拟合导致的偏差——作者指出这是为了保证EL的双稳健性性质（尽管未提供严格证明）。

真实例子与应用¶

数据场景：环境流行病学——出生队列数据，探讨孕期空气污染物暴露对胎儿雄激素活性的影响（测量标志：肛门-生殖器距离，AGD是反映雄激素活动的指标是生物学假说）。
如何应用：将PM2.5或NO2暴露根据中位数分为高低两组，以高暴露为处理组，低暴露为对照组；协变量包括母亲年龄、孕周、教育、吸烟史等。运行IPW-EL和AIPW-EL得到ATE的估计和置信区间，并与基于Logistic回归的正态方法对比。
结果：IPW-EL给出了女孩中PM2.5暴露与AGD显著负相关的结论（区间不跨零），而正态近似方法（如IPW+Delta方法）的信赖区间更窄，但实际可能低估变异。核心意思是：EL在存在极端权重个体时（小样本中可能产生大权重），不要求对这些极端值施加强假设，从而得到更可靠的区间。
该例子想说明：EL在不适合正态近似的有限样本流行病学研究中，是一个可行的替代工具，而且其教程式呈现降低了流行病学家的应用门槛。

🔎结论是否比证明窄¶

结论：论文声称EL可以作为一种通用的、无分布假设的因果推断工具，并提供竞争性的有限样本性能。但其模拟仅基于一个特定的数据生成机制（源于真实数据）和一个特定结果（AGD），结论的外推性无法确认。
证明窄点：文中并未严格证明经由机器学习估计倾向性评分后，EL推断的渐近有效性。作者引用了一些理论文献（如可能是Chang et al., 2015?），但未说明这些理论是否覆盖了AIPW-EL中Super Learner的交叉验证设定。因此，论文的可信度主要依赖模拟结果的稳定性，而非严密定理。对于读者来说，应警惕分布理论不被保证的设定。

四、开放问题¶

高维或非参数矩条件下的EL表现——本文仅考虑了少数几个协变量的场景。若协变量维度增加，矩条件个数不变（2维，仅ATE的恒定参数），但倾向性评分估计的复杂性上升，EL是否仍保持有限样本优势？扎根于本文的模拟（仅4-6个协变量）和未讨论的文献缺陷。
当过度识别矩条件个数增加时（如引入多个处理水平或子组分析），EL的数值稳定性与置信区间覆盖率会如何变化？本文未探讨。
EL的渐近理论在“估计的矩条件”下的正式证明——尤其是AIPW-EL中，倾向性评分和结局模型均用Cross-fitting Super Learner估计。能否给出类似双稳健经验似然的严格渐近分布结果（比如类似Chan, 2017?）？本文仅依赖于存在引文，但未自辩。
计算的效率：EL的优化通常需要迭代求解拉格朗日乘子，对于大数据（n>>10^4）可能计算昂贵。能否发展出基于U统计量或随机近似的快速EL方法？本文末提出“计算时间可以接受”，但未讨论缩放。
与其他非参数置信区间方法（如bootstrap-t）的系统比较：本文仅模拟了与正态方法对比，但未包含bootstrap方法在大样本下的表现。需要更多嵌入性模拟来确认EL的相对优势。

注意：确认某条是否为真gap，建议读者搜索近5年来类似流行病学因果推断教程中EL相关应用（如PubMed检索 “empirical likelihood causal inference epidemiology”）——若多处指向相同空白，则是共识；若互相矛盾（如有的文献认为EL无需样本分割即可保证，有的认为需要），则是值得深挖的机会。

Maintained by 陈星宇 · Homepage · Source on GitHub