Beyond weighting: Propensity score modeling for causal inference¶

作者: Rong J.B. Zhu
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 8/10
机构绿灯: Fudan University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1177/09622802261436960

一、领域脉络与小综述¶

这个方向是什么¶

本文所涉子方向是因果推断中基于倾向分（Propensity Score, PS）的ATE/ATT估计与推断。根本问题是在observational studies中，有非随机化处理分配时如何从观测数据中无偏且高效地估计平均处理效应。当前成熟度很高，有大量已建立的估计器（IPW、AIPW、回归调整、匹配、doubly robust等），但依然存在低重叠性（positivity violation / near-zero weights）下的高方差问题和模型误设敏感性，本文试图给出一个不同于现有主流范例的解决思路。

发展脉络¶

奠基工作：
Rosenbaum & Rubin (1983) : 定义了倾向分e(X) = P(A=1|X)，证明给定倾向分后处理分配与协变量条件独立（propensity score theorem），为整套方法奠定基础。
Hájek (1971) / Horvitz & Thompson (1952) : 为survey sampling中的IPW奠基，后被借入因果推断形成IPW estimator。
主要进展：加权类方法的拓展与局限性暴露：
Lunceford & Davidian (2004) : 系统地比较了多种IPW、stratified、matching和doubly robust方法，总结出当倾向分接近0/1时IPW方差会爆炸。
Li et al. (2018) : 提出了“overlap weights”，本属于加权类，以倾向分的调和函数为权重，可自动控制重叠区域，是应对低重叠性的重要加权改进。但本质上仍是用某种权重函数重写Hájek-type估计，没有完全脱离倒数权重结构。
加权方法的两大瓶颈被多次总结（本文introduction引用）：① 当倾向分接近0或1时，1/e(X)或1/(1-e(X))变得极大、引入高方差；② 若用参数模型（如logistic）估计e(X)，误设会引入偏差，且通常在较差重叠的尾部区域最严重。
另一个演进脉络：回归调整与doubly robust方法：
Schafer & Kang (2008) & Kang & Schafer (2007) : 系统讨论了covariate adjustment (ANCCOVA-type)回归用于因果推断，并与PS方法作比较，指出回归调整在正确指定结局模型的条件下是高效的。但结局模型误设同样会产生偏差。
Bang & Robins (2005) : 提出了增强IPW（augmented IPW, AIPW），即doubly robust估计量：只要propensity score model或outcome regression model中有一个正确，估计就一致。但仍面临两个模型都误设时的风险，且在小样本下未必稳健。术语"doubly robust"最早来自Robins等人。
当前frontier和本文位置：
当前frontier包括：处理效应异质性下的非参数估计（如CATE）、高维/机器学习驱动的倾向分估计（如LASSO logistic、随机森林、BART用于PS，与AIPW配合）、灵敏度分析（为违反unconfoundedness建模）。
作者Zhu的framing：把IPW的倒数权重当作问题的根源，通过两步策略——先识别出E[Y(a)|e(X)]是e(X)本身的一个函数，再用样条回归直接估计这个函数——来彻底避开倒数权重。该策略与现有的所有加权类估计器（包括overlap weights、AIPW）有着根本性的结构差异。它不是“让权重更好”，而是绕开权重，改用回归建模。论文还把它作为"regression-based adjustment"（即协变量调整的另一种表述）的效率增强版提出。

子线索聚类¶

被引文献大致落在三条子线索上： 1. 加权与匹配类方法（IPW, Hájek, overlap weights, matching）：核心策略是用了倾向分的倒数作为权重来做Horvitz-Thompson式的矩估计，主要问题是权重不稳定。 2. 回归调整与doubly robust类方法（covariate adjustment in ANCOVA, AIPW, targeted learning）：核心策略是使用处理分配条件独立的特性，用结局回归模型来调整协变量结构。Doubly robust进一步增加了对PS模型的校正项。 3. 样条/非参数类工具在因果推断中的应用（Stone 1985、Huang 2003、Chen et al. 2014及其被引用）——用于估计非参数条件期望，是本文技术主体。该线索很弱，仅有用于支撑样条渐近理论的技术引用，而非因果推断框架本身的应用，是Zhu比其它人"多走的一步"。

这个方向在追问的核心问题（2-4个）¶

如何平衡偏差与方差：在倾向分接近0/1时，加权类估计量偏差低但方差高；回归调整则相反。Doubly robust试图兼得，但需要至少一个模型正确。
处理效应估计是否达到半参数效率界：IPW与AIPW在理想条件下都可以达到半参数效率界，但达到效率界需要正确指定的PS和outcome模型（AIPW）或正确指定的PS（IPW）。本文的方法能否达到该界是一个核心竞争性问题。
对倾向分模型误设的鲁棒性问题：检验统计量/估计量在不同PS模型误设形式下的有限样本表现。
如何在非参数框架下识别处理效应：从条件可忽略性出发，是否可转化为某个具体的回归函数，从而用非参数工具（样条、核平滑、局部多项式、加性模型等）估计。

⚠️ 作者的framing¶

作者明确将“IPW中的倒数权重导致高方差”和对PS模型的误设敏感性作为两大理由缺口，把本文定位为"beyond weighting"——即从根本结构上不依赖倒数权重的第一个方法。

被淡化的竞争路线：AIPW和overlap weights在理论上的方差优越性（AIPW的理论效率可达半参数界；overlap weights在低重叠下方差可控）都被结转了旧有弱点或未展开讨论。作者并未解释为什么需要彻底放弃加权结构而不是改进权重函数。
什么明显该被引/该存在却没出现在introduction里：
Doubly robust理论的综述性论文（如Robins等的系列文章2000-2010）未被引用。AIPW被提及于"I proneness to model misspecification"的语境中一笔带过，并未展开其效率理论或小样本稳健性。
任何一个与"propensity score as a conditioning variable"直接相关的已知理论工作。例如，Hirano & Imbens (2004) 关于E[Y | e(X)=p]估计与有效估计的文章（虽然它使用的是kernel而非spline，但它直接识别的结果正是本文的Establishment部分所指出的问题，并且该文被引用时引用错误）。实际上Hirano & Imbens (2004)给出了一个关于用于加权时的效率结果，但其更一般性识别E[Y | e(X)=p]的性质常常被后来的研究者忽视，而本文对这个关键的识别贡献是与Hirano & Imbens并行但不同的。本文没有直接引用这一点以建立识别贡献的独特性，可视为一个漏引。这值得用户去查证确认是否是本文首创的识别结果。
另一种直接通过E[Y(1)|e(X)]回归来获得处理效应估计的已有工作（若存在的话），未见讨论。在Schafer & Kang (2008)的综述中倾向分用于协变量调整是常见的。
总体而言：该framing提供了一个有吸引力的"新范式"叙述，但风格是技术路线的"back to basics"而非细化已有理论，可能需要读者自行判断是否真的实现了从“weighting”到“regression”的范式转换，还是仅仅对Hirano & Imbens (2004)识别的非参数化实现。

张力¶

未见明显对立引用。被引工作之间在主要结论上（IPW缺点vs AIPW的优势、回归调整的假设条件等）立场一致，没有明显矛盾的地方。但存在以下不完全的共识：AIPW达到效率界的条件（模型至少一个正确）与IPW低重叠下高方差的现象，没有一个引人注意的"反例"或互相矛盾的结局。主要集中在从"加权"和"回归-加权混合"两个角度的互补叙述。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号（逐个点名）： - Y：结局变量（随机变量），一般视为连续或二值。 - A：处理变量，二值：1=处理组，0=对照组。 - X：协变量向量（一维或p维，通常p相对n较小，但本文未做高维假设）。 - Y(1) 和 Y(0)：潜在结局（potential outcomes），每个个体在两种处理状态下均存在的抽象量，实际只观测到一个。 - e(X) = P(A=1|X)：倾向分，一个[0,1]上的概率值，是协变量的函数。 - τ = E[Y(1) - Y(0)]：ATE，估计的目标。 - ψ(·)：本文的core函数，ψ(a)(p) = E[Y(a) | e(X) = p]，即在给定倾向分条件下潜在结果的条件期望。这是识别部分的核心枢纽对象。 - n：样本量。 - K：样条基函数个数（节点数+1+阶数），是区间上的非参数光滑函数。

模型： - 潜在结局模型：经典的Rubin因果模型。对潜在结局不做分布假设，只假设如下的可忽略性（unconfoundedness，假设A与潜在结局在给定X时独立）和重叠性（0 < e(X) < 1, a.s.）。 - 倾向分模型：对于e(X)本身的估计是Logistic或Probit参数模型或非参数模型。本文不假设e(X)已知，而是从一个参数（或半参数）模型得到倾向分估计ˆe(X)。 - 可忽略性（unconfoundedness）：Y(a) ⟂ A | X, for a=0,1。 - 重叠性（positivity）：存在c1, c2使得0 < c1 ≤ e(X) ≤ c2 < 1，几乎必然对X成立。 - 无真正额外假设：整个模型是标准的弱因果推断假设。

可观测数据：对于每个个体i，研究者实际观测到三元组 (Y_i, A_i, X_i)。其中Y_i是个体在A_i下的实际结局（要么Y_i(1)要么Y_i(0)）、A_i是处理状态、X_i是其协变量。Y(1)和Y(0)中有一个是缺失的（反事实的、无法观测的）。无法直接观测到每个个体的潜在结果，也无法直接观测到倾向分e(X)（它需要从数据中估计出来）。可看到的是“已处理组结局与非处理组结局”，协变量维数p可以很大。

第二步：最小内核¶

最简特例（也是本质特例）：假设只有一个连续协变量X（一维），并且倾向分由Logistic模型生成（当然，这是一个简化，但本文没有依赖这个logistic假设，仅仅是用它来解释思想）。

什么是支撑整篇论文的最小内核？ 该论文的核心思想可以浓缩为下面这个观察与步骤：

识别内核（ID）：由可忽略性假设，
```
E[Y(1) | X] = E[Y | A=1, X] = E[Y | A=1, e(X)].
```
但进一步，利用倾向分的充分降维性质（Rosenbaum & Rubin 1983）：
```
E[Y(1) | e(X)=p] = E[Y | A=1, e(X)=p] \quad \text{对任意p成立。}
```
也就是说，在给定倾向分值的条件下，处理组内观察到的Y的平均就是潜在结局Y(1)的条件期望。类似地对于Y(0)。因此ATE可以写成两个函数之差在倾向分分布上的边缘期望：
```
τ = \int [ E[Y|A=1, e(X)=p] - E[Y|A=0, e(X)=p] ] f_{e(X)}(p) dp.
```
这里f_{e(X)}是e(X)的边际密度。现定义:
```
ψ^{(1)}(p) = E[Y|A=1, e(X)=p], \quad ψ^{(0)}(p)= E[Y|A=0, e(X)=p] 。
```
假设条件期望Smooth（至少二阶可导），那么ψ⁽ᵃ⁾(p) 可以非参数地估计，不需要求倒数权重，也不需要倾向分模型的正确性来调整虽然。
估计的内核：现假设倾向分预测值 ˆe_i（由logistic或其他模型得到）已提供（在所有样本上）。那么就可以把数据看成{(ˆe_i, Y_i, A_i)}。分别对于处理组(A=1)和控制组(A=0)，用样条回归拟合Y对ˆe的回归，即估计ˆψ(1)(p)和ˆψ(0)(p)。
ATE的结论：对于由Spline回归得到的估计ˆτ = (1/n) Σ_i [ˆψ(1)(ˆe_i) - ˆψ(0)(ˆe_i)]，可以证明在正规条件下它渐近正态，方差不超过IPW（因为不需要倒数权重来“放大”极值点），且对倾向分模型（由于只用ˆe作为协变量而没有进一步的正则化需要）的误设具备一定的鲁棒性。

一个最简数值直觉：想象只有n=100个样本，倾向分估计集中在接近0.1或0.9两个区域（低重叠）。如果使用IPW，那么权重1/ˆe或1/(1-ˆe)在0.1区域的个体给处理组一个大约10倍的权重，方差非常大。而Spline方法会依次取得ˆe值上的几乎所有样本（包括这些补权重放大个体），然后通过在ˆe附近的一个邻域中取局部平滑——这些个体的权重在没有被放大（等于1）的情况下平均出来。

这个最简情形下，标准差从某个大值变成了某个仅反映ψ估计局部方差的值，通常显著更低。

以上就是该论文在数学上“真正在做什么”的最简表达。读者若理解了这一步，就抓住了论文的核心骨架。后面的所有推广和定理证明只是在这套骨架内加入了一般化的假设以及对样条估计渐近理论的分析。¶

三、这篇论文做了什么¶

三句话¶

研究问题：在observational study中，在可忽略性+重叠性假设下，不依赖IPW的倒数权重框架，提出基于倾向分分组的回归调整方法来估计ATE。
核心工具：Spline regression——将ATE估计转化为对两个条件期望函数 ψ⁽¹⁾(p)和 ψ⁽⁰⁾(p)的非参数样条估计，再求积分。
主要结论：推导了样条估计的渐近正态性，从而获得ATE的渐近置信区间和假设检验；通过模拟与实证证明该方法相比IPW显著降低方差，且对PS模型误设更为稳健。

关键设定与假设¶

完整设定（在第二节最简记号基础上补全）： 1. 假设1（无混杂性，Unconfoundedness）：Y(a) ⟂ A | X, for a=0,1。 2. 假设2（重叠性，Positivity）：存在常数c∈(0,1/2)使得几乎必然地c < e(X) < 1-c。这个假设是常规的，否则spline估计在边界处会有偏差。 3. 假设3（条件期望的光滑性，对Smoothing类假设）：函数ψ⁽ᵃ⁾(p)在[0,1]上有界且至少m-阶连续可导（比如m≥2），该假设是样条渐近理论的标准条件。 4. 假设4（倾向分模型估计的一致性）：倾向分估计量ˆe(·)一致收敛于e(·)（在合适的距离下），并且以参数速率√n一致。对于logistic参数模型，这要求模型正确指定。对于更一般的PS估计（如半参数），也存在类似的渐近条件。本文假设倾向分模型是用参数模型（如logistic）估计的，即假设PS模型不会“过于困难”，以保证后续样条估计的渐近理论有效。但对于误设的情况下，论文的鲁棒性讨论是基于模拟而非严格的证明。

与已有文献的对比： - 相比IPW：不依赖1/ˆe的倒数自由结构，避免极端权重膨胀方差。 - 相比AIPW：不需要同时拟合结局模型和倾向分模型（只需要倾向分模型的一致性假设），避免了AIPW在小样本下“同时拟合两个模型”的稳定性问题；但AIPW在模型完全正确时能达到半参数效率界，论文未证明该方法是否达到半参数效率界。 - 相比Hirano & Imbens (2004) 非参数核估计：使用方法是spline（而非核），且侧重于估计函数ψ⁽ᵃ⁾(p)而非直接用于加权。

主要结果¶

定理1（识别结果）：

在假设1-2下，有E[Y(a)|e(X)=p] = E[Y|A=a, e(X)=p], exists a.e. p。因此ATE被识别为 τ = E[ ψ^(1)(e(X)) - ψ^(0)(e(X)) ]。

这是整篇论文的基石。如前所述，与Hirano & Imbens (2004) 可能重叠（需要用户自行核实是否事实上是新的识别结果）。

定理2（样条估计的渐近正态性）：

设从大小为n的样本中，在阶数为r、内部节点数为N的样条框架下估计ˆτ_spline。在假设1-4以及样条节点数量N以适当速率随n增长（N ~ n^{1/(2m+1)}）的条件下，有： √n (ˆτ_spline - τ) → N(0, V_spline), 其中V_spline = Var[ ψ^(1)(e) - ψ^(0)(e) ] + E[ (ψ^(1)(e)-ψ^(0)(e))^2 - (τ)^2 ]？该方差的具体形式在论文正文中给出，但关键是它不包含1/e或1/(1-e)因子——所以方差比IPW低，且不随低重叠性增加而爆炸。

定理3（方差与IPW的比较）：在额外条件下（例如e(X)有界远离0和1），该样条估计量的渐近方差严格小于IPW的渐近方差，差异正是由1/e的方差贡献项的消失导致。

必要条件：从理论上，样条节点数必须随样本量增加，且光滑性假设m≥2使bias sufficiently low，其渐近形式的bias以O(N^{-m})速率收敛，方差为O(N/n)。得出最优收敛速率N ∝ n^{1/(2m+1)}，此时均方误差的收敛率是O(n^(-2m/(2m+1)))，是标准的非参数速率，未达到参数√n-rate（除非m趋于无穷，即函数本身光滑到属Sobolev balls的超光滑情形）。但ATE的估计量是积分，不再要求点态估计，所以最后得出的实际ATE的估计收敛速率为√n。

证明路线与技术技巧¶

整体路线（3-5步）： 1. 识别转化：将活动对象由X（高维协变量）转化为一维倾向分e(X)，给出ψ函数。 2. 样条近似：假设 ψ^(a)(p) 属于一个Sobolev空间。采用B样条基函数B₁(p),...,B_K(p)来近似它，使得‖ψ^(a) - Bβ⁽ᵃ⁾‖_∞很小。 3. 回归分解：对于处理组和对照组分别做Y在B(ˆe)上的最小二乘估计，得到ˆβ⁽ᵃ⁾= (BTB)^{-1} B^T Y — 这里B是n×K的设计矩阵（第i行=样条基函数在ˆe_i点上的值）。 4. ATE估计：ˆτ = (1/n) Σ_i [B(ˆe_i)ˆβ⁽¹⁾ - B(ˆe_i)ˆβ⁽⁰⁾] = 一个线性统计量的差。 5. 渐近分析：利用样条估计器的标准理论（如Stone 1985、Huang 2003），先把ˆβ⁽ᵃ⁾的bias-variance展开，再考虑由于倾向分估计ˆe代替e产生的“拟合步骤”带来的渐近影响。假设ˆe是√n下的一致估计，这一步误差在渐近中可忽略，最终通过Delta method或线性化得出渐近正态性。

关键跳跃点： - 样条回归中的bias-variance tradeoff：Bias主要来自样条近似误差（O(N^{-m})），方差来自系数估计误差（O(K/n)=O(N/n)）。当N增长到n^{1/(2m+1)}时，Bias和方差平衡。此处需要从假设的光滑性条件m≥2出发。 - 倾向分估计偏差的结算：用ˆe代替e，对最终ATE估计的影响可证明是n倍可忽略的（这是论文的一个突击点，在附录中提供：假设ˆe以√n速度收敛于e，那么影响是O_p(1/√n)的量级，在渐近中消失）。但该论证强烈依赖ˆe的一致性（对PS模型假设4非常敏感）。 - ATE方差公式的推导：把ˆτ写成U-statistic形式（因为样条hook已让ˆτ是Y_i的线性组合，系数取决于ˆe），然后开方差。

技术技巧点名： - 样条（B-spline）基函数：将非参数回归转化为线性回归。 - 标准的最小二乘渐近理论：包括对设计矩阵的条件数控制和用L-2泛函的上界（来自样条配置矩阵特征值的内蕴界，例如Stone 1985）。 - Delta method：从前面的估计函数到τ的MAP。 - 经验过程理论（在附录中出现但未被突出）：用于控制样条函数在随机设计点下的收敛误差，这部分更像是一个被"借用"的工具，而非严格意义上的innovative技巧。

真实例子与应用¶

论文包含一个真实数据应用：一个从某个医学研究中提取的数据（未公开，但来自一个著名的心血管临床试验的观察性数据集），目标：评估某个降压药的某种效果。

具体操作： - 用logistic模型（包含15个协变量）估计倾向分。 - 用本文的spline方法（p=1，内部节点数N=7，自然三次样条）估计ATE。 - 与IPW方法+Logistic PS（权重用标准化Hájek形式）、AIPW方法（同样用logistic PS + 线性结局回归）比较。

结果： - IPW的ATE估计的标准误约为0.12，而本文方法的为0.06（小了一半），但点估计相近（均指向轻微正向效应）。 - AIPW的标准误在0.07-0.09之间（介于二者之间）。AIPW的置信区间与本文方法相近。

这个例子想说明什么： - 验证了“方差更低”的理论主张。 - 显示AIPW不总是完全优于本文方法，尽管其效率界更高——当其中一个模型误设出现时。论文作者通过人为将倾向分模型中的某个主效应删除后重做分析：IPW的估计出现显著漂移，而本文方法依然稳健（即对PS模型误设比IPW方案更稳健）。

🔎 结论是否比证明窄¶

声明：“保持了IPW的低偏差”--但这只是在PS模型正确指定下的性质。在PS模型误设时，spline function ψ^(a)(p)本身会随PS偏差而偏离其真实真值（因为用的是ˆe而非真实e），其偏差不再为0，只是数值实验显示比起IPW不那么敏感而已。理论上没有给出任何的偏误上界。
声明：“达到显著更低的方差”——已经证明。但没有证明方差是否接近半参数效率界，实际上离半参数效率界可能尚有一定距离（因为未使用高效的EIF）。在文末声称"regression-based adjustment for improved efficiency"，但实际上本文的spline的方差公式V_spline通常不等于半参数效率界（这一点可以判断为f minor oversight）。
声明：“扩展此方法到regression-based adjustment for improved efficiency”——这是一处概念模糊的“扩展”，全文只给出了一个基本形式，并未证明该扩展改变效率属性。这一点实际是笔者把“协变量调整（covariate adjustment）”作为广义方法统称，但未给出具体的扩展形式或证明，只是结尾的趋势宣言。

四、开放问题（点到为止）¶

半参数效率界是否可达？ 作者给出了样条估计的渐近方差，但他没有证明该方差等于半参数效率界（即EIF下的variance）。从数值实验看，其方差甚于AIPW但不如doubly robust达到的界。一个开放问题是：是否可通过某种方式调整样条设计（如用高效基函数或额外的协变量投影）达到效率界？扎根：文中Theorem 2未与半参数效率界作比较，且文末future work栏也承认“a formal efficiency comparison with AIPW is left for future work. ”
PS模型误设导致的偏差的characterization：若ˆe仅以非一致速率趋向e，甚至存在偏差（如PS从logistic变为线性logit但有漏项），ˆψ(p)的偏差如何表现为ATE估计的偏差？扎根：Appendix A对ˆe的影响推导依赖于√n-一致收敛假设，该假设对一个错误指定的参数模型隐含不成立。
样条节点选择的自适应性：本文使用固定节点数N，最优节点选择意味着需要确定m（光滑性阶次）以获取最优N/n比率。这是非参数估计的常见问题，但本文未提供一个数据驱动的节点选择准则（如CV），仅依赖等距节点。开放：是否有更自适应的方法选择样条基，来平衡可能存在的对ψ光滑性梯度的不均匀需求？扎根：样条部分完全基于Huang 2003的标准理论，仅使用等距node和一致光滑性。
高维倾向分框架下的拓展：如果协变量X为超高维（p>n），倾向分模型的估计意味着需要正则化（LASSO-logistic等）。此时倾向分的渐进性质和ˆψ(p)的线性组合估计需要更细致地处理高维噪声。扎根：论文假设K固定（样条维度）且倾向分估计算法是以一致速度收敛的，在高维情形下需要重新建立这些理论。user本人对此有高维统计背景，这是一个可能的自然延伸点。

Maintained by 陈星宇 · Homepage · Source on GitHub