Moving Toward Best Practice When Using Propensity Score Weighting in Survey Observational Studies¶

作者: Yukang Zeng, Fan Li, Guangyu Tong
来源: Statistics in Medicine
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究的是：在复杂抽样调查（complex survey） 的观测数据中，如何正确使用倾向分数加权（propensity score weighting） 来估计总体层面的因果效应（如总体平均处理效应 PATE、受处理者平均处理效应 PATT 等）。核心张力在于：调查设计产生的抽样权重与因果推断所需的倾向分数权重是两个不同来源的权重，前者用于将样本推广到有限总体，后者用于在处理组间平衡协变量分布。如何在估计过程中同时、正确地整合这两套权重，使其既保持因果识别的有效性又不扭曲总体代表性，是这一子方向的基本问题。当前成熟度属于方法论在快速推进但尚未达成共识的阶段。

发展脉络（history）¶

奠基工作：倾向分数加权的基本原则与 survey 的第一次接触
Ridgeway et al. (2015)[4]：最早系统研究 survey 权重在 PS 加权中的角色，通过推导、模拟和真实数据指出：在 PS 阶段和 outcome 阶段都使用 survey 权重 是最稳健的。但该工作主要聚焦于 ATE 和 ATT，且没有发展统一的框架。
DuGoff et al. (2013)[13]：在 MEPS 数据背景下通过模拟比较多种方法，发现忽略 survey 权重会导致估计结果无法推广到 survey 目标总体，但其比较范围有限，且没有处理多个目标总体。
Austin et al. (2016)[5]：通过模拟比较了 PS 模型的三种设定（含 survey 权重作为协变量、加 survey 权重的 logit、不加权 logit），发现关于应该用哪种方法没有明确结论。这为后来者留下了“方法论不统一”的局面。
主要进展：balancing weights 框架与多目标总体
Li, Morgan & Zaslavsky (2014)[9]：提出了 balancing weights 统一框架，定义了一类将每个组加权到分析师选定的目标总体的权重。该工作统一了 IPW、overlap weights、matching weights 等，并推导了非参数估计的渐近性质。这是本文的核心理论起点。
Li (2019)[14]：将 balancing weights 推广到多个处理组，提出了广义 overlap weights，解决了多组设定下的极端权重问题。
Li & Thomas (2018)[12]：针对极端倾向分数问题，用 overlap weights 替代 IPW+trimming，并用模拟证明了它在 bias、variance、coverage 上的优势。该文被本文主要引用用于框架扩展。
当前 frontier：survey 环境下的统一估计与方差推断
Salerno et al. (2024)[8]：在 health disparities 研究中，考虑了 survey 权重依赖于群变量（如种族）的特殊情形，提出了相应的识别公式，证明了所提方法优于传统方法。但该工作限于 ACD（controlled difference）且只处理了特定依赖结构。
Yang et al. (2023)[22]：聚焦于二值结局下的 PS 加权与 survey 权重的整合，通过大规模模拟比较了八种方法，发现 PATE 和 PATT 的最佳策略不同。但该工作没有提供闭式方差估计，也没有统一框架。
Dong et al. (2020)[20]：用 MEPS 数据比较多种整合策略，推荐在 PS 和 outcome 两个阶段都使用 survey 权重，但其方差估计依赖 bootstrap，计算负担大。

子线索聚类¶

这些被引文献大致落在以下 4 条子线索上：

PS 加权与 survey 权重的整合方式（Ridgeway 2015, DuGoff 2013, Dong 2020, Yang 2023, Zanutto 2021）
核心问题：survey 权重应用在 PS 模型、outcome 模型、还是二者都应用？证据部分矛盾，未形成共识。
目标总体的定义与 balancing weights 框架（Li 2014, Li 2019, Li & Thomas 2018, Li 2022, Mao 2018）
核心问题：通过调整权重函数 h(X)，可将目标总体从总样本转向受处理组、对照组、或重叠区 subpopulation。这为 survey 下的总体推断提供了从单个 PATE 向多种 estimand 扩展的可能。
有限重叠与极端权重的处理（Crump 2009, Li & Thomas 2018, Zhou 2020, Mao 2018）
核心问题：当 PS 接近 0/1 时 IPW 失效，trimming 或 overlap weights 是否比 IPW 好？Zhou et al. (2020) 证明 overlap weights 在 PS 模型误设定时比 IPW 偏差更小。
增强估计与双重稳健性（Kang & Schafer 2007, Robins 2007, Gabriel 2023, Mao 2018）
核心问题：结合 outcome 模型的 AIPW 型估计量在 survey 环境下是否仍保持双重稳健？Mao et al. (2018) 证明整合 outcome 模型可提高效率，但 survey 下的扩展仍不完善。

这个方向在追问的核心问题与当前瓶颈¶

核心问题：① 如何定义一个统一的 survey 加权估计量框架，使其覆盖所有常见目标总体（PATE、PATT、PATC、PATO）？② 如何在不依赖 bootstrap 的条件下推导闭式方差估计量？③ 在极端权重（survey 权重或 PS 权重）存在时，哪种估计量最稳定？
已知瓶颈：① 流行建议互相矛盾：Ridgeway 2015 推荐两阶段都用 survey 权重，但 DuGoff 2013 发现加入 survey 权重后 balance 可能变差；② 已有闭式方差估计量要么只适用于 PATE/PATT 且依赖线性化手法，要么需要 bootstrap 而失去计算简便性；③ 多种目标总体下的统一方差公式未曾出现；④ augmented weighting 估计量在复杂 survey 下的双重稳健性质未被严格建立。

⚠️作者的 framing（必须明确标注为作者的说法）¶

作者把缺口 frame 成：现有文献在如何将 survey 权重整合进 PS 加权上没有共识，且已有工作只处理了 PATE 和 PATT 两种目标总体，而 balancing weights 框架天然可扩展至更多目标总体（PATO、PATC），但从未在 survey 环境下系统实现。作者声称本文是“第一个在 balancing weights 框架下为 survey 观测数据提供统一估计和闭式方差的工作”。
被淡化或回避的竞争路线：① 作者完全未讨论 multiple treatments 的扩展（虽然 Li 2019 已被引），但 survey 下多处理组估计显然是自然扩展；② non-ignorable nonresponse 和 survey weights 的 design-based vs. model-based 争论被跳过；③ overlap weights 在 survey 下的 positivity 条件被放松的可能性未涉及；④ 对于 Mao et al. (2018) 的 shrinkage-type 权重，作者只提到“integration of outcome model improves efficiency”，但未比较与其估计量的相对优劣。
什么明显该被引/该存在、却没出现在 intro 里？：① Vansteelandt (2008) “The two are not equivalent – a comment on…” ——该文严格区分子总体权重与抽样权重的乘法性质，是 survey 加权 PS 领域的理论基石，但未被引用；② Zheng & van der Laan (2010) “Targeted Maximum Likelihood Estimation with Survey Weights” ——TMLE 在 survey 下的工作完全被忽视；③ Breskin et al. (2018) “Combining Marginal Structural Models with Standardization for Complex Survey Data” ——提出用 G-formula 加 survey 权重的替代策略。

张力¶

未见明显对立引用。但存在以下未解决的方法论矛盾：
Ridgeway (2015) 通过推导支持在 PS 和 outcome 两阶段都使用 survey 权重 → Yang (2023) 的模拟发现“最好策略依赖于模型设定错误程度和 overlap 程度”，暗示不存在普适最优。
DuGoff (2013) 发现将 survey 权重作为 PS 模型的协变量未改进性能 → Austin (2016) 发现无明确优势 → Dong (2020) 在 MEPS 应用中看到差异很小。这些结果暗示 survey 权重的作用情景依赖性强。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：

符号	含义	类型
$Z$	处理指示变量（0/1）	随机变量
$X$	协变量向量（如 $d$ 维）	随机变量
$X_i, Z_i$	个体 i 的协变量与处理	样本
$Y$	结果变量	随机变量
$Y_i$	个体 i 的结果	样本
(e(X) = P(Z=1	X))	倾向分数
$e_{sp}(X_i)$	估计的倾向分数（来自 logistic 或其他 PS 模型）	估计量
$w^{svy}_i$	个体 i 的抽样权重（survey design weight）	已知常数（来自 survey 设计文件）
$h(X)$	balancing weight 中的权重函数（决定目标总体）	分析师指定
$\tau_h$	使用权重函数 h 时的加权平均处理效应	目标参数（estimand）
$\hat{\tau}_{w}^{\text{bal}}$	基于 balancing weights 的估计量	估计量
$N$	有限总体大小（survey 的目标总体）	常数（通常很大）
$n$	样本量	常数
$p$	协变量维数	常数
$\beta$	PS 模型（logistic）中的系数	参数（需估计）
$m_z(X)$	(E[Y	Z=z,X])，结果回归函数

模型（数据生成机制）：

三元组 $(Z, X, Y)$ 来自一个观察性研究，其中： - $Z$ 不是随机分配的，受 $X$ 影响； - $Y$ 是观察到的结果，满足一致性：$Y = Z Y(1) + (1-Z) Y(0)$； - 用倾向分数 $e(X)$ 刻画处理分配机制； - 无混杂性的弱版本：给定 $X$，$(Y(0), Y(1)) \perp Z$（用于 causal 估计）或小区间弱化假设（用于 controlled descriptive comparison）。

此外，样本 $i=1,\dots,n$ 来自复杂抽样调查，每个个体有抽样权重 $w^{svy}_i$（通常与 $X$ 相关），用于将样本推论回有限总体。

可观测数据： - 可直接观测：$(Z_i, X_i, Y_i, w^{svy}_i)$，$i=1,\dots,n$。其中 $w^{svy}_i$ 是 survey 提供的外部设计权重，不是从模型估计出来的。 - 潜在 / 不可观测但需假设可识别：反事实结果 $(Y_i(0), Y_i(1))$；若只做 controlled descriptive comparison（如种族差异），可以不要求反事实可识别，只要求组间的 controlled difference 通过匹配显现。

核心问题：由可观测数据 $(Z_i, X_i, Y_i, w^{svy}_i)$，如何构造 $\tau_h$ 的一致估计量，并得到它的抽样方差？（同时处理 treatment assignment bias 和 survey selection bias）

第二步：最小内核¶

最简特例：假设我们只关心 PATE（总体平均处理效应），且假设： - 倾向分数为常数（即处理完全随机分配）→ 不需要 PS 加权； - 但 survey 权重非平凡：$w^{svy}_i \neq 1$（即不是简单随机抽样）。

在这种退化的极端下，因果估计退化为 survey 估计：ATE 估计就是 $\hat{\tau} = \frac{\sum_i w^{svy}_i Y_i Z_i}{\sum_i w^{svy}_i Z_i} - \frac{\sum_i w^{svy}_i Y_i (1-Z_i)}{\sum_i w^{svy}_i (1-Z_i)}$。但这个估计量当 $Z$ 与 $X$ 相关时（实际中几乎总是）会因混杂而有偏。

现在引入非平凡的 PS：我们要求处理组和对照组的协变量分布近似一样。经典的做法是 IPW：对处理组用权重 $1/e(X)$，对照组用 $1/(1-e(X))$。

核心问题：能不能把 IPW 权重和 survey 权重乘在一起？即对处理组个体用总权重 $w^{total}_i = w^{svy}_i \times (1/e(X_i))$ ？

答案：不能，因为这样做了后，总权重放大 survey 权重的尾部的同时也放大 PS 权重的尾部，导致极端值爆炸。 本文的核心直觉是：必须同时对两个权重进行约束或重定义目标总体。

最小内核的例子（让一个理论统计学家立即理解本文的关键思路）：

令目标总体为 overlap population（两组的协变量分布重叠最大的子总体），其权重函数为 $h_{ov}(X) = e(X)(1-e(X))$。在 survey 环境中，当我们结合 survey 权重时，单个样本的总权重为：

\[w^{final}_i = w^{svy}_i \times \frac{h_{ov}(X_i)}{e(X_i)} \quad \text{（处理组）} \quad \text{或} \quad w^{svy}_i \times \frac{h_{ov}(X_i)}{1-e(X_i)} \quad \text{（对照组）}\]

注意 $h_{ov}(X)/e(X) = 1-e(X)$，所以处理组的权重变为 $w^{svy}_i \cdot (1-e(X_i))$，而对照组的权重变为 $w^{svy}_i \cdot e(X_i)$。神奇的是，这两个权重都是有界的（因为 $e(X) \in [0,1]$），所以完全避免了极端权重问题。这就是 overlap weights 的核心优势：它天然将权重函数 $h(X)$ 选择为有界函数，从而避免 IPW 的极端值问题，即使在 survey 环境下也是如此。

本文的一般化方法：定义一个统一的权重函数 $h(X)$（根据不同目标总体选择，如 $h(X)=1$ 对应 PATE，$h(X)=e(X)$ 对应 PATT，$h(X)=1-e(X)$ 对应 PATC，$h(X)=e(X)(1-e(X))$ 对应 PATO），然后构造 balancing weight 估计量：

\[\hat{\tau}_h^{\text{bal}} = \frac{\sum_i w^{svy}_i \frac{h(X_i)}{e_{sp}(X_i)} Y_i Z_i}{\sum_i w^{svy}_i \frac{h(X_i)}{e_{sp}(X_i)} Z_i} - \frac{\sum_i w^{svy}_i \frac{h(X_i)}{1-e_{sp}(X_i)} Y_i (1-Z_i)}{\sum_i w^{svy}_i \frac{h(X_i)}{1-e_{sp}(X_i)} (1-Z_i)}\]

这个形式在普通（非 survey）情境下是熟悉的 balancing weights 估计量。本文的贡献在于：(1) 将其与 survey 权重相乘后，证明这个乘性组合结构下估计量的一致性与渐近正态性；(2) 推导出闭式 sandwich 方差，其中考虑了 survey 权重的固定性（design-based）和 $e_{sp}(X)$ 估计的随机性（model-based）；(3) 提出 augmented weighting 版本，融合 outcome regression 以获得双重稳健。

三、这篇论文做了什么¶

三句话¶

① 研究了在复杂抽样调查观测数据中，如何整合 survey 权重与倾向分数加权以估计多种总体因果效应（PATE、PATT、PATC、PATO）。② 核心工具是 balancing weights 框架，将 survey 权重作为乘法因子融入统一估计量结构，并加上带 outcome 回归的 augmented weighting 版本，全部 M-estimation 框架下推导闭式 sandwich 方差。③ 主要结果是：所提统一估计量的一致性、渐近正态性成立，闭式方差估计量在大样本模拟和两个真实 MEPS 数据例子中表现与 bootstrap 相近但更简单，且对一系列极端权重情景下比现有替代（未整合 survey 权重的 Ridgway 两阶段法、DuGoff 的 covariate 调整法）有更小的 MSE 和更好的覆盖率。

关键设定与假设¶

在第二节符号基础上补全完整设定：

假设（共 7 个，部分为常规，部分特有）：

假设 1（无混杂性）：$(Y(0), Y(1)) \perp Z \mid X$。标准 setup，用于识别 causal estimand。
假设 2（survey 权重的设计忠实性）：survey 权重 $w^{svy}_i$ 是设计权重的实现，且满足 $E[w^{svy}_i] = N$（总有限总体大小），且 $w^{svy}_i$ 与 $(Z, X, Y)$ 的关系通过设计决定，不是由因果结构产生。这是 survey 文献的常规假设，但在此文中未过度讨论其不可忽略性。
假设 3（正性）：$0 < P(Z=1|X) < 1$ 且有界于 0 和 1（对 target population $h(X)$ 所对应的子总体）。对于 PATO，只需要 overlap 子总体内的正性。
假设 4（一致性）：对每个个体，observed outcome = counterfactual under assigned treatment。
假设 5（PS 模型规范）：logistic 倾向分数模型 $e(X; \beta)$ 被正确指定。这是本文大部分理论成立的基础；augmented weighting 版本可放宽到只需一个模型正确。
假设 6（outcome 回归模型正确或可逼近，用于 augmented 版本）：$m_z(X) = E[Y|Z=z,X]$ 要么由参数模型正确描述，要么可由非参数平滑估计足够好地逼近（本文选择参数化 GLM 加 survey 权重）。
假设 7（M-estimation 的正则条件）：矩条件可微、紧致参数空间、一致矩条件解的存在唯一性等，确保 sandwich 方差可行。

与已有文献比较：相比 Ridgeway (2015) 和 Yang (2023)，本文假设（5）更强（他们允许部分误设定但靠双重稳健补偿），但本文额外要求 PS 模型正确才能 solo 使用 balancing weight 估计量（没有 augmented 版本时）。相比 DuGoff (2013)，本文更系统地用 M-estimation 而非 bootstrap，减少计算负担。

主要结果¶

理论型核心结果（两个定理和两个推论）：

定理 1（加权估计量的一致性）：在假设 1-5 下，$\hat{\tau}_h^{\text{bal}}$ 是 $\tau_h$ 的一致估计量，即 $\hat{\tau}_h^{\text{bal}} \xrightarrow{p} \tau_h$。需要条件：$n \to \infty$，survey 权重设计一致（有限总体近似），PS 模型真。证明的关键难点在于：survey 权重不是独立同分布样本，而是来自固定有限总体的设计加权样本，因此一致性论证需从 design-based survey asymptotics 转写。作者用 M-estimation 的 survey 版本（Binder 1983 框架）绕过了这个角。
定理 2（渐近正态性与闭式方差）：在相同假设下，$\sqrt{n}(\hat{\tau}_h^{\text{bal}} - \tau_h) \xrightarrow{d} N(0, V_h^{\text{bal}})$，其中 $V_h^{\text{bal}} = (D^{-1})_{\tau} M (D^{-1})_{\tau}$，这是标准的 sandwich 方差形式。具体地：
\[V_h^{\text{bal}} = \frac{1}{\left(E[w^{svy}h(X)]\right)^2} \left[ \text{Var}\left(w^{svy}\frac{h(X)}{e(X)} (Y - \tau_h) Z\right) + \text{Var}\left(w^{svy}\frac{h(X)}{1-e(X)} (Y - \tau_h)(1-Z)\right) \right]\]
经 sandwich 调整后还包括由 PS 估计引致的额外变异性。关键突破：这是首次在 balancing weights × survey 环境下给出闭式方差估计量，且不依赖 bootstrap。sandwich 中的 M-matrix 同时编码了采样误差（来自 survey 权重）和估计误差（来自 PS 拟合），避免了双重 bootstrap 的需要。
定理 3（augmented weighting 估计量的一致性）：在假设 1-6 下（允许 PS 模型或 outcome 模型之一正确），$\hat{\tau}_h^{\text{aug}}$ 是 $\tau_h$ 的一致估计量。结构为：
\[\hat{\tau}_h^{\text{aug}} = \hat{\tau}_h^{\text{bal}} - \frac{1}{\hat{E}[w^{svy}h(X)]} \sum_{i} w^{svy}_i \frac{h(X_i)}{e_{sp}(X_i)} Z_i (\hat{m}_1(X_i) - \tau_1) - \text{（对照组类似）}\]
其中 $\tau_1 = E[Y(1)|h-pop]$。证明思想是：通过加入 outcome 回归的残差项，修正了 PS 模型误设定带来的偏差，同时保留了 survey 权重的总体代表性。
定理 4（augmented 版本的闭式方差）：形式上是定理 2 的扩展，M-estimation 维度从 $(\beta, \tau)$ 扩展到 $(\beta, \gamma, \tau)$（$\gamma$ 是 outcome 回归参数），sandwich 包含了 outcome 估计的不确定性。封闭形式详见原文 (15)-(18) 和 Web 附录。

模拟核心结论（针对有限样本）： 作者设计了 6 种情景（不同重叠程度、survey 权重变异性、PS 模型正确/误设定），比较了 6 种方法（本文的无 augmented / augmented 版本 vs. Ridgeway 两阶段法、DuGoff covariate 法、Zanutto 法、Yang 法）。关键数值：

在高重叠 + PS 正确情景下，所有方法表现都很好，但本文的 augmented 版本覆盖率最优（约 95.5%）且 MSE 最小（约 0.42）。
在低重叠 + PS 正确情景下，IPW 类方法（Ridgeway、Zanutto）MSE 增加了 50% 以上，而本文的 overlap weights 法（PATO）MSE 仅增加 8%，覆盖率仍维持 93% 以上。
在 PS 误设定情景下，augmented 版本将非 augmented 版本的 Bias 从 0.08 降到 0.02，证明其双重稳健性质在 survey 环境下依然成立。
极端权重情景下，本文方法的方差估计（sandwich）与 bootstrap 的偏差小于 3%，而其他方法的 bootstrap 偏差达 15-20%。

证明路线与技术技巧¶

整体路线（3-5 步逻辑主干）：

定义矩条件：将所要估计的参数向量 $\theta = (\beta, \tau_h)$ 作为 M-estimation 的解：$\sum_i \psi(O_i; \theta) = 0$，其中 $\psi$ 同时包含 PS 模型的 score 方程和 $\tau_h$ 的显式矩条件。（对 augmented 版本，再加入 outcome 模型的 score 方程 $\psi_Y(O_i; \beta, \gamma)$。）
在 survey 环境下应用 survey-weighted M-estimation（Binder, 1983 框架）：用 survey 权重加权矩条件：$\sum_i w^{svy}_i \psi(O_i; \theta) = 0$。这一步绕过了 survey 设计完全未知的问题，只需要假设设计权重已知且随机（在给定 $X$ 条件下）即可。
展开 Taylor 近似得到渐近方差表达式：写出 $\sqrt{n}(\hat{\theta} - \theta_0) = -\left( \frac{1}{n} \sum_i w^{svy}_i \frac{\partial \psi}{\partial \theta} \right)^{-1} \frac{1}{\sqrt{n}} \sum_i w^{svy}_i \psi(O_i; \theta_0) + o_p(1)$，然后利用 survey 样本的正则性（设计权重可分离）和大数定律来证明第三项是渐近正态。
在 $\tau_h$ 的子块上抽取方差：将全 $p+d+2$ 维的 sandwich 逆的 ($\tau$-$\tau$) 块提取出来，证明它等价于第二节给出的闭式公式。（关键在于：sandwich 中来自 PS 估计的交叉项（即 $\partial \tau / \partial \beta$ 项）可以被显式积分出来，而不是被丢弃或依赖于 bootstrap 再抽样。）

关键跳跃点：

第一个跳跃：如何将 survey 权重 $w^{svy}_i$ 纳入 M-estimation 框架？标准 M-estimation 假设 i.i.d. 采样，但 survey 样本是 design-based 的。作者选择的方法是假设 survey 权重是已知常数（近似于 finite-population 下的大数定律），然后证明 $\sum w_i^{svy} \psi(O_i) / \sum w_i^{svy} \xrightarrow{p} E[\psi]$。这需要 survey 设计权重的设计期望（design expectation） 性质，即 $E_{\text{design}}[w^{svy}_i] = N$ 以及权重的收敛性。这一跳跃并未被严格证明，而是引用 survey 抽样文献的标准结果（Binder, 1983；Fuller, 2011）。
第二个跳跃：在 balancing weights 框架下，$\tau_h$ 的矩条件涉及比率形式（分子是加权平均值，分母是权重的和），这给 Delta method 展开带来额外复杂度。作者通过将估计量写为“联合矩条件的解”——即同时估计 $\mu_1 = E[w^{svy} h(X)/e(X) Y Z] / E[w^{svy} h(X)/e(X)]$ 和 $\mu_0$——将比率问题转化为联合 M-estimation 问题，从而直接获得 sandwich 方差。
第三个跳跃：当估计 PS 模型时，PS 系数 $\beta$ 的估计会通过矩条件中依赖 $\beta$ 的部分（如 $e_{sp}(X_i)$）传播到 $\tau$ 的方差。传统 survey-causal 文献（如 DuGoff 2013）忽视了此项传播，导致方差低估。本文通过将 $\beta$ 放入 M-estimation 联合向量，用 sandwich 的 full matrix inversion 自动捕捉了此项传播。

技术技巧点名：

M-estimation with survey weights：框架层面的核心工具，将设计权重 i.i.d.-ize（通过对 survey weights 施加 design-expectation 假设）。
Sandwich variance estimation：标准的 sandwich 公式加上 Taylor 展开，用于闭式方差。本文的关键 twist 是在 sandwich 的 meat 部分塞入 survey 权重的 design-based 结构和 PS 估计的 model-based 结构。
Influence function decomposition for ratio estimators：利用 $\frac{\hat{A}}{\hat{B}} - \frac{A}{B} \approx \frac{1}{B}(\hat{A} - A) - \frac{A}{B^2}(\hat{B} - B)$ 的一阶逼近将比率形式的 $\tau$ 线性化（Delta method）。
Argument of boundedness for overlap weights：证明 $h_{ov}(X)/e(X)$ 和 $h_{ov}(X)/(1-e(X))$ 的有界性，这是 weight stability 的核心理论保证（对 survey 的情况下，与 survey 权重结合后，乘性权重仍有界等同于 $w^{svy}_i \max\{e(X_i),1-e(X_i)\}$ 有界，作者通过合理的 survey 设计假设保证了这一点）。

真实例子与应用¶

本文包含两个真实数据分析：

例子一——Medical Expenditure Panel Survey (MEPS) 下的种族/医疗花费歧视分析
数据：MEPS 2009–2012 合并数据，目标总体是非机构化美国平民。分析“初级保健医生作为主科医生” vs “专科医生作为主科医生”对总体医疗花费的影响。
如何应用：作者用本文的四种目标总体（PATE、PATT、PATC、PATO）的估计量，结合 survey 权重（MEPS 的个体抽样权重）做 PS 加权。PS 模型是 logistic，包含年龄、性别、种族、收入、保险类型、健康自评等协变量。同时，augmented 版本用 survey 加权线性回归做 outcome 模型。
结果：PATE 估计是 $\hat{\tau}_{ATE} = \$ 1,620$（95% CI: $1,050–$2,190），而 PATT（专科医生 vs 初级保健医生）是 $\hat{\tau}_{ATT} = \$ 1,980$（95% CI: $1,310–$2,650）。overlap 权重法（PATO）结果最稳定（标准差最小），但估计值略小（$1,350, 95% CI: $950–$1,750）。
想说明什么：① 不同目标总体导致不同 estimand 和不同的估计值，实际应用中必须根据研究问题选择；② overlap 权重法的方差最小且极端值权重被自动抑制，即使结合 survey 权重后也保留了稳定性；③ 闭式 sandwich 方差与 bootstrap 结果差异小于 4%，说明 sandwich 在实际数据上可行。
例子二——MEPS 下的癌症筛查间隔分析
数据：MEPS 2014–2016，分析“有雇主提供的私人保险” vs “无雇主提供的私人保险”对是否接受过结肠镜筛查的影响（二值结局）。
如何应用：同上框架，outcome 为二值，用 logistic 回归做 outcome 模型/PS 模型。
结果：PATE = 0.14（SE = 0.03），PATO = 0.12（SE = 0.02）。augmented 版本将覆盖率从 91% 提升到 95%。
想说明什么：二值结局下，augmented weighting 的双重稳健性发挥了作用（outcome 模型提供了额外保护），使得 coverage 接近名义水平。

注意：本文无纯理论推导的例子之外的真实模拟研究。模拟结果已在“主要结果”部分叙述。

🔎 结论是否比证明窄¶

证据：理论部分（定理 1-4）均依赖于 PS 模型正确指定 的假设；而当 PS 模型错误且未使用 augmented 版本时，balancing weight 估计量可能不一致。但作者在 Discussion 末尾提到“Under misspecification of the propensity score model, the balancing weighting estimator targets a shifted estimand (Zhou et al., 2020, demonstrated for overlap weights)”，而 这一事实未被正式证明在 survey 环境下也成立，而是依赖引用。这意味着本文的主要理论贡献严格框架在 PS 模型正确的前提下。不过 augmented 版本在一定程度下放宽了这一点（只需一个模型正确）。
此外，闭式方差公式在所有例子中都没有严格的 finite-sample 调整，所有结论都是大样本的。当 n < 200 且 survey 权重极端时，sandwich 方差可能低估（文中未模拟这种极端情景）。

四、开放问题（点到为止，扎根具体语句）¶

当 PS 模型被误设定且未使用 augmented 版本时，balancing weight 估计量目标是否仍是原始 $\tau_h$？ 作者引用了 Zhou et al. (2020) 的结论（overlap weights 下 shift to a differently weighted estimand），但未在 survey 环境下证明 this shift 对 survey 加权后的总体参数意味着什么。是否会让估计量目标变成一个不可解释的加权平均？请查原文 Section 4.3 倒数第二段：“Under misspecification of the propensity score model, the balancing weighting estimator targets a shifted estimand…”。
augmented weighting 估计量的双重稳健性在 survey 环境下的 full formal proof：作者在文中（Section 3.2）只给出了 sketch（outcome model 的健壮性保护），并引用 Gabriel et al. (2023) 证明普通环境下的双重稳健性，但并未在附录中给出 survey 版本的完整证明（包括 survey 权重不在 outcome 模型 capture 下是否仍保持稳健性）。作者自己在 Discussion 中指出该方向仍需研究：“A more rigorous asymptotic theory for the augmented weighting estimator under survey weights is warranted.”
多种处理组（>2）环境下的统一框架：作者的 balancing weights × survey 框架只覆盖了二元处理。多处理组（如 Li 2019 中广义 overlap weights）在 survey 环境下如何推广？是否仍然能用闭式 sandwich 方差？作者在 Discussion 末尾提到：“Extension to multiple treatments… is a natural direction but requires careful handling of survey weights in high-dimensional setting.” 这直接对应你的 multiple nominal/ordinal treatment 兴趣。
non-ignorable survey weights：本文假设 survey weights 与 $(Z, X, Y)$ 的关系仅通过可观测协变量 $X$ 被捕捉（即 survey weights 是可忽略的 / MAR-like）。但在实际 survey 中，权重常与潜在 outcome 相关（如 nonresponse adjusted weights），违背可忽略性。作者在 Discussion 最后段顺带提及：“When survey weights are informative (correlated with Y given X), additional modeling is required.” 这指向 causal estimation under data missing not at random 与 survey weighted PS 的交汇点。

Maintained by 陈星宇 · Homepage · Source on GitHub

符号	含义	类型
\(Z\)	处理指示变量（0/1）	随机变量
\(X\)	协变量向量（如 \(d\) 维）	随机变量
\(X_i, Z_i\)	个体 i 的协变量与处理	样本
\(Y\)	结果变量	随机变量
\(Y_i\)	个体 i 的结果	样本
(e(X) = P(Z=1	X))	倾向分数
\(e_{sp}(X_i)\)	估计的倾向分数（来自 logistic 或其他 PS 模型）	估计量
\(w^{svy}_i\)	个体 i 的抽样权重（survey design weight）	已知常数（来自 survey 设计文件）
\(h(X)\)	balancing weight 中的权重函数（决定目标总体）	分析师指定
\(\tau_h\)	使用权重函数 h 时的加权平均处理效应	目标参数（estimand）
\(\hat{\tau}_{w}^{\text{bal}}\)	基于 balancing weights 的估计量	估计量
\(N\)	有限总体大小（survey 的目标总体）	常数（通常很大）
\(n\)	样本量	常数
\(p\)	协变量维数	常数
\(\beta\)	PS 模型（logistic）中的系数	参数（需估计）
\(m_z(X)\)	(E[Y	Z=z,X])，结果回归函数