Illustrating Poststratification Methods in Medical Claims Data: A Korean Example¶

作者: Yeon Woo Oh
来源: Epidemiology
主题: 流行病学
相关性: 7/10
链接: https://doi.org/10.1097/ede.0000000000001980

一、领域脉络与小综述¶

方向是什么
本文聚焦的统计问题是：当研究只能获取非概率样本（如行政健康数据库、电子病历、自愿参与体检数据）来估计目标总体的某个健康指标时，如何通过重加权（reweighting）校正因自选择引入的 sampling bias，使得推断对目标总体具有 generalizability（或 transportability）。这是调查统计与流行病学中一个经典的“非概率样本推断”（inference from nonprobability samples）子方向，近年来因电子健康记录（EHR）和行政数据的广泛使用而重新受到关注。

发展脉络（基于常见引用与本文抽象）
由于用户未提供论文的完整 introduction 和参考文献列表，以下脉络基于该领域的已知关键文献和本文抽象中提及的方法名称构建：

奠基工作：传统调查抽样中的 poststratification 和 raking（如 Deming & Stephan 1940; Little 1993）。这些方法假设辅助变量（年龄、性别等）的总体边缘或联合分布已知（来自普查或代表性调查），通过对样本单元按辅助变量分层后乘以权重来匹配总体分布，从而校正抽样框偏差。缺点是单元格内样本量小时估计不稳定（数据稀疏问题）。
主要进展：Multilevel Regression with Poststratification (MRP; Gelman & Little 1997, Gelman 2007). MRP 利用多水平模型（multilevel / random-effects）在单元格（如地区-年龄-性别组合）间借用信息，平滑估计各单元格的均值，再对各单元格进行 poststratification。这使得在辅助变量维数较高、单元格稀疏时也能获得稳定估计。MRP 在政治学和公共卫生中广泛应用。
另一分支：Inverse Probability Sampling Weights (IPW). 将参与概率（或“被选入非概率样本的概率”）建模为辅助变量的函数（通常用 logistic 回归），然后用权重的逆概率对样本估计进行重加权。这类似于倾向得分加权，但其目标是将非概率样本“校正”为代表总体的目标分布。如果参与概率模型正确且参与决定是 ignorable given X，则估计一致。
当前 frontier & 本文位置：当前前沿包括使用机器学习的更灵活权重估计（如 GBM, LASSO, BART）、双重稳健估计（DR），以及用于 generalizability 的半参数效率理论（如 Dahabreh 等 2020）。本文的位置是 一个实证示范：不提出新方法，而是用韩国真实的行政数据（NHIS）与参考调查（KNHANES）对比四种经典重加权方法（simple poststrat, raking, MRP, IPW）在估计肥胖率与自报疾病敏感度上的表现。论文的价值在于提供“在非概率样本上应用 poststratification 的完整工作流”以及方法间的实证比较结果。

子线索聚类
1. 直接 poststratification 类：simple poststratification（按 cell）、raking（迭代拟合边缘分布）。这类方法不需要估计模型，只需总体细胞分布；处理数据稀疏时 raking 比 simple 更灵活。 2. 多水平模型类：MRP，通过随机效应平滑稀缺单元格，适用于高维分类辅助变量。 3. 倾向得分/IPW 类：IPW，通过估计参与概率建模，与处理不可忽略的选择机制（selection on observables）紧密相关。

本文追问的核心问题
- 非概率样本的偏差有多大？
- 四种常见重加权方法在真实数据中能否将估计校准到代表性调查的数值？
- 方法的残余偏差来源是什么？

⚠️ 作者的 framing：
作者将缺口 frame 为“尽管 poststratification 方法在理论上被提出，但实际应用于大型行政数据的案例有限，且各方法的实证比较欠缺”。于是本文成为“示范性应用与比较”这一显然的下一步。竞争路线（如 DR 估计、半参数效率界、传输性（transportability）的因果识别条件）未被比较或强调。明显缺乏的：没有引用 Dahabreh 等关于 generalizability 的半参数理论、没有讨论未观测混杂导致的残余偏差、没有进行理论效率比较。这些是研究者可自行检索核查的 gap。

张力：未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

记号：
\(Y\)：感兴趣的结局变量（本文中为二值：是否肥胖，或自报疾病是否准确）。
\(\mathbf{X} = (X_1, \dots, X_p)\)：辅助变量向量（本文中为年龄分组、性别、吸烟、饮酒、地区）。
目标总体 \(T\)：韩国 20–39 岁成年人。
参考标准样本 \(S_{\text{ref}}\)：KNHANES 调查，假设为 target population 的无偏代表性样本。从 \(S_{\text{ref}}\) 可得到 \(\mathbf{X}\) 的边缘/联合分布 \(P_T(\mathbf{X})\)。
非概率样本 \(S_{\text{np}}\)：NHIS-NSC 健康体检参与者（自愿参与）。可观测到 \((Y_i, \mathbf{X}_i)\) for \(i=1,\dots,n\)，但参与概率依赖于 \(Y\) 和 \(\mathbf{X}\)，即 selection bias。
目标 estimand：总体均值 \(\theta = \mathbb{E}_T[Y]\)（如肥胖率）。
权重 \(w_i\)：对样本 \(S_{\text{np}}\) 中每个个体赋予的权重，使加权后的分布近似于 \(P_T(\mathbf{X})\)。
单元格（cell）：由 \(\mathbf{X}\) 分类变量形成的组合（如 age×sex×region）。
模型与数据生成机制：
假设所有辅助变量 \(\mathbf{X}\) 在总体 \(T\) 中的联合分布 \(P_T(\mathbf{X})\) 可从参考调查 \(S_{\text{ref}}\) 推断（通常认为 \(S_{\text{ref}}\) 是概率样本，故无偏）。
非概率样本 \(S_{\text{np}}\) 通过未知的选择机制 \(S\) 从总体中抽取：\(\Pr(S=1 \mid Y, \mathbf{X}) \neq \Pr(S=1 \mid \mathbf{X})\)（即 selection may depend on \(Y\) even conditional on \(\mathbf{X}\)）。
常见的识别假设：条件可忽略性（conditional ignorability） \(\Pr(S=1 \mid Y, \mathbf{X}) = \Pr(S=1 \mid \mathbf{X})\)，即给定 \(\mathbf{X}\)，参与决策与结局独立。在此假设下，可通过重加权校正偏差：\(\mathbb{E}_T[Y] = \mathbb{E}_{S_{\text{np}}}[ Y \cdot \frac{\Pr(S=1 \mid \mathbf{X})^{-1}}{\mathbb{E}[ \Pr(S=1 \mid \mathbf{X})^{-1}] } ]\)，或更简单地对 \(\mathbf{X}\) 进行 poststratification。
本文直接假设辅助变量 \(\mathbf{X}\) 的总体分布已知（来自 KNHANES），而不显式建模选择概率。
可观测数据：
来自非概率样本 \(S_{\text{np}}\)：每个观测有 \((Y_i, \mathbf{X}_i)\)。
来自参考样本 \(S_{\text{ref}}\)：每个观测有 \(\mathbf{X}_i\)（无 \(Y\)，或也有 \(Y\) 用于作为黄金标准）。本文中 KNHANES 提供了 \(Y\) 的 reference estimate 以作比较。
不可观测：
- 总体真实的 \(Y\) 分布（待估计）。
- 每个个体的选择概率 \(\Pr(S=1 \mid Y, \mathbf{X})\)。若选择依赖于未观测变量，则无法通过 \(\mathbf{X}\) 完全校正。

第二步：最小内核¶

最简特例：设辅助变量只有 年龄（2 个组：20–29, 30–39） 和 性别（男、女），即 \(\mathbf{X} \in \{ (\text{young,F}), (\text{young,M}), (\text{old,F}), (\text{old,M})\}\)，共 4 个单元格。目标总体中每个单元格的比例已知（例如从 KNHANES 获得）：\(p_{jk}\)。
非概率样本 NHIS 中每个单元格的样本量为 \(n_{jk}\)，单元格内结局均值 \(\bar{Y}_{jk}\)。
Simple poststratification estimator：

\[\hat{\theta}_{\text{PS}} = \sum_{j=1}^{J} \sum_{k=1}^{K} p_{jk} \cdot \bar{Y}_{jk}\]

即用目标总体的单元格比例作为权重，对样本单元格均值加权平均。

为什么这是核心：
- 它直接体现了 poststratification 的核心思想：通过按 \(\mathbf{X}\) 的分层，对每层用总体比例的权重重加权，消除因层内抽样比例与总体比例不一致造成的偏差。
- 当单元格足够大（每个 \(n_{jk}\) 不小）且层内 \(Y\) 的分布与总体对应层一致时（即 selec. only within cells），该估计量无偏（在条件可忽略假设下）。
- 本文其他方法是这个基本形式的推广：raking 放松了需要知道全部分类联合分布的条件（仅需边缘），MRP 解决了单元格稀疏时的方差与偏差权衡，IPW 从另一个角度（建模参与概率）。

论文的一般情形只是对多个辅助变量、更高分类数以及稀疏单元格问题的处理。MRP 通过多水平回归模型对每个单元格的均值 \(\bar{Y}_{jk}\) 进行平滑（借用强度），再 poststratification。

三、这篇论文做了什么¶

三句话
① 本文以韩国 NHIS 非概率样本（健康体检数据）估计肥胖率与自报疾病敏感度为例，展示了四种重加权方法——simple poststratification、raking、MRP、IPW——的完整应用流程。
② 方法上，每种重加权都利用辅助变量（年龄、性别、吸烟、饮酒、地区）的总体分布（来自 KNHANES 代表样本）对 NHIS 样本进行校正；MRP 额外使用多水平 logistic 回归在地区-年龄-性别等小单元格中平滑估计。
③ 主要结论：crude 肥胖率 36.3% 经各方法校正后降至 33.9%–34.7%，明显朝向参考值 31.4% 降低，但仍有约 2.5–3.3 个百分点的残余偏差；自报疾病敏感度校正后均降低（表明体检参与者自报更准确）。

关键设定与假设
- 设定：目标总体：韩国 20–39 岁成年人。非概率样本：NHIS-National Sample Cohort（NSC）中 2019 年参与健康检查的人。参考标准：KNHANES（韩国国家健康与营养调查，采用多阶段概率抽样）。结局：肥胖（BMI ≥ 25）。
- 假设：
- KNHANES 是目标总体的无偏概率样本（因此可提供总体辅助变量分布和黄金标准估计）。
- 条件交换性（或“无未观测混杂”）未被显式声明——实际上作者隐含接受：给定观测到的辅助变量（年龄、性别、吸烟、饮酒、地区），选择偏差被彻底校正。然而残余偏差的存在暗示这可能不完全成立。
- 对于 MRP，假设多层模型的随机效应结构（如地区、年龄、性别随机截距）足够灵活地捕捉了单元格均值变化，且无交互作用（仅加性主效应）。
- 对于 IPW，假设参与概率模型的 logistic 形式正确。

主要结果（量化）
| 方法 | 肥胖率估计 (95% CI) | 与参考值 (31.4%) 的绝对偏差 |
|------|---------------------|----------------------------|
| Crude (未加权) | 36.3% (36.0–36.6) | +4.9% |
| Simple poststrat (年龄+性别) | 33.9% (33.6–34.2) | +2.5% |
| Raking (加吸烟、饮酒) | 34.7% (33.9–35.5) | +3.3% |
| MRP (加地区) | 34.2% (33.3–35.0) | +2.8% |
| IPW (基于参与概率) | 33.9%–34.1% | +2.5%–2.7% |

所有校正方法的置信区间均不包括参考值 31.4%，表明残余偏差显著（即使改善）。
自报疾病敏感度：高血压、糖尿病、血脂异常、中风的敏感度在 poststratification 后均下降（例如高血压敏感度从 0.69 降至 0.65 左右），提示体检参与者比一般人群更准确报告疾病史。

证明路线与技术技巧
本文为纯实证，无理论证明。技术路线分为四步：

数据处理与辅助变量定义：从 NHIS-NSC 提取年龄（2 组）、性别、吸烟（三分类）、饮酒（二分类）、地区（16 个市/道）。
总体分布提取：从 KNHANES 计算各辅助变量（边缘或联合，取决于方法）的分布。
重加权方法实现：
Simple poststrat：按年龄×性别 4 个单元格，用 KNHANES 该组人数比例加权。
Raking：用年龄、性别、吸烟、饮酒的边缘总体比例，迭代调整权重至收敛。
MRP：拟合二水平随机截距 logistic 模型（个体-地区），协变量为 age、sex、smoking、alcohol、region（随机截距），获得每个个体的预测概率 \( \Pr(Y=1\mid X)\)，再对预测概率按年龄-性别-地区（或其他分类？) 的总体联合分布进行 poststratification（即计算单元格内平均值，再用总体比例加权）。
IPW：用 logistic 回归估计 NHIS 参与概率（以 KNHANES 为参考，注意此处构建的“参与”概率是将 NHIS 样本视为“处理组”，KNHANES 样本视为“对照组”，以是否在 NHIS 中为因变量，X 为协变量），然后对 NHIS 观测值赋予预测概率的逆作为权重（经归一化）。
自报疾病敏感度估计：对每个疾病，用 KNHANES 的临床诊断作为金标准，计算 NHIS 中自报的敏感度，再对敏感度做 poststratification 校正（似应用了服从二项分布的多水平模型？文章并未详细说明敏感度的 poststratification 过程，仅称“applied poststratification to evaluate accuracy”）。

真实例子与应用
- 数据：NHIS-NSC 约 1,000,000 人构成的样本队列，其中 2019 年参与健康检查者（约 20–39 岁共 117,206 人）；KNHANES 2019 年（概率样本，约 8,000 人）。
- 如何应用：将 NHIS 样本当作非概率样本，将 KNHANES 当作总体参考；计算 crude 肥胖率，再用前述四种方法校正；对自报疾病敏感度进行类似校正（但方法描述较模糊）。
- 结果：如上表。论文还给出按子组（如性别）的校正后估计。
- 例子想说明：① poststratification 能显著降低偏差，但无法完全消除；② 各方法间差异不大（这可能是由于辅助变量共同交集有限，或选择机制主要由观测到的协变量驱动）；③ MRP 和 raking 允许加入更多变量，但在本例中并未表现明显优于 simple poststrat；④ IPW 结果与 simple poststrat 接近（两者理论上在特定设定下等价）。

🔎 结论是否比证明窄
本文是实证示范，无理论 claim。但作者在 conclusion 中写道“Poststratification provides a principled framework for improving population-level inferences from nonprobability samples. These methods warrant broader application…”——该 statement 适用于条件可忽略性成立的情形。但本文的残余偏差表明条件不可忽略性可能违反，故 “principled framework” 的适用性比实证演示窄（仅当假设成立时）。文章未讨论该假设。

四、开放问题（扎根具体语句）¶

残余偏差的来源识别：文中各校正方法后仍有约 2.5–3.3pp 偏差。作者未讨论这是否源于条件可忽略性违反（即未观测的混淆变量，如收入、健康意识）。来自结论：“residual biases suggest the selected covariates may not fully capture selection mechanisms.” 后续问题：能否通过敏感度分析（如强调输入单未观测混杂的偏倚公式）或使用辅助数据的 proxy 变量来量化残余偏差？
MRP 与 raking 为何未优于 simple poststrat：文章表 1 显示 simple poststrat（仅用 age×sex）的偏差竟然小于 raking（加 smoking, alcohol）和 MRP（加 region）。这不同于理论预期——加入更多相关变量应减少偏差。作者未给出解释。开放问题：这种反直觉结果是否因为加入的变量（smoking, alcohol, region）与肥胖率关联弱，或因为加权后的样本量分布相对于总体分布过于极端的方差影响？是否可以通过诊断权重分布（如有效样本量）来理解？
IPW 与 poststrat 的等价性与效率比较：文中 IPW 与 simple poststrat 结果非常接近。理论上，当参与概率模型为 saturated（即与 poststrat 单元格一一对应）时，IPW 估计量等价于简单 poststrat 估计量。但 raking 和 MRP 属于不同类别。开放问题：能否在半参数框架下推导这些估计量的 asymptotic variance，并比较它们在给定辅助变量集合下的效率？这与研究者感兴趣的 semiparametric efficiency theory 直接相关。
自报疾病敏感度的 poststratification 细节缺失：文中对敏感度的校正方法描述极简（仅一句话“Poststratification was also applied”），未说明敏感度是如何重加权（个体水平？单元格水平？是否也用 MRP？）。根据 Log of data analysis，这是一个技术细节缺口：对于二值敏感度（是否正确报告），标准 poststratification 应是对敏感度指示变量做 neighbourhood 内平均再加权，但需要个体金标准。重现该分析需要填补这一步骤。

Maintained by 陈星宇 · Homepage · Source on GitHub