Patient recruitment using electronic health records under selection bias: A two-phase sampling framework¶

作者: Guanghao Zhang, Lauren J. Beesley, Bhramar Mukherjee, Xu Shi
来源: Annals of Applied Statistics
主题: 流行病学
相关性: 7/10
机构绿灯: University of Michigan（US News 前 50，免分进入精读）
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在利用电子健康记录（EHR）进行临床研究时，如何以最低的成本（研究经费、测量成本）从庞大的EHR数据库中“主动筛选”招募有限数量的受试者，从而在控制选择偏差的前提下，实现对目标人群（如全美成年人）的某种参数（如患病率）的高效估计。核心矛盾在于：EHR数据体量巨大但并非随机样本（存在选择偏差），且真实终点（金标准）的测量昂贵；而EHR中却包含大量廉价的辅助信息（如病历代码、既往诊断）。该方向旨在将经典的“两阶段抽样”（two-phase sampling）设计适配到EHR这个特定场景，并推导出最优的抽样策略。当前成熟度：有坚实的理论基础（经典抽样、缺失数据），但在EHR的具体约束下（选择偏差机制复杂、辅助信息丰富但高维）仍处于主动方法论发展的阶段。

发展脉络（从 introduction + 参考文献构建）¶

奠基工作（经典两阶段抽样与最优分配）：Two-phase sampling 的统计基础在经典抽样与缺失数据文献中早已稳固。McIsaac and Cook [2015] 的工作直接相关，它提出了“响应依赖”的两阶段自适应设计，利用内部预实验的信息近似最优抽样方案，用于基于均值得分的估计方程。这是本论文方法的核心祖先。Boyd and Vandenberghe [2004] 关于凸优化的经典著作被引用于求解KKT条件，是求解作者提出的带有约束的最优抽样问题的技术基石。这些工作奠定了“如何根据协变量信息来优化抽样”的基本框架。
主要进展（EHR作为研究资源的兴起与挑战）：
- 机遇层面：Cowie et al. [2016] 和 Mc Cord and Hemkens [2019] 等评论文章广泛讨论了EHR用于患者招募和数据收集的巨大潜力。Beesley et al. [2019] 描述了与EHR链接的生物样本库的快速增长，并指出抽样设计和缺失数据是关键统计挑战。
- 挑战层面：Haneuse and Daniels [2016] 提出了一个揭示EHR选择偏差的框架，核心观点是EHR中的数据缺失并非随机，而是由患者、医生和医疗系统的一系列复杂决策（“谁去医院？去了几次？记录了哪些信息？”）导致的，这被称为“知情存在偏差”（Informed Presence Bias, IPB）。Phelan, Bhavsar, and Goldstein [2017] 用实际例子具体展示了IPB如何导致选择偏差、信息偏差和混杂偏差。Beesley and Mukherjee [2019] 则针对性地提出了在EHR关联研究中同时处理选择偏差和结果误分类的似然基方法，使用了校准和逆概率加权等调查抽样方法。Effoe et al. [2016] 等文章则展示了EHR招募的实际效果——虽然经济有效，但招募的样本与其目标人群存在明显差异（如更年轻、更白、商业保险更多），这正是选择偏差的直接证据。
当前 Frontier 与交叠：Bennett, Vielma, and Zubizarreta [2018] 的工作是一个重要的交叠点，他们提出了新的匹配方法来构建“对目标人群有代表性的加权样本”，这与两阶段抽样设计的最终目标（得到代表总体的估计算子）密切相关，但方法路径不同，作者在引言中将其作为代表性匹配的替代方案提及。Shi, Pan, and Miao [2021] 回顾了数据整合的因果推断方法，这与本文利用“外部目标人群信息”（如Census数据）来校正偏差的思想相呼应。
本文的位置：本文作者认为，已有文献大多关注“被动的、回顾性EHR数据分析”中的偏差校正，或者“经典两阶段抽样”下的最优设计，但缺少将两者结合的理论框架——“在EHR数据存在选择偏差的环境下，如何主动设计第二阶段的招募方案以优化估计”。 他们将自己的工作定位为“EHR数据下两阶段最优抽样设计”的首个系统理论，填补了利用廉价辅助变量（X）在偏差样本（第一相位）中优化昂贵变量（Y，如金标准测量）收集策略的空白。

子线索聚类¶

这些被引文献大致落在以下几条子线索上：

线索A（EHR的机遇与挑战）：
- 核心问题：EHR作为研究资源的潜力与陷阱。
- 成员：Cowie 2016, Mc Cord 2019, Haneuse 2016, Phelan 2017, Bower 2017, Shortreed 2019。
- 内容：主要讨论EHR用于研究的可能性、选择偏差（知情存在偏差）的成因、以及对样本代表性的担忧。
线索B（偏差校正方法论）：
- 核心问题：如何从有偏差的EHR数据或生物样本库样本中进行有效的统计推断。
- 成员：Beesley 2019, Beesley & Mukherjee 2019, Bennett 2018, Stuart 2010。
- 内容：发展各种统计方法来处理选择偏差和/或测量误差，包括校准、逆概率加权、匹配、半监督学习等。
线索C（两阶段抽样与最优设计）：
- 核心问题：如何利用辅助信息来设计高效的（成本-效率最优）抽样方案。
- 成员：McIsaac & Cook 2015, Schildcrout 2011。
- 内容：处理“响应依赖”或“结果依赖”抽样，利用廉价的预实验或辅助变量来优化抽样概率，是本文方法的直接理论来源。
线索D（数据整合与因果推断）：
- 核心问题：如何结合多个异质数据源进行推断，例如RCT与真实世界数据。
- 成员：Shi 2021。
- 内容：提供了一个更广阔的视角，将EHR数据视为“外部”数据源，与目标数据（如Census或精心设计的调查）进行整合。

这个方向在追问的核心问题¶

如何刻画并量化“知情存在偏差”：选择偏差的机制（Missing-Not-at-Random的程度）是否可识别？需要怎样的外部信息？
如何在设计阶段而非分析阶段校正偏差：主动抽样设计（outcome-dependent, auxiliary-dependent）能否比事后统计校准（IPW, calibration）更优？
高维辅助协变量的利用：当辅助变量维度很高时（如成千上万个ICD代码），如何在不引起维数灾难或过拟合的前提下，有效建立抽样概率模型并找到最优分配？本文将X限制在低维（如疾病类别、一个预测风险评分）。

⚠️ 作者的 framing（必须明确标注为“这是作者的说法”）¶

缺口：作者声称 “现有方法要么处理选择偏差，要么处理抽样设计，但未在EHR的背景下将两者整合”。这是一个战略性的仗势——它让本篇论文成为“显然的下一步”。但实际上，将“校准 / IPW”经典方法应用于“两阶段设计”后的第二相分析，本身就是该领域常见的做法（如Beesley 2019已提及）。作者的真正贡献，可能更在于推导了在特定偏差模型下，使估计方差最小化的 第一相抽样概率（而非仅仅使用随机抽样或古典最优分配）。
被回避的竞争路线：
- 基于代表性匹配的方法（Bennett et al. 2018）：作者承认这是一种替代方案，但将其归结为“高度依赖目标人群总体协变量分布的可获得性”，而本文方法也完全依赖这一点，所以优势需要仔细对比。
- 完全贝叶斯或似然基的联合建模：本文使用的是“半参 / IPW”框架，而像Beesley & Mukherjee [2019]那样通过同时对Y|X, X等多层结构建模的方法也完全可行。作者没有深入比较两者在EHR设定下的利弊（计算 vs 鲁棒性 vs 效率）。
什么明显该被引却没出现在intro里？
- 缺失数据/因果推断中利用“代理变量”的文献：特别是 Wang 和 Blei 等人关于“代理变量的缺失机制”（proximal causal inference）的工作。EHR中的辅助变量（历史诊断、检查次数）本质上就是“知情存在”的代理变量（proxy）。本文对辅助变量 (X) 的处理是“已知且与Y相关”，但X可能同时与选择机制（休/去医院的决定）相关。这种结构有经典的代理变量文献可参考。
- 更一般的measurement error文献：Y（金标准）是从子样本中测量的，但第一相中的Y（来自EHR）是粗糙的，这是典型的“Validation study”或“Two-phase study”在 response error下的设定（如Carroll, Ruppert, Stefanski的经典著作）。虽然形式上有交集，但作者巧妙地避开了，因为他们的核心结果是针对各有偏的EHR样本。

张力¶

未见明显对立引用。被引工作彼此之间互补性大于对立性。例如，Haneuse & Daniels指出偏差来源，Beesley & Mukherjee提供校正方法，McIsaac & Cook提供设计优化，这些工作被作者串起来形成了自己的研究故事。唯一的“张力”潜在于“在线偏差校正(IPW,Calibration)”和“主动代表性抽样(如Bennett’s matching)”两种思潮之间，但作者选择了前者（用IPW整合两阶段），并温和地提及后者作为对比。

二、最核心、最简单的例子 / 数学问题（符号 / 模型 / 可观测数据 + 最小内核）¶

第一步：符号、模型、可观测数据¶

符号：
- \( i \)：个体索引（\( i = 1, \ldots, N \)）。N 是 EHR总体的规模（通常非常大）。
- \( j = 1, \ldots, J \)：目标人群层（strata）。作者将目标人群（外部的，如Census数据中的人口）划分为互斥的层。
- \( \theta \): estimand ：目标人群的总体均值（如高血压患病率）或均值差（如治疗组和对照组的患病率差）。这是我们需要估计的量。
- \( Y_i \):代价变量（昂贵金标准）：我们真实希望测量的最终结果变量（如严格按指南血压测量结果）。只有进入第二阶段的受试者才能测量到Y。在目标人群中，我们定义 \( Y_i \) 就是目标结果。
- \( X_i \):辅助协变量（廉价预测因子）：在EHR中普遍可得、且与Y相关的变量（如基于历史记录预测的高血压患病概率，或一个简单的ICD-10代码“I10”的有无）。X是个体i的已知函数，可以完美观测于第一阶段（所有N个人都能看到EHR中的X）。
- \( S_i \):选择指示符（第一相抽样）：个体i是否被纳入到EHR平台的分析样本中？\( S_i = 1 \) 表示个体出现在EHR中有数据；\( S_i = 0 \) 表示没出现、无记录（但理论上属于目标人群）。这是选择偏差的来源。假设 \( S_i \) 是随机的给定X 和层变量，即 \( P(S=1 | Y, X, 层) = P(S=1 | X, 层) \)——可忽略的选择机制假设（MAR given X）。
- \( \delta_i \):第二相抽样指示符：在那些 \( S_i=1 \) 参与到EHR的样本中，才决定要不要测量其昂贵的Y。这是个“子抽样”。
- \( \pi_i = P(\delta_i = 1 | S_i = 1, X_i) \)：作者设计并可以控制的第一相抽样概率（实际上，作者称为“第二相抽样概率”，但从目标人群到EHR是第一相，从EHR到子样本是第二相；但作者将“EHR的入选”视为第一相，将“人工回顾测量Y”视为第二相）。
模型与可观测数据：
- 数据生成流程：目标人群（有X, Y, 层） → 通过自然就诊/医疗行为被“选入”EHR数据库（实测到 \( X_i, S_i=1 \)，Y 基本不可见）→ 研究者基于X设计抽样概率 \(\pi_i\) → 从EHR子集中抽取样本测量Y（可见 \( Y_i \)）。这就是可观测数据的形态。
- 结构模型：作者的核心模型是一个基于层（stratum）的均值和方差模型。他们将目标人群（基于外部信息如Census）划分为J个层。在每个层j中：
  - \( N_j \)：层j中的总人数。
  - \( n_{1j} \)：层j中EHR子集的人数（\( S_i=1 \)）。
  - \( \bar{Y}_j \)：我们想估计的层j中的Y均值（是\( \bar{Y}_{target,j} \)）。
  - \( \sigma^2_{Y,j} \)：层j中Y的方差（认为是已知或可估，但在实际中需要估计或假设稳定）。
  - \( p_j = n_{1j} / N_j \)：每个人的“入EHR”概率。这是已知的吗？不！在EHR背景下，\( N_j \)（目标人群总人数）是已知的（如Census公布的人数），而\( n_{1j} \)（EHR总人数中属于该层的）也是可计算出的。所以 \( p_j \) 是可估算的概率或固定的已知量（取决于怎么定义层）。关键点是：\( p_j \) 不是由研究者控制的，而是由“知情存在”决定的。
  - 可观测数据：
    - 第一阶段（EHR数据库 \( S=1 \)）：\(N\) 个观测，包含 \(X_i\) （各种廉价辅助变量）。没有 \(Y_i\)。
    - 第一阶段（目标人群外部信息）：\(N_j\)（各层总数）已知。
    - 第二阶段（有金标的子样本 \(S=1, \delta=1 \)）：\(n_2\) 个观测，包含了 \(X_i, Y_i\)，和第一阶段的抽样概率 \(\pi_i\)。研究者知道他们自己的抽样规则 \(\pi_i\)。
    - 不可观测量：\(Y_i\) 对那些第一波就未被记录在EHR的人（\(S=0\)），或第一波在EHR但未被抽入第二波（\(S=1, \delta=0\)）的人。

第二步：最小内核——估计单一平均值的朴素版本¶

把作者的繁复设定简化到极致：我们只关心估计一个EHR人群中的单一均值（假设没有目标人群代表性选择偏差的担忧，或者假设EHR就代表目标人群，即\( S=1 \)全部随机发生，辅助变量X没有选择效应）——这完全还原成经典的两阶段最优抽样问题。

假设：
- 没有选择偏差：目标人群就是 EHR中的这群人（\( p_j = 1 \)）。或者，在分析阶段，我们只关心EHR人群中的均值。
- 辅助变量 \( X_i \) 将人群分成若干层（比如只是基于X的一个简单分类）。
- 每个个体 \(i\) 有一个昂贵的代价函数 \( C_i \)，测量Y的成本（简单认为每个Y测量成本为\( c \)）。
要估计的东西：\( \theta = E[Y] \)，即EHR人群中Y的期望。
可观测数据：整个EHR的N个人都有\( X_i \)。我们只对其中 \( n_2 \) 个测量了 \( Y_i \)。
Estimator（IPW的简单版本）：
- Hat matrix: \( \hat{\theta} = \frac{1}{N} \sum_{i=1}^{N} \frac{Y_i \cdot \delta_i}{\pi_i} = \frac{1}{N} \sum_{i=1}^{N} \frac{I_i}{\pi_i} \)，其中 \( I_i \) 是在第二相被选中且有Y的指标。实际上更标准的写法是直接平均第二相的加权Y：\( \hat{\theta} = \frac{1}{N} \sum_{i=1}^{n_2} \frac{Y_i^*}{\pi_{i}^*} \) （注意求和范围的变化）。更常用的是每层独立计算：如果在层j中共有 \( n_{1j} \) 个EHR个体，我们抽取 \( n_{2j} \) 个（比例为 \(\pi_j\)）来测量Y，则 \( \hat{\theta} = \sum_{j} \frac{N_j}{N} \cdot \bar{Y}_{2j} \)，其中 \( \bar{Y}_{2j} \) 是第二相样本层j的Y均值。方差近似为 \( V(\hat{\theta}) \approx \sum_{j} (\frac{N_j}{N})^2 \cdot \frac{\sigma^2_{Y,j}}{n_{2j}} \)，加上抽样内部的方差成分，但总体思路是方差反比于每层抽样量。
最小内核的关键点 / 困难：
- 作者面临的问题不是简单的分层随机抽样。核心引入了一个未知的、由自然过程（知情存在）决定的入EHR概率。所以我们需要估算 \(\ p_j = n_{1j} / N_j \)（这是对真实选定概率的估计，在这里 \(n_{1j}\) 已知，\(N_j\) 来自Census）。加上第二层抽样，我们虽然可以知道第二层的抽样概率，但第一阶段的“随机/非随机”性改变了方差的构成。
- 核心命题退化为：如何在已知/可估的第一层入EHR概率（由自然机制决定，不可控）下，选择第二阶段的抽样概率 \( \pi_j \)，最小化估计 \(\theta\)（总体目标人群均值）的方差，同时受到总测量预算B（\( \sum c_j n_{2j} < B \)）和每层最大可能抽取人数的限制（\( n_{2j} < n_{1j} \)）。
作者的关键想法：忽略第一相位选择机制带来的方差和假设Y方差在各层固定，问题转化为一个经典的Neyman分配问题。作者证明了，要最小化加权均值的方差，最优的第二相抽样数量应与层规模（\(N_j\)）和层内方差（\( \sigma_{Y,j} \)）的乘积成正比，与测量成本（\(c_j\)）的平方根成反比，并还受到入EHR概率的调整（你抽不到那些不在EHR里的人！）。这就把问题分解成一个带线性约束的凸优化问题，通过拉格朗日乘数法（KKT条件）能直接得到解析解。这是文章最核心的一个数学结果。

三、这篇论文做了什么（本次重心）¶

三句话：
1. 研究问题：当利用存在选择偏差的电子健康记录（EHR）来为昂贵的结局（Y）招募受试者时，如何利用EHR中廉价的辅助变量（X）来设计最优的“两阶段抽样”方案，以高效估计目标人群的均值（或均值差）。
2. 核心方法：提出一种基于最优分配理论的两阶段抽样框架：第一步通过外部目标人群信息（如Census数据）校正EHR的内生选择偏差（通过IPW或分层估计）；第二步，在给定总预算（B）和EHR中各辅助变量层的样本量约束下，通过求解带约束的凸优化问题（KKT条件），推导出最小化估计量方差（效率）的每层最优抽样数量 \(n_{2j}^*\)。
3. 主要结论：证明该最优设计在控制选择偏差的同时，能在预算约束下显著提升效率（方差减小数倍以上），优于简单随机抽样、按比例分配等常见方案，并通过模拟和真实数据（Michigan Genomics Initiative）验证。
关键设定与假设：
- 定义：\( \theta \) 为目标人群均值（如高血压总体患病率）。采样框架需通过构造一个有偏目标校正的estimator，比如加权平均：\( \hat{\theta} = \sum_{j} w_j \bar{y}_{j} \)，其中 \( \bar{y}_{j} \) 是第二相样本的层均值，\( w_j = N_j / N \) 是外部目标人群（Census）的已知层权重。或者使用采用模型基的IPW。
- 记号补全（见第二节）。
- 假设（很重要）：
  1. Ignorable selection given X and stratum：入选EHR (\( S=1 \)) 仅依赖于观测到的Tier 1变量（辅助变量X和已知的层变量），而与目标变量Y独立。即 \( P(S=1|Y, X, 层) = P(S=1|X, 层) \)。这是可识别性的关键，作者承认这个假设很强，但这是EHR文献中的标准工作假设。如果X不能解释所有选择偏差，估计仍会有偏。这比 “MAR (Missing At Random)” 弱一些？不， “Given X and stratum” 下的 MAR 就是指 \( P(S=1|Y, X, 层) = P(S=1|X, 层) \)。作者将其当作基础假设。这个假设比“随机缺失”（Y缺失与否完全由观测到的变量决定）更强，属于“可忽略性假设”。
  2. 分层后，层内Y的方差 \( \sigma_{Y,j}^2 \) 是已知的或可以被可靠估计：作者使用了基于外部知识和/或上一轮研究的估计值，并设计了一种自适应策略来更新抽样权重的两层算法。
  3. 成本函数是线性的且可累加：测量的总成本是各层测量数与其单位成本（\( c_j \)）的加权和，且单位成本在各层内恒定。
  4. 各层之间在抽样与估计上是独立的：这是分层估计分析的典型标准。
- 相比已有文献的放宽/强化：相比经典抽样理论（McIsaac & Cook），放宽了“响应基于Y的真实值”或“需要复杂的参数化模型来优化设计”的设定。相反，它只用到了可观测的辅助变量的分层结构，更便宜、更直接。相比经典的偏差校正方法（Beesley & Mukherjee），本方法强化了“设计优化”的维度，即在分析之前，利用辅助变量在招募阶段的主动设计来提升效率。
主要结果——核心定理 定理 (Optimal Allocation)：当目标是估计目标人群均值，基于“IPW”或“分层估计”框架时，在总预算B的限制下，最小化估计方差的最优第二相样本在各层中的分配（\( n_{2j}^* \)）由以下KKT条件的解析解给出（简化情形，忽略每层最大不可超抓人数限制，并设成本 \( c_j=c\) 且方差恒定）：
\[n_{2j}^* \propto \frac{N_j \sigma_{Y,j}}{\sqrt{p_j(1-p_j) }} \cdot \dots\]
具体公式见论文(3.6)式或Appendix。作者特别强调公式中包含一个与“入EHR概率”（\( p_j \)）相关的调整项——当某层人群在EHR中出现率很低（\( p_j \) 小）时，你需要在该层抽取更高比例的高成本样本去校正这一偏差，但这受限于现实（你无法从不在EHR的人中抽取），所以最优分配会高度向“入EHR概率高且均质”的层倾斜。
- 解决的技术难点：本定理不是简单地应用Neyman分配，因为：
  - 选择概率 \( p_j \) 是随机的、且是被动得来的（它由“知情存在”决定，不是研究者的设计变量），这导致了估计方差中包含一个额外的“第一相抽样”的方差项。作者成功推导了将这一项纳入总方差的公式。
  - 必须结合两种随机性（入EHR的随机 + 我们主动抽样的随机），并证明带约束的凸优化问题仍然可以通过经典拉格朗日法得到显式解。这需要处理一个不是单纯二次形式、而类似“分层比例 + 抽样比例”的复杂方差公式。
定理 (Asymptotic Properties)：证明了基于最优分配构造的估计量是目标人群均值的一致的、渐近正态的估计量。
证明路线与技术技巧 (理论型)：
- 整体路线：
  1. 定义估计量与方差：写出估计量 \( \hat{\theta} \) 的显式表达式（如 \( \hat{\theta} = \sum_j w_j \bar{y}_{2j} \)，其中 \( \bar{y}_{2j} \) 是第二相样本的层均值）。然后，推导 \( \hat{\theta} \) 的总方差，这个方差分解为两部分：\( Var(\hat{\theta}) = Var_{第一相}(\text{层内估计量}) + E_{第一相}[ Var_{第二相}(\text{层内估计量}|第一相)] \)。这是关键；第一相的随机性（入EHR）被“积分”掉了。
  2. 建立优化问题：将最小化这个总方差（关于选择量 \( n_{2j} \) 的函数），置于预算约束 \( \sum_j c_j n_{2j} \le B \) 和每层最大可取量 \( n_{2j} \le n_{1j} \) 之下。这构成一个凸优化问题（方差公式是凸函数）。
  3. 拉格朗日松弛：忽略困难约束（\( n_{2j} \le n_{1j} \)），构造拉格朗日函数：\( L = Var(\hat{\theta}) + \lambda (\sum_j c_j n_{2j} - B) \)。
  4. KKT 条件与求导：对 \( L \) 关于 \( n_{2j} \) 求偏导并令其为零，得到一个关于 \( n_{2j} \) 和拉格朗日乘子 \( \lambda \) 的方程。从中可解出 \( n_{2j}^* \) 的闭式表达式（\( n_{2j}^* \propto ... \)）。 \( \lambda \) 的选取使得总预算刚好用完（\( \sum c_j n_{2j}^* = B \)）。
  5. 调整与项目的可行性：如果某些层的 \( n_{2j}^* \) 超出了该层 EHR人数 \( n_{1j} \)，进行截断（\( n_{2j}^{**} = n_{1j} \)），并重新分配剩余预算到其他层，重复上述优化过程。这是典型的“水填充算法”。
- 关键跳跃点：
  - 跳跃点1：成功将第一相的“自然选择”方差纳入到IPW估计的解析方差公式中，使其不再是经典二次型，而是一个由 \( p_j \) 调节的复杂形式。作者通过“条件方差公式（Law of Total Variance）”和“多层矩阵代数运算”完成了这个推导。
  - 跳跃点2：证明了这个优化问题由于方差形式取决于二阶矩，但在高维层上只需一层模型（每层一个独立 \( \sigma^2_{Y,j} \)），因此凸优化简化到了每层独立问题加一个线性预算约束，从而得到全局最优解，而不是拘泥于高维非凸优化。
  - 无解析解的陷阱：当处理两组均值差时，方差公式和优化问题显著复杂化。方差涉及两组各自的方差以及它们的交互项。作者对此情况仍然推导出了具有类似形式的闭式最优解，这是另一个技术贡献。
- 技术技巧点名：
  - Conditional Variance Decomposition (全方差法则)：用于将EHR入选的随机性与第二相抽样的随机性分开处理。
  - KKT Conditions (Karush–Kuhn–Tucker)：凸优化的经典解法，用于处理带约束的优化问题，得到解析解的必要条件。
  - “水填充”算法 (Water-filling algorithm)：在理论最优解超出实际层容量时，进行迭代式的容量限制截断和预算再分配。
  - Delta Method：用于推估计量的渐近方差，虽然文中直接给出了方差解析形式，这是标准的渐近工具。
  - Empirical Process / Influence Function? 作者没有被明确提及“influence function”或“正交性”，但他们的IPW估计量能成功，其核心与半参理论中的“利用正交（或独立于选择机制的）估计量”有关。但本文是以“样本设计和抽样方差”为框架，而非因果推断中的“半参效率理论”。没有用到高阶U-统计量。
真实例子与应用：
- 数据：Michigan Genomics Initiative (MGI) 数据库中与美国成年人（目标人群）相关的数据。目标是从MGI（Michigan Medicine下属的EHR+生物样本库）中高效招募患者，去估计全美成年人高血压患病率（约29%；本文引用Ritchey et al. [2018]）。
- 应用方法：
  - 作者首先利用外部普查数据（Census）将目标人群（所有美国成人）按年龄、性别、种族分为若干层（已知且外部可控）。
  - 辅助变量 X：选取了MGI/EHR中常用且与最终高血压状态（Y）高度相关的工具有：ICD-9/10 “高血压”代码、抗高血压药物处方、以及一个基于这些数据计算的“高血压预测概率”。他们将人群根据这些X划分为“高、中、低三层风险”。
  - Y（昂贵变量）：在第二阶段，他们人工审查病历、验证血压值或进行电话随访来确定一个人是否符合高血压诊断标准（JNC-8指南）。这是代价昂贵的。
  - 估算入EHR概率（\( p_j \)）：每一层（如：“60-70岁黑人男性”）在MGI中的实际人数 \( (n_{1j}) \) 与“全美这类人群总数（来自Census）” \( (N_j) \) 的比例，就是估计的 \( p_j \)。
  - 实施优化：根据这些数据和假设的成本（Y测量成本恒定 \( c = 1 \)），使用本文推导的公式计算出每层应抽取的人数 \( n_{2j}^* \)，然后进行模拟抽样估计患病率。同时与“随机抽取”、“按比例分配（Allocation Proportional to N_j）”等基线策略进行比较。
- 结果：
  - 最优抽样显著降低了估计的高血压患病率方差的估计值（模拟对比，efficiency gain often > 100%）。
  - 基于最优抽样的估计也正确校正了选择偏差（趋近真实目标人群患病率，而简单的EHR样本完全高估或低估）。
  - 代价：作者指出，在这些设定中，最优设计倾向于在“高风险层”（低\( p_j \)，高\( \sigma^2_{Y,j} \) 的层，即通常更年长、更生病的群体）中投入更多的第二相测量预算，因为他们远离目标人群的“常模”，对校正总体估计的偏差贡献最大。
- 这个例子在说明什么：不仅展示了该框架的易用性（协变量分三层就能用），更量化地展示了纯粹利用EHR数据做估算的偏差有多严重（skewed by MGI population），以及通过使用廉价变量进行主动、最优的招募来修正这种偏差到底能带来多大的精度增益。为真实世界的患者招募节省了成本、提高了效率。
🔎 结论是否比证明窄
- 是，结论——特别是最优性——在“层内方差已知”假设下才严格成立。 在实际应用中，方差是未知的，需要用理论公式中的预估方差代替，这就不再是数学上的全局严格最优，而是“估计最优”或“近似最优”。作者明确指出，实际应用时建议进行一个正式的“自适应两阶段设计”（类似于McIsaac & Cook [2015]），先在一个小的动态后确定点（pilot）上测量一部分人，估计方差，再决定各层的最优分配。
- 另一个窄结论：所有方差最小化的结果，都是在M-estimation或IPW的框架下得出的，且作者只在“均值估计”的单变量情形和“均值差”的比较情形进行了推导。结论并未推广到更一般的回归系数（如逻辑回归的OR）。作者提到留作未来工作的是在更广义的线性/广义线性模型下的最优设计。这明确说明了结论的窄性。
- 关于“知情存在偏差”是MAR而非MNAR的假设：作者贯穿全文将入EHR的选择归因为MAR给定X。这是一种极强的假设；许多真实的知情存在偏差是复杂且不可忽略的（例如，只有病情严重的患者才会被频繁记录血压，从而影响Y观测）。作者并未讨论如果选择机制是MNAR（不可忽略），他们的方法在偏差上会有多大程度的破产。这是结论与证明不匹配的一个潜在风险——论文声称解决“selection bias”，但实际解决的只是“可观测变量解释的选择偏差”。

四、开放问题（点到为止，扎根具体语句）¶

更一般的模型：作者的方法高度依赖“均值估计 / 均值差估计”（section 2、3）。而更常见的EHR研究问题是回归系数或风险比(log(OR), log(HR))。作者在结论中明确写道：“未来工作包括将我们对均值差的抽样框架扩展到一般线性模型和广义线性模型框架”。确认：阅读文中Appendix C where general theory is touched, 但要做一个真实的“最优抽样”来最小化某个回归系数（比如 \(\beta\) 系数）的方差，的技术难点是什么？是否有更高维的方差矩阵需优化？是否有类似于半参效率影响函数（EIF）的相关结论来指导优化？
高维辅助变量：本文将辅助变量 \( X \) 概括为“几个层”，并通过一个预测模型或极少数的分类（如风险三分位）。但在实际EHR中，存在着非常多的潜在辅助协变量（ICD代码、处方、院内事件等）。未来问题是：如何使用高维（甚至比样本量高得多的）X 来更精细地刻画选择机制和方差结构？ 这会引出Lasso/高维回归下的抽样最优设计问题（结合impression of high-dimensional estimated propensities），这不在本文讨论范围内。作者在Introduction没有提及这一问题，暗示了该方向的一个明显漏洞。
知情存在偏差的不可忽略性：本文的所有方法论都建立在“选择是随机（MAR given X, Strata）”的假设之上。这是一个可行的、最常见的假设，但面对真实的、复杂的“知情存在”偏差（Phelan et al. 2017所描述的那种），这个假设可能完全失效。开放的、扎根于文献的难题：如何在EHR环境下，利用非常丰富的EHR记录本身去放松这一假设？例如，可以在不依赖于Y的情况下，部分放宽“给X与层完全决定”的假设吗？这需要借鉴“proximal causal inference”或“latent IV”等工具，而本文没有提供任何尝试。
不仅有偏差，还有测量误差（生机偏差与误分类）：Beesley & Mukherjee [2019]在引言中提出 EHER 面临两个根本问题：选择偏差 + 测量误差（misclassification）。这篇专门研究生计偏差的EHR-最优抽样设计。融合性工作：可否将“漏诊”或“过诊”（Y的测量误差）纳入本文的最优抽样框架？在预算约束下，我们也许应该抽更多“在EHR中看起来像/不像疾病”的人，以同时校正两种误差？这个扩展需要更高的“信息论”视角，目前在文献中非常少。

Maintained by 陈星宇 · Homepage · Source on GitHub