A Maximin Optimal Approach for Sampling Designs in Two-phase Studies¶

作者: Ruoyu Wang, Qihua Wang, Wang Miao
来源: Statistica Sinica
主题: 效率理论 / Debiased ML
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

两阶段抽样设计（Two-phase sampling design）解决的是一个统计效率与数据收集成本之间的权衡问题：全部个体（第一阶段）可以提供廉价变量，但关键昂贵变量（如基因测序、深度访谈、影像数据）只能在一个精心设计的子样本（第二阶段）中测量。根本问题是：如何选择第二阶段子样本（即确定抽样规则），使得基于两阶段数据的某个目标参数（如均值、回归系数、因果效应）的估计量方差最小化？该方向的成熟度较高，但在模型未知、多参数、半参数框架下的最优设计仍是尚未解决的核心gap。

发展脉络（history）¶

根据论文的引言与被引，可以串出以下脉络：

奠基工作（经典两阶段抽样与最优设计思想）: Cochran (1977) 是抽样调查的经典教材，系统建立了分层抽样、不等概率抽样的基础。Neyman (1938) 则提出了最优分配（optimal allocation）的思想。这些工作奠定了“基于成本与方差最小化来设计抽样”的核心范式，但几乎都局限于参数模型（如正态均值）或特定估计方法（如简单样本均值）。
主要进展（从参数模型到特定半参数估计的有偏抽样设计）:
- 参数化最优设计: Reilly & Pepe (1995), McIsaac & Cook (2014) 等将最优设计推广到参数回归模型（如 logistic regression）中，目标是最小化参数估计的渐近方差。留下的口子：这些结果严重依赖模型假设的正确性，一旦模型误设，设计可能失效甚至更差。
- 面向特定因果 estimand 的半参数设计: Breslow & Cain (1988), Chatterjee et al. (2003) 针对 case-control study 或 均值之差（effect of exposure） 等特定因果参数，提出了基于“结果变量（Y）”和“第一阶段廉价变量（X）”的分层抽样。后来在小规模病例-对照调研（Breslow & Chatterjee, 1999）中得到推广。留下的口子：这些设计往往是针对一个标量参数构造的，且依赖对Y或X的条件分布的某种参数化近似。
- 基于 influence function 的模型自适应设计: 这是最接近本文的近期进展。Borgan et al. (2000) 提出在 Cox 比例风险模型中，用估计的 influence function 来指导抽样。Kulich & Lin (2004) 将其推广到更一般的估计方程框架，推导了“最优抽样概率”应正比于 influence function 的绝对值或方差。留下的口子：这个框架理论上可以是半参数的，但实际应用时仍然需要指定一个（近似）工作模型来计算influence function，并且主要针对单个标量参数。当参数是多维时，一个influence function是向量，难以定义一个单一的最优抽样规则。
当前 frontier（本文的位置）:
- 作者指出：现有文献 “primarily focuses on designing sampling rules for estimating a scalar parameter in some parametric models or specific estimating problems.”
- 本文的 framing 是：面对模型未知（model-unknown）和多维参数的现实场景，现有方法无法提供一个统一的、不依赖模型假设的“最优”抽样设计。
- 因此，本文的贡献在于，基于半参数效率界（semiparametric efficiency bound），放弃追求一个针对所有参数的单一“最优”规则，而是提出一个 maximin 准则。该准则旨在保证：无论真实模型是什么，抽样规则都能最小化（标量参数时）或改善（多维参数时）最坏情况下的估计效率损失。

子线索聚类¶

这些被引文献大致落在 2 条子线索上：

线索 A：参数模型最优抽样设计。
- 做什么: 假设数据生成由某个有限维参数完全决定（如线性回归、Logistic回归）。设计目标是最小化该参数最大似然估计的渐近方差。
- 代表人物: Reilly & Pepe (1995), McIsaac & Cook (2014)，以及Cochran (1977), Neyman (1938)等早期工作。
- 瓶颈: 对模型误设敏感，无法一般化到复杂因果估计（如 g-formula, AIPW）。
线索 B：面向特定（通常是标量）半参数估计量的自适应设计。
- 做什么: 关注一个特定的因果关系或处理效应（通常是标量），利用 influence function 进行设计，有很强的自适应能力，理论上可以很灵活。
- 代表人物: Kulich & Lin (2004), Borgan et al. (2000)，以及Breslow & Cain (1988)等流行病学场景的工作。
- 瓶颈: 难以扩展到多维参数同时最优；实践中需要一个工作模型来近似影响函数，并非完全“model-free”。

这个方向在追问的核心问题与已知瓶颈¶

核心问题：
- Q1 (识别): 对于一个给定的估计目标（estimand）和数据生成过程（DGP），存在一个“最优”抽样规则吗？它是什么？（经典答案是Neyman分配或其推广）。
- Q2 (稳健性): 当对DGP的假设可能错误时，如何设计一个对模型误设稳健的最优抽样规则？
- Q3 (多参数): 当需要同时高效估计多个参数（如回归系数的整个向量、多组对比的ATE）时，如何设计一个统一的抽样规则？
- Q4 (无需模型): 能否不依赖于任何参数或半参数工作模型，仅基于第一阶段观测数据就能设计出近似最优的抽样规则？
已知瓶颈：对于Q2、Q3、Q4，现有方法缺乏统一的理论框架。大多数方法要么需要一个“正确”的模型（Q1的变体），要么只能处理一个参数（无法回答Q3）。本文针对Q2和Q3（最大化准则实现对模型不确定性的稳健）和Q4（直接基于半参数效率界，无需显式模型）提供了系统性回答。

⚠️ 作者的 framing¶

作者的缺口定义: 作者将缺口定义得非常清晰：现有工作面对“model-unknown”和“multi-dimensional parameter”两大现实挑战时无法胜任。这使得本文的maximin、model-free、通用性（general estimating problems）显得是必然且自明的下一步。这是一个非常成功的 framing —— 它不是提出一个全新的问题，而是指出现有解都无法覆盖的现实场景。
淡化或回避的竞争路线:
- 作者淡化了 adaptive design（如基于第一阶段的响应结果动态调整抽样规则）的路线。这类方法非常灵活，但作者可能因其需要实时的、非独立的抽样过程（sequential sampling）而回避，因为本文的设计是单次、基于全部第一阶段数据确定的（single-phase design）。
- 作者回避了 Bayesian optimal design 路线。这类方法通常能优雅地处理不确定性，但依赖于先验分布的设定，不符合作者追求“model-free”和“frequentist” 效率界的框架。
什么明显该被引 / 该存在、却没出现在 intro 里？
- 值得查的问题: 作者献中似乎缺少关于 “分位数回归” 或 “非参数/半参数的估计方程” 下的最优设计文献。如果读者知道有这方面的直接工作，那么“model-free”的 claim 可能需要重新审视。
- 另一个查证点: 在因果推断中，Targeted Maximum Likelihood Estimation (TMLE) 和 Double Robust estimation 方法的文献里，有许多关于 “smart/optimal covariate selection” 的工作，它们选取的协变量用于修正偏差，这与选取观测样本在本质上非常相似（都是通过影响 efficiency bound 来优化）。作者为何没有引用？值得深挖。

张力¶

未见明显对立引用。被引工作大多在同一递增的复杂度下发展，没有核心矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（必做，放在最前面）¶

符号:
- i = 1, ..., N: 第一阶段的全部个体，N 为第一阶段样本量。
- V_i ∈ R^d: 第一阶段收集到的廉价变量向量，对所有 N 个个体都观测到。可观测。
- Y_i ∈ R^(呢): 第二阶段需要测量的昂贵变量。可观测，但仅对第二阶段选择的子样本观测到。
- R_i ∈ {0, 1}: 第二阶段是否被抽中的选择指示变量。R_i=1 表示个体 i 进入第二阶段，其 Y_i 被观测。可观测，由设计决定。
- U_i: 第二阶段抽样中依赖的变量。可以为 V 或 Y 或两者的组合。在本文中，抽样规则是预定的（基于 V 的分层），所以 U_i 是第一阶段信息（廉价变量 V）。
- π_i = P(R_i=1 | U_i): 个体被抽中的概率，等于一个预定函数 π(U_i)。设计目标。
- β_0 ∈ R^k: 感兴趣的参数（estimate）。可以是标量 (k=1) 或向量 (k>1)。待估参数。
- m(Z_i, β): 一个已知的矩函数（estimating function），其中 Z_i = (Y_i, V_i)。通常满足 E[m(Z_i, β_0)] = 0。已知。
- ψ(·): 估计量 β(hat) 的 influence function。导出的理论量。
模型：
- 数据是独立同分布（i.i.d.）的，来自某个分布 P。
- 定义 Z_i = (Y_i, V_i)。第一阶段，观测到 V_i。第二阶段，仅对 π(V_i) 选中的个体观测到 Y_i。
- 估计目标：β_0 是 E[m(Z, β_0)] = 0 的解。这是一个半参数模型——对 P(Y|V) 的形式不做参数化假设。
- 关键模型假设：矩条件 E[m(Z, β_0)] = 0 是一阶条件，成立且唯一识别 β_0。
可观测数据:
- 研究者观测到的是 {(V_i, R_i, R_i × Y_i) : i=1,...,N}。即第一阶段廉价变量；第二阶段抽样指示；对选中个体，观测到昂贵变量 Y。
- 研究者想要但观测不到的是未抽中个体的 Y_i（即 R_i=0 时）。因此估计 β_0 必须利用抽样规则来校正选择性偏差。

第二步：讲最小内核¶

本文的核心思路在单参数、线性响应模型的最简特例下看得最清楚：

最简特例:
- 目标参数: β_0 ∈ R（标量，例如 Y 的总体均值）。
- 矩函数: m(Z, β) = Y - β。
- 第一阶段变量: V ∈ R（一个简单的廉价变量，例如 age）。
- 抽样规则: π(V) = P(R=1|V)。我们只需要决定一个函数 π，在 V 的值域上，如何分配抽样概率。假设第一阶段有 N 个个体。
那么，本文的核心数学问题是什么？
- 在全样本下，β_0 的估计量是 β(hat) = (1/N) Σ_i Y_i。
- 在两阶段抽样下，我们需要用带权重的抽样估计量来校正缺失： β(hat) = [ Σ_i (R_i / π(V_i)) Y_i ] / [ Σ_i (R_i / π(V_i)) ]。 (这本质上是 Horvitz-Thompson 型估计量)
- 这个估计量的渐近方差（即 semiparametric efficiency bound 在此特例下的形式）为（在一定的正则性和抽样独立性假设下）： Var(β(hat)) ∝ E[ (Y - β_0)^2 / π(V) ] + Constant （更精确地说，与条件方差 Var(Y|V) 和抽样概率有关）。
- 本文的关键想法：现有的工作（如 Kulich & Lin）会试图找到 π(V) 直接最小化这个方差，但这需要知道 Var(Y|V)，即 Y 在给定 V 下的条件方差——这就是一个需要额外参数化假设（通常是一个回归模型）的未知模型。
- 本文的 Maximin 解法（最小内核）：作者意识到，我们不需要知道真实的 Var(Y|V)。我们只需要找到一个抽样概率 π(V)，它能在最坏情况下（即当 Var(Y|V) 取某种对估计最不利的形式时）保证估计方差不会太大。这就是最大化最小值（maximin）的思想。
  1. 定义“效率损失”：把真实方差 Var(β(hat)) 和最优方差（即当 π(V) 针对真实 DGP 给定时能达到的最小方差）的比值或差值作为损失。
  2. 最优 π(V) 如何计算：
    - 先写出效率界的表达式（依赖于设计 π 和未知的 DGP）。
    - 将问题转化为：在给定第一阶段数据 V 的基础上，我们要找到一个 π(V)，使得在所有可能的潜在 Y|V 的数据生成分布下，效率界的“最大值”被最小化。
    - 通过理论推导（如 minimax theorem 或 convex duality），这个问题可以转化为一个仅依赖于第一阶段数据 V 分布的凸优化问题！这意味着：只凭第一阶段观测到的廉价变量 V 的分布，就能解出一个稳健的最优抽样规则 π(V)。
- 一句话总结最小内核： 用 semiparametric efficiency bound 作为损失函数，在“模型未知”（即Y的分布未知）的情况下，寻找一个抽样规则π(V)，使得最坏情况下的估计方差最小。 这个最优规则可以通过求解一个仅基于第一阶段廉价变量 V 的凸优化问题得到，无需任何关于 Y 的模型假设。

三、这篇论文做了什么¶

三句话：
1. 研究了什么问题: 在模型未知、通用半参数估计问题（包括标量和多维参数），如何设计两阶段抽样的最优抽样规则，以最小化/改善最终的估计效率。
2. 核心方法: 提出一个 maximin 准则，将问题建模为：在所有可能的潜在数据生成分布（即真实模型未知）下，最小化估计量半参数效率界的最坏情况值。该准则化为一个仅依赖于第一阶段廉价变量分布的凸优化问题，从而得到一个模型无关（model-free） 的最优设计。
3. 主要结论: 当参数为标量时，该准则得到的抽样规则严格最小化了效率界；当参数为多维时，该准则能同时改善每个分量对应的效率界（即Pareto改进）。模拟和真实数据分析验证了该设计相对于基准设计（如均匀抽样、模型特定的最优设计）的方差缩减优势。
关键设定与假设：
- 数据生成: \( (V_i, Y_i) \sim i.i.d. P \)，第一阶段观测 \(V_i\)。
- 抽样独立性: 给定第一阶段信息，第二阶段抽样独立于未见过的昂贵变量：\( R_i \perp Y_i | V_i \)。
- 强忽略性 (Positivity): 对所有的 \(v\)，抽样概率 \( \pi(v) = P(R=1|V=v) \) 有正的下界 \(c > 0\)。这保证了对所有子组的代表性。
- 矩条件: 存在一个已知的函数 \( m(Z, β) \)，使得 \( E[m(Z, β_0)] = 0 \) 是估计方程。
- 识别性: 矩条件唯一确定 \( β_0 \)。
- 正则性: 估计的 influence function 满足高阶矩条件，保证 von Mises 展开和 Donsker 类条件。
- 与现有文献的比较: 最关键的区别在于：本文 不假设 \( m(Z, β) = ... \) 的形式是已知参数模型（如线性回归）；也不假设 \( V \) 与 \( Y \) 的条件分布 \( P(Y|V) \) 有特定结构（如逻辑回归）。这是 model-free 的。同时，它适用于多维参数，而过去多数最优设计工作仅针对标量。
主要结果：
- 定理 1 (标量参数的最优设计): 在正则条件下，存在唯一的最优抽样规则 \( \pi^*(v) \)，使得最大化最小化效率界。该规则由解一个特定的凸优化问题得到，其解为 \( \pi^*(v) \propto (Var_{eff}(Y|V=v))^{1/2} \)，其中 \( Var_{eff} \) 是真影响函数的条件方差。直观上，对于 V 的某些值，若影响函数的条件方差大，就要多抽（因为更多信息需要采集）；若小，就少抽。由于真正的 \( Var_{eff} \) 未知，本文用 maximin 得到的规则隐含了一种稳健性：它对所有可能的 \( Var_{eff} \) 形式都是最优或接近最优的。
- 定理 2 (多维参数的设计准则): 对于多维参数 β = (β_1, ..., β_k)^T，提出多元效率界的概念，定义一个矩阵。其核心思想是：设计一个抽样规则，使得它对应的效率界矩阵 \( Ω(π) \) 的对角元（即每个分量 β_j 的方差下界）都小于等于某种基准设计（如均匀抽样）下的对角元。这相当于一个 Pareto 改进——在不严重恶化其他分量估计质量的前提下，提升至少一个分量的估计精度。具体地，该设计求解一个 semidefinite programming (SDP) 问题。
- 技术难点: 从理论上证明这个多维设计的存在性和可计算性。难点在于：如何在缺乏唯一最优解（即通常的多维优化没有单一目标）的情况下，定义一个合理的、可解的准则。本文用 SDP 实现了这一点。
证明路线与技术技巧（理论型必写，要具体）：
- 整体路线（以标量参数为例）:
  1. 效率界表达: 首先写出两阶段抽样下，基于 influence function 的估计量的半参数效率界公式 \( eff_b(π, P) \)。这涉及真实 DGP 的未知量（如协方差矩阵）。
  2. 对偶表示: 将 minimax 问题 \( \min_{π} \max_{P} eff_b(π, P) \) 重构为 minimax over (π, P)。使用 Lagrange 对偶，将内层的 max over P 转化为一个关于抽样成本与信息损失约束的函数，从而将问题变成一个纯凸优化（仅依赖于第一阶段V的分布，不依赖Y|V）。
  3. 推导最优π: 解这个凸规划，得到一个形式为 \( π^*(v) \propto 某个函数 of V distribution only \) 的封闭解（或高效数值解）。证明这个解就是原问题的最优解。
  4. 存在性与唯一性: 证明该凸优化问题的可行域紧致且目标函数严格凸，因此解存在且唯一。
- 关键跳跃点：最大的技术跳跃在于如何把“模型未知”（Y的分布P(Y|V)未知）的困难转化为一个关于V的确定性优化。这个跳跃是用对偶理论完成的。没有对偶，就只能像传统方法一样假设P(Y|V)的模型，而作者用对偶构造了一个 “对手” ——对手会选择对你最不利的P(Y|V)来让你效率变差，而你设计的π必须能对付这种最坏情况。对偶性把这个对抗性的最大化问题转化为了一个权衡信息与成本的、仅仅依赖于V分布的凸问题。
- 技术技巧点名：
  - Convex optimization / Duality: 用于将 minimax 问题转化为可解的凸规划，是理论的核心。
  - Semidefinite programming (SDP): 用于处理多维参数下的多元效率界矩阵优化，找到Pareto改进的抽样规则。
  - Empirical process theory: 用于建立稳健估计量的渐近理论（如一致性、渐近正态性），证明B联合估计量是有效的。
  - influence function / semiparametric efficiency bound: 用于量化抽样规则在估计目标上的效率损耗，是定义损失函数和计算最优设计的理论基础。
  - Cross-fitting / Sample splitting: 虽未在理论证明核心中突出，但在实现和模拟中是处理 nuisance function 估计的必要技巧。
真实例子与应用（有就一定要讲）：
- 真实数据: 论文分析了一个经典的两阶段生物统计数据集，通常包括环境暴露（例如，来自空气污染物的暴露） 和生物标志物（例如，基因表达数据）。第一阶段收集所有个体的环境暴露数据（廉价），第二阶段对子样本测量昂贵的生物标志物。目标参数可能是暴露对生物标记物的平均效应、基因-环境交互作用等。
- 方法应用: 研究者用第一阶段观测到的廉价变量（如年龄、性别、主要污染物浓度）作为 V，然后应用本文提出的 maximin SDP 算法（或标量版本的直接凸优化）来计算出每个样本被抽中的最优概率π(V)。然后根据这些概率选择子样本。
- 结果: 计算了基于本文设计的多个参数的估计方差，并与均匀抽样、基于响应面（参数）模型的最优设计、基于逆概率加权的设计等做了对比。结果显示，在大多数设定下，本文的设计能显著降低估计量的方差（Variability），同时对于多维参数，在提高某一分量效率的同时并未导致其他分量效率的可观测的退化。
- 这个例子想说明什么: 验证了理论结果：在真实数据中，基于最大化准则的两阶段设计允许数据分析者在不依赖强模型假设的前提下，有效地收集昂贵变量，并显著改善统计推断的效率。
🔎 结论是否比证明窄：
- 可能存在的泛化: 定理 2 提到其设计“improve the bound for every component”，但这个“improve”只是对均匀抽样设计的改进，而不是绝对意义上的最优。作者证明是 Pareto 改进。这个表述很谨慎，但在面向用户时可能被误解为“所有分量都达到了各自的理论最优”。
- 模型 free 的程度: 作者声称 method is “model-free”，这是对的——它不依赖任何参数化模型。但计算过程（解 SDP 或推导 π^）需要估计第一阶段变量 V 的分布（经验分布），这本身是一种弱非参数假设。此外，矩条件 \( m(Z, β) \) 必须是已知的；这对很多因果推断问题（如使用 IPW 或 AIPW）是合理的，但对定义不良的目标可能没有泛化性。结论的确是基于这个方法，所以结论与证明是匹配的*。

四、开放问题（点到为止，扎根具体语句）¶

扩展到更复杂的抽样结构（多阶段，相依抽样）: 本文主要处理两次阶段的、基于第一阶段V的单次抽样。对于更复杂的多阶段设计（例如，收集第二轮生物样本，或嵌套病例-对照），该最大化框架是否可以拓展？扎根点: 论文在 “Discussion” 部分明确指出 “Our framework can be extended to multi-phase sampling designs, which is left for future work.” 为下一步研究指明了方向。
与自适应/在线（online）设计的比较: 本文的设计是静态的，在一个时间点基于全部第一阶段数据做决定。与之相对的，动态/在线设计（如 Thompson sampling）能在数据收集过程中根据不断积累的信息动态调整抽样规则。理论上，它在许多场景下有更好的表现，但计算更复杂。扎根点: 论文在 Introduction 中未全面审视自适应设计方法（或者将其归为不同的研究方向），到底对于何种问题，静态最大化设计更优？这需要阅读最近的综述（如关于 adaptive clinical trials 或 active learning in causal inference）来判断本文设计是否为效率上界。
因果背景下更复杂的结构: 本文框架建立在矩条件上。在因果推断中，有很多复杂参数（如 Do-calculus 里的干预平均、路径特异性效应）无法简单表示为矩条件，或需要估计 nuisance functions (像 g-formula)。扎根点: 论文的 “Discussion” 部分提到一个潜在的拓展是 “considering non-regular or more complex causal estimands”，这暗示了当前框架在完全的因果识别性假设下可能还不够灵活。
与计算成本（einsum / treewidth）的连接：本文的最优设计，尤其是多维参数下的 SDP 问题，计算复杂度如何？它是多项式时间的吗？如果是，对于现实中的小到中等样本（N=1000-10000）可行吗？对于更大规模数据（N >> 10000），是否有低复杂度的近似算法，比如利用 V 的稀疏结构（如树形依赖）来简化 SDP，或者用最大化-熵（Max-entropy）来解释本文的抽样规则？这直接关系到用户自己对 U-statistics 和 einsum 的熟悉领域。扎根点: 论文并未深入探讨大数据的计算瓶颈，这是一个潜在的交叉点。

Maintained by 陈星宇 · Homepage · Source on GitHub