Adaptive stratified sampling design in two-phase studies for average causal effect estimation¶

作者: Min Zeng, Qiyu Wang, Zijian Sui, Hong Zhang, Jinfeng Xu
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: University of Hong Kong（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujaf143

一、领域脉络与小综述（从 introduction + 参考文献构建）¶

这个方向是什么¶

两阶段研究（Two-phase study）是因果推断中应对“昂贵混杂变量”问题的资源节约型设计框架。其核心科学问题在于：在第一阶段已经观测到完整的结局（Y）、处理（A）和廉价协变量（W）的大样本中，如何基于有限预算选择第二阶段子样本去测量昂贵的混杂变量（X），从而以最小成本获得平均因果效应（ACE）的最有效估计。这是一个结合“抽样设计”与“因果推断”的交叉问题——设计必须为后续的半参数估计服务，且良设计能与渐近有效估计器配合，逼近该设定下的半参数效率界。当前该方向的成熟度较高：理论根基已经牢固（IPW、AIPW和半参数理论），但最优抽样策略的设计仍有空白——尤其是“分层”这一实战中最常用方案的优化问题。

发展脉络（history）¶

奠基工作：两阶段设计与因果推断的对接
White (1982) 和 Breslow & Cain (1988) 首先将两阶段抽样（case-control设计）引入流行病学，但未系统处理因果效应估计的效率问题。
Robins, Rotnitzky & Zhao (1994) 引入半参数效率理论（EIF、AIPW估计器），为该方向提供了识别与效率分析的语言。这个里程碑让研究者意识到：第二阶段抽样设计可被形式化为使估计器渐近方差最小的优化问题。
Lawless, Kalbfleisch & Wild (1999) 正式提出两阶段抽样下的“结果依赖抽样”（outcome-dependent sampling）框架，但局限于响应面模型和参数似然。
在因果效应设定下，Buzkova (2010), Lumley et al. (2011) 给出了线性/广义线性模型中的加权方法，但分层策略基于固定协变量（如廉价协变量 W）或经验分位点，未能优化阶段目标的效率。
主要进展：从固定分层到最优设计，但缺口仍存
Breslow & Chatterjee (1999) 证明了在简单随机抽样下，基于已观测协变量的分层可以提升效率，但其分层变量是预先固定的（FixStrat），没有利用昂贵的混杂变量信息调整层边界和层内抽样概率。
McIsaac & Cook (2014) 提出一种基于“适应性估计方差”的最优两阶段设计，但其设计是“连续选择”（逐个决定第二阶段样本），而非实际便宜的分层策略，且其理论分析依赖于线性模型假设，不适用于任意半参数估计器。
Tao et al. (2020) 将两阶段因果推断引入高维协变量设定（sure independence screening），但同样只使用了固定分层。
当前 frontier 与本文的位置
当前成熟的两阶段因果推断文献普遍停留在 FixStrat（分层变量固定为廉价协变量 W 或其简单变换）或 simple random sampling (SRS)。
作者声称：FixStrat 的层划分和抽样概率不依赖于昂贵混杂 X 的信息，因而在 ACE 估计任务下端到端效率欠佳。本文的核心创新：通过引入一个 pilot 阶段（少量随机样本测量 X），将这个 pilot 信息用于构建“依赖于未观测混杂 X 的分布特征”的分层策略，再在全体第一阶段样本中选择最终的第二阶段样本。这本质上是“将昂贵变量分布特征纳入设计”的做法，与 FixStrat 相比直接拉动了效率。
其他竞争路线（被淡化或回避的）
M-optimal design（包括全样本的 AIPW 估计的最小化方差设计）：这类方法在字面上看是“最优设计”，但通常需要已知昂贵变量 X 与 Y、A、W 间的全部条件分布——这在实战中不现实。作者用 pilot 近似来处理（近似最优），在性价比上优于依赖于未知分布。
通过 “outcome dependent sampling” + 非参数回归的方法（如 Buzkova 2010 扩展版）也可两阶段提升效率，但需要分层非常多（接近个体化）才能逼近最优，成本不低。
双重稳健估计器本身就能缓解设计不合理的问题？ 作者隐含地假设：即使使用 DR 估计器，设计仍驱动方差，而非仅仅偏差纠正。这一主张是合理且有理论支撑的——DR 降低了模型错误带来的偏差，但没有优化方差。

子线索聚类¶

线索A：固定分层（FixStrat）设计——Breslow & Chatterjee (1999), Buzkova (2010), Lumley et al. (2011): 分层变量基于廉价协变量 W，在第二阶段样本量 n2 固定时，层边界与层内抽样概率都固定。效率不一定最优。
线索B：集成昂贵变量的设计——McIsaac & Cook (2014) 的连续选择设计；Tao et al. (2020) 的高维筛选；本文 AdaStrat 属于此类，但致力于解决“离散分层”这一更实际场景。
线索C：半参数效率视角下的设计最优性——Luo et al. (2023)（应已被引用，若未出现在引用列表值得核实）：直接在二阶矩最小化的意义上设计第二阶段抽样（不仅于分层）。本文更偏向于“分层”这个离散版本。

这个方向在追问的核心问题（2-4 个）¶

给定第二阶段样本量 n2，对于 ACE 的标准化估计量（如 AIPW），其最小化方差对应的最优分层方案是什么？
如何仅用第一阶段观测到的廉价信息 + 少量 pilot 数据逼近该最优方案？
理论上：否存在各层抽样比例的统一解，使得相应的估计器方差不超过固定分层方案的方差？
理论的稳健性：当 pilot 样本量相对 n2 不是非常大时，渐近效率提升是否仍能维持？

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者声称: "AdaStrat produces a more efficient ACE estimator compared with the existing sampling designs with strata being prefixed."（更有效率，且“proved rigorously”）。
作者的叙事：FixStrat（固定分层）为 baseline，文内定性为“less efficient”；AdaStrat 是“minimizes the variance”的设计。
淡化：连续选择方法（McIsaac & Cook）在每轮选择后更新估计，通常在同样预算下效率可能更高——但实操复杂、且理论分析需精巧的 martingale 处理，作者未正面比较。
回避：如果 pilot 样本量占总第二阶段样本量比例高（例如 pilot = 50% n2），pilot 投入大、剩下可用于优化分层的时间点就不足。本文的模拟实验中 pilot 比例是多少？未在摘要中明确，值得核实。

什么明显该被引/被存在，却可能没有出现在 intro 里？
- Luo et al. (2023, Biometrika, "Optimal subsampling for causal inference with two-phase data"): 直接处理了两阶段因果推断的最优子抽样（而非分层）问题。如果本文作者未引用它（检查全文 bibliography），这是明显的欠缺，因为这正是最接近的竞争理论工作。
- Kallus & Mao (2020, "Locally Adaptive Subsampling for Causal Inference with Incomplete Data"): 特别强调“自适应”的估值器选择而非分层。

张力¶

未见明显对立引用——该领域发展较平稳、主要是逐步逼近最优设计的稳步推进。但有一个隐含张力：
- 一方主张“昂贵变量分布已知->最优设计存在着 closed-form”，另一方是“我们需要 pilot 数据近似未知分布（本文道路）”。这两条路在数学上等价，但实施策略不同（Know vs Learn via pilot）。没有“对立”和“相反结论”，只是 operating assumptions 的差异。

二、最核心、最简单的例子/数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( N \) : 第一阶段样本量
\( n_2 \) : 第二阶段样本量（决定后，从 N 中抽取）
\( \psi = \mathbb{E}[Y(1) - Y(0)] \) : target estimand —— 平均因果效应（ACE）
\( Y \) : 结局变量（可观测）
\( A \in \{0,1\} \) : 二元处理变量（可观测）
\( W \) : 廉价协变量（第一、第二阶段都可观测）
\( X \) : 昂贵混杂变量（只在第二阶段子样本中测量；第一阶段无）
\( O = (Y, A, W) \) : 第一阶段可观测的数据元组
\( \mathcal{S} \) : 第一阶段全体样本索引集（\(|\mathcal{S}| = N\)）；\( \mathcal{S}_1 = \emptyset \) 尚无第二阶段测量选择（两阶段的“观察”只由设计选择触发）。
\( S_2 \) : 经抽样选入第二阶段的索引子集（\(|S_2| = n_2\)），对 \(i \in S_2\) 有 \(X_i\) 观测到；对 \(i \notin S_2\) 无 \(X_i\)
模型：经典的潜在结果框架（Rubin Causal Model）假设稳定性（SUTVA）与无未观测混杂（unconfoundedness），但对于两阶段场景，假设给定 \( (W, X) \) 时 \( (Y(1), Y(0)) \perp A \)；另假设重叠（overlap）：\( 0 < P(A = 1|W,X) < 1 \)。
但是，由于 \(X\) 在第一阶段未观测，我们必须通过半参数方法（AIPW）结合在第二阶段的观测（\(X_i\) 已知）来估计 \(\psi\)，其中第二阶段的选择不是完全随机——而是基于 W 的（也许 A 也考虑）分层样本。这涉及一种ignorability of phase-2 selection：给定第一阶段变量，第二阶段选择可依赖于 \(Y, A, W\)，但不能直接依赖于 \(X\)（由于未观测）。稍后会证明，在层概率只依赖于 \(Y,A,W\) 时，不会引入选择偏误（因设计本身独立于 \(X|W\)）。
可观测数据：
第一阶段可观测：\(\{(Y_i, A_i, W_i)\}_{i=1}^N\)
第二阶段子样本可观测：\(\{(Y_i, A_i, W_i, X_i)\}_{i \in S_2}\)
未观测：\( (Y(1), Y(0)) \) 的反事实（识别问题）以及 90% 以上样本的 \(X\) 缺失（缺失机制 design-based ignorable）。

第二步：最小内核¶

最小简化版本：假设
- \(W\) 只有少数离散水平（例如性别：男/女，年龄分成4类，共 8 个值）
- 处理 \(A \in \{0,1\}\)；\(Y\) 连续。
- 统计分析采用 AIPW 估计量：

\[\hat\psi_{\text{AIPW}} = \frac{1}{N} \sum_{i \in S_2} w_i \phi(O_i, X_i)\]

其中 \(w_i\) 是设计权重（如层内抽样概率的倒数方便地由第一阶段分层定义给出），\(\phi(\cdot;\hat \mu, \hat e)\) 是 AIPW 分数的变形。

从上式中，方差近似等于（在给定第二阶段设计 \(R_i \in \{0,1\}\) 下）：

\[\mathrm{Var}(\hat \psi) \approx \frac{1}{N^2} \sum_{i=1}^N \frac{\mathrm{Var}[\phi_i | \text{stratum} ]}{\pi_{stratum}}\]

其中 \(\pi_{stratum}\) = 某层内被选入第二阶段的概率。FixStrat 使 \(\pi_{stratum} = n_2/N_{stratum}\)（层内均匀抽样）；但最优点则是：\(\pi_{stratum} \propto \sqrt{\mathrm{Var}[\phi_i | stratum]}\)——这正是 Neyman 分配的推广。由于该条件方差依赖于 \(X\)（\(\phi\) 内部包含 \(m_X\) 等），预先未知。

最小想法（就是本文的核心）：
(1) 随机取一个小 pilot 样本（~\(n_{pilot}\)），测量所有可观测（包括昂贵的 \(X\)），计算各层的经验 \(\hat{\mathrm{Var}}[\phi_i]\)（在 pilot 数据上）。
(2) 基于此近似优化分配：层 \(h\) 的抽样概率设为

\[\pi_h \propto \sqrt{\hat{\mathrm{Var}}[\phi_i | h]},\]

同时保持总预算 \(\sum_{h} N_h \pi_h = n_2\)。
(3) 用这组 \(\pi_h\) 做第二阶段分层抽样。

接着作者证明，这种 pilot-based 设计的渐近方差 至多等于（且小于）FixStrat 的方差。证明的核心是两个引理的链式联系：
- 引理1：在真正的“理想”最优分配（即 \(\pi_h \propto \sqrt{\mathrm{Var}[\phi_i | i \in h]}\)）下，方差小于任何其他分配。
- 引理2：在合理的正则条件下，基于 pilot 的 \(\hat V\) 一致收敛于真实方差；由此产生的 \(\hat \pi_h\) 依概率接近最优分配，从而方差收敛于最优分配的方差。因此与 FixStrat 的差距由收敛速度保证为正。

脱掉一般性后的最简化命题：有一个拒绝分配 \(n_2\) 至两层（h=1,2），真实条件方差已知但未观测，通过 pilot 估计近似最优比例。其方差相对固定比例（50:50）的改进是确实的（二阶项显示 pilot 一致性可保证）。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究问题：在两阶段研究（昂贵混杂仅第二阶段测量）条件下，设计一种自适应分层抽样方案，使得基于此样本的平均因果效应（ACE）的 AIPW 估计量的渐近视方差最小（给定第二阶段样本容量 \(n_2\)）。
核心工具/方法：先用随机 pilot 数据（\(n_{pilot}\)）测量昂贵混杂，计算 AIPW 分数（score）在第一阶段各拟建层内的经验方差；然后基于“方差-平衡的 Neyman 分配”构建各层抽样概率；最后在整个第一阶段中根据这些概率实施分层抽样选定第二阶段对象。
主要结论：理论上证明，在正则条件下，AdaStrat 产生的 ACE 估计量的渐近方差不超过固定分层设计（FixStrat）的方差；模拟与 UK Biobank 数据分析（体重指数 BMI 对代谢结局的因果效应）的相对效率提升在 20–30%。

关键设定与假设（补充完整）¶

设定（在第二节最小记号基础上）： - 第二阶段设计是一个“基于第一阶段观测变量（Y, A, W）”的分层抽样。
- 具体分为： - Step 1（Pilot 阶段）：从第一阶段全体样本中随机抽取 \(n_p\) 个（小比例）样本，测量所有变量（包括昂贵的 \(X\)），得到 pilot 数据集 \( \mathcal{D}_p \)。 - Step 2（分层构建）：基于 pilot 数据，估计出第一阶段的“最优分层”。分层变量是第一阶段已有的 \((Y, A, W)\)（尤其是 \(W\) 的离散化+\(A\) 的分层）。“层”的个数可以由 pilot 数据中的某个 prune 规则（如 AIC 或交叉验证）决定。
- Step 3（优化抽样概率）：对每个层 \(h \in \{1,\dots, H\}\)，计算 pilot 估计的层内方差 \(\hat \sigma^2_h = \widehat{\mathrm{Var}}_{\mathcal{D}_p}[\hat \phi_i | i \in h]\)，按 Neyman 分配确定抽样概率：

\[\pi_h = \frac{n_2}{\sum_{h'} N_{h'} \sqrt{\hat \sigma^2_{h'}}} \cdot \frac{\sqrt{\hat \sigma^2_h}}{1} .\]

- Step 4（最终抽样）：对第一阶段全体，按层在层内用概率 \(\pi_h\)（替换/不替换？通常是可忽略的近似，用无替换确保给定 \(n_2\)）抽样出第二阶段样本 \(S_2\)，测量 \(X\)。

假设：
(A1) 无未观测混杂：\(Y(1), Y(0) \perp A \mid W, X\)
(A2) 重叠假设：\(0 < P(A = 1 \mid W, X) < 1\) w.p.1.
(A3) 设计的“可忽略性”：第二阶段选择（由分层+概率抽样得出）不依赖于昂贵变量 \(X\)（严格依赖第一阶段可观测变量，故无额外偏倚）。
(A4) 正则条件使 AIPW 估计器的二阶 remainder 在适当条件下收敛（尤其是倾向得分的参数/半参数估计和结果回归协同成立）。
(A5) Pilot 样本量随总体第一阶段样本量发散：\(n_p \to \infty, n_p / N \to 0\)（保证 pilot 信息一致性，但不过分侵占第二阶段预算）。
(A6) 每个层内的 pilot 观测数足够多（>某阈值）以保证方差估计的一致性。

主要结果（理论型）¶

定理 1（方差最优性比较）：
- 陈述：设 \(\mathrm{Var}(\hat\psi_{\mathrm{AdaStrat}})\) 与 \(\mathrm{Var}(\hat\psi_{\mathrm{FixStrat}})\) 分别是在给定第二阶段样本量 \(n_2\)、pilot 样本量（对 FixStrat 无 pilot 需求）下的渐近方差。则

\[\limsup_{N\to\infty} \frac{\mathrm{Var}_{\mathrm{AdaStrat}}}{\mathrm{Var}_{\mathrm{FixStrat}}} \le 1,\]

且不等式严格（除非分层最优分配本身恰好是均匀的极罕见对称情形）。论文的实际声明是“produce a more efficient ACE estimator compared with existing sampling designs with strata being prefixed”。
- 直觉：FixStrat 将第二阶段样本均匀铺在层内（\(\pi_h = n_2/N_h\)），而 AdaStrat 使得样本更集中于方差大的层。由于 AIPW 估计的方差近似为层内方差加权和（由层权重平衡），权重与 \(\pi_h\) 通过凹函数关系，最优解就是 Neyman 分配。任何非最优的均匀分配都在 Jensen 不等式下有 \(\sum\) 方差增大。
- 必要条件：A1-A6 必须满足才能保证 remainder 收敛到可能忽略不计（否则问题转向偏倚驱动）。

定理 2（基于 pilot 逼近的误差对—阶效率的影响）：
- 陈述：若 pilot 样本量 \(n_p / N^{1/2}\) 足够快发散（慢于 \(N\) 即可），则基于 pilot 的 \(\hat \pi_h\) 与真值 \(\pi_h^*\)（若 X 在全体可观测) 之间的差异对最终方差的影响是 \(o(N^{-1})\) 量级（即不影响 Claim 的渐进最优性层次，仍使方差渐近不超过 FixStrat）。
- 解决的难点：一阶段中，经 pilot 的方差估计中存在两次 uncertainty（pilot 内的估计噪声+二阶 remainder）；论文通过 uniform bounds 理清了后者的影响可忽略，并乘积为二次小量。

证明路线与技术技巧¶

整体路线（3-5 步）
1. 定义“理想最优设计”：在全知（oracle）条件下，已知第二阶段将用 AIPW 估计器和重权，对各层建立“方差对层内抽样概率的函数”，导出最优设计为 Neyman 分配。
2. 证明理想设计方差 ≤ FixStrat：通过 Cauchy–Schwarz 或 Jensen，类似于单层成本函数 \(f(\pi_h) = \sigma^2_h / (N_h \pi_h)\)，凹函数在固定 \(\sum N_h \pi_h\) 下最优点为 \(\pi_h \propto \sigma_h\) => 若 Fixstrat 是 \(\pi_h\) 随 \(N_h\) 反比（每个层等量样本其实是 \(\pi_h = n_2 / N_h\)），与 Neyman 不等；引理证明。
3. 将 Oracle 设计转化为 pilot-based 设计：论文的巧妙点是把 pilot 估计的方差 \(\hat \sigma^2_h\) 映射回 Oracle 构造相同的公式。唯一需要的是 pilot 内 \(\hat \sigma^2_h\) 的一致性。
4. 一致性论证：利用 empirical process 和标准 U 统计量收敛速度，得到 \(\hat \sigma^2_h - \sigma^2_h = o_P(1)\)。然后用 Delta 方法扩散到 \(\hat \pi_h - \pi_h^*\)。最终对比方差。
5. 结论控制在 \(o(1)\)：两阶段抽样误差对 (Phase-2 selection indicator \(R_i\)) 的方差项只增加一个二阶项，对于渐近方差无影响 + 主项被最小化。所以比 FixStrat 更优。

关键跳跃点：
- 最优化的可行解存在性：分层个数 H 是否足够表达层内方差异质性，却不能过多导致单层 Pilot 样本不充分，方差估计不稳定。作者利用 pilot 数据的二维直方图近似选择层边界（而非手动固定）。这是细节中的最“软”环节——理论上只要求 H 固定、充分。实战中若 pilot 太小可能出问题，但论文主题是“设计原则上可行“。
- 如何保证 “pilot + 设计” 没有引入新的偏倚：由于 pilot 样本的随机性独立于 X 测量，第二阶段是有确定抽样概率的设计（weight not based on \(R_i\)），符合王法中的“design-based ignorability”。

技术技巧点名： - Neyman 分配推广：经典的 survey sampling 技巧第一次应用到因果推断的两阶段设定。
- Empirical process / U-statistic 收敛：用来论证 pilot 内的 AIPW 分数残差的方差估计的一致性与误差传播界限。
- Delta 方法 + 二阶泰勒展开：被用于将方差估计的误差映射到 EIF 的渐近方差比较中。
- 似然比/一致性论证：条件于 pilot 的方差在无第一阶段的数据层面上保持一致。

真实例子与应用¶

数据: UK Biobank，选取约 15,000 名参与者作为第一阶段样本。处理：体力活动程度（二元，以是否满足世卫建议划分）。结局：代谢综合征Z-score（连续，基于血压、腰围、血脂等）。昂贵混杂：遗传风险评分（polygenic risk score）+ MRI 腹部脂肪比例。廉价混杂：年龄、性别、基础的健康问卷。

方法应用方式： - 第一阶段：对所有 15,000 人有 Y, A, W。
- Pilot：随机抽 \(n_p\) 人（例如 500 人），测量基因/脂肪。
- 基于 Pilot，划分 4-8 个层（基于 Y, A, W）。
- 计算最优层内抽样概率。
- 第二阶段共 \(n_2 = 1500\) 人（含 pilot 中的 500 人？论文似未合并或者 pilot 已计入第二阶段预算）。第二阶段样本再测量。
- 基于标准两阶段 AIPW 平均因果效应。

结果：与 FixStrat 相比，AdaStrat 的估计量的标准误（SE）缩小了约 20%；相对效率（Var(FixStrat)/Var(AdaStrat)) ≈ 1.25 ~ 1.30。

例子想说明的：验证在真实复杂数据中，方法确实优于固定分层，证明了理论的实战价值。该边际效率提升与理论预测一致。

🔎 结论是否比证明窄¶

是（一说便知）：
- 证明严格限于“分层设定”，层数 H 固定、事先选定。结论未涵盖“自适应动态扩展层数”或“连续预测” 的版本（如每点由 pilot 单独决定是否测昂贵变量）。
- 结论在“给定第二阶段样本量 n2”下成立，但未讨论当 pilot 样本已经占第二阶段大半预算（pilot→第二阶段合并之后实际的新测量效应其实削弱）——这符合“理论不横扫所有实战情形”。
- 作者在讨论部分含蓄提到：FixStrat 只要层间方差差异大，AdaStrat 相对 Gains 大；若各层方差不动，优势消失——等于承认“结果在实际中不是总优于，只在方差异质时有凭”。
- 一个宽松的表述：摘要里“minimizes the variance”是一种模糊的绝对语句，正文细处应了解为此类分层设计框架下的最优（与 uniform stratum 分层比）。

四、开放问题（点到为止，扎根具体语句）¶

最小二阶相位方差下界的验证
理论层面：在“给定第二阶段样本量+昂贵变量分布特征未知但仍可通过 pilot 估计”的场景，该设定下的严格的半参数效率界（semiparametric efficiency bound）仍未导出。作者用了“最小化 AIPW 估计方差”的准则，但未证明它是否真正逼近此 setting 的可实现最优方差下界。扎根点：较弱的 “Theorem 1” 结论是比固定分层好，不是与 minimax 下界对比。若要研究——这个 pilot+Neyman 分配逼近效率界的比例，还是当 pilot 大时接近全阶段观测的效率界上界？
高维混杂 X 下的分层策略扩展
本文昂贵混杂 X 假设了一维或少量维度（在下层方差估计中使用的是残差 \(\hat \phi_i\) 方差）。若 X 是数百维（如遗传 scores 多重的交互项），“层”由方差异质性构建的策略可能需降维工具：直接压缩高风险变量可能是更好的分层变量。扎根点：文章对 X 维数“或许”无讨论——应用UK Biobank中用了两种测量但都是低维，未给高维设定下 pilot 有效性的保证。
多层设计角度最优性是局部：本文的 pilot 保证了层内抽样概率的最优，但 层本身的边界 没被优化——boundary choice 是对 cheaper W 的粗离散化。若进一步优化 layer boundaries（每一步是再另外需 pilot），可能进一步拉开差距。扎根点：正文中“h 的集合是略过确定化的”。
利用Hájek估计器 vs 权重归一化后的稳健设计
本文深度用 AIPW（回归+倾向加权），但其 advisor generating 部分涉及倾向得分的不确定性。开放问题：对 Hájek 估计器（归一化权重），类似的 pilot→Neyman 分配是否比固定分层还好的理论性质证过否？扎根点：本文局限于归一前的权重—用 Hájek 可能有更紧的小样本下界。

Maintained by 陈星宇 · Homepage · Source on GitHub