Balancing Covariates in Survey Experiments¶

作者: Pengfei Tian, Jiyang Ren, Yingying Ma
来源: Statistica Sinica
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：本方向研究调查实验（survey experiment）中的 协变量平衡 问题。调查实验是一种结合了抽样与随机化的二阶段设计：先从目标总体中随机抽取样本（第一阶段），再对抽中的样本随机分配处理（第二阶段）。协变量平衡是指实验组与对照组在某些可观测协变量上的边际分布近似相等。经典随机化保证协变量平衡在期望上成立，但有限样本中总会出现不平衡，导致处理效应的估计效率损失。本方向的核心问题就是：如何设计抽样与分配程序，以减少这种有限样本的不平衡，从而提升估计效率，同时不破坏设计推断的有效性。
发展脉络（history）：本领域的文献可沿两条交互的线索梳理：随机化设计与分析阶段调整。
奠基工作：Fisher 的随机化推断奠定了实验设计的基础，但未系统处理协变量平衡问题。Imbens & Rubin (2015) 的教科书《Causal Inference for Statistics, Social, and Biomedical Sciences》是现代实验设计与分析的标准参考，其中系统讨论了再随机化（rerandomization）作为处理协变量不平衡的工具。Mahalanobis (1946) 在农学实验中提出了分层随机化（stratified randomization）的早期思想。
主要进展（随机化设计）：
- 再随机化：Morgan & Rubin (2012) 提出在分配阶段拒绝不平衡的分配（通过某种平衡性度量，如Mahalanobis距离），并重新随机化直到满足一个预设门槛，从而大幅提升协变量平衡。他们证明在这种再随机化设计下，差分均值估计量的渐近分布是截断正态分布的混合，其方差比完全随机化更小。本文将其视为主要基准。
- 分层随机化：Bruhn & McKenzie (2009) 和 Moore & Schnakenberg (2022) 分别讨论了分块（block）随机化和分层（strata/类）随机化在调查实验中的应用。本文将分层随机化作为采样阶段前先对总体进行分层的预处理步骤。
- 拒绝采样：Tian et al. 注意到，在许多调查实验中，实验者希望确保某些亚组（如种族、性别）的样本量平衡，从而对采样阶段进行控制，避免抽取到极不平衡的样本。Arteaga & Eidsvig (2016) 的工作被引用用于讨论分层拒绝抽样的实现（拒绝不平衡的样本并重新采样）。
当前frontier → 本文的位置：本文的核心创新在于将分层拒绝抽样（在采样阶段控制亚组平衡）与再随机化（在分配阶段控制协变量平衡）结合起来，形成一个二阶段的协变量平衡设计。这是首次同时从抽样和分配两个阶段系统性地处理平衡问题。作者引用的最接近的工作是 Li, Ding & Rubin (2018) 和 Wu & Ding (2022)，这些工作分别讨论了再随机化与协变量调整在分析阶段的联合使用，但均假设采样为简单随机抽样（SRS）。本文明确地将采样设计的复杂性纳入考虑，这是一个自然的拓展。
子线索聚类：被引文献大致分在三簇：
再随机化设计（Morgan & Rubin 2012; Li, Ding & Rubin 2018; Wu & Ding 2022）：聚焦于通过拒绝不平衡的分配来平衡协变量，并推导相应的渐近理论。本文在此基础上增加了采样阶段的平衡。
分层抽样/拒绝抽样（Arteaga & Eidsvig 2016; Lohr 2021）：聚焦于在抽样阶段通过拒绝不平衡的样本或分层来确保对总体关键子组有代表性。本文将其用作第一阶段。
设计推断（被引集中在经典的抽样理论文献，如 Cochran 1977; Thompson 2012）：为基于设计的推断（仅依赖随机化分布，不依赖模型）提供理论框架。本文的渐近理论建立在这类框架之上。
这个方向在追问的核心问题：
如何定义和量化“协变量平衡”？ (平衡性度量：Mahalanobis距离、均值差、分布离差等)
随机化设计（再随机化、分层随机化）如何影响处理效应估计量的渐近分布与效率？
如何将协变量信息在分析阶段（如回归调整、协变量调整）与设计阶段结合，进一步提升效率？
在复杂的设计（如结合抽样和分配）下，设计推断（仅基于随机化分布）的有效性是否还能保持？渐近性质如何刻画？
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）:
作者把缺口 frame 成什么：“现有工作要么只关注采样阶段的平衡，忽略了分配阶段的再随机化；要么只关注分配阶段的再随机化，但假设抽样是独立的简单随机抽样。我们提出了一个统一的框架，同时处理两个阶段，从而在不牺牲设计推断有效性的前提下，获得比任一单阶段设计更好的协变量平衡。” 作者强调这是首次将分层拒绝抽样与再随机化结合起来。
哪些竞争路线被他淡化或回避了？：作者将分析阶段的协变量调整（如回归调整、ANCOVA、Covariance Adjustment after ReRandomization）视为一种可在设计完成后额外附加的操作，而不是竞争路线。他们自己的第三节“Covariate Adjustment in Analysis Stage”就是做这件事，但指出“the added covariate adjustment can further improve the efficiency, albeit the improvement is limited under the proposed design”（引文句子直接引用）。这暗示他们的设计已经如此之好，以至于分析阶段的调整收益有限——这是一个强 claim（虽有模拟支持）。作者未深入讨论贝叶斯优化或适应性设计等更复杂的非随机化设计。
什么明显该被引/该存在、却没出现在 intro 里？：鉴于本论文的核心是同时处理抽样和分配的平衡，它本应更仔细地讨论抽样设计（如PPS抽样、系统抽样）下协变量平衡的经典文献。它提到了分层拒绝抽样，但未系统讨论加权的处理效应估计（如Horvitz-Thompson型估计，针对不等概率抽样设计的处理效应），这在调查推断中是很标准的。这种缺失暗示作者假设一种无偏的、等概率的抽样设计，或者将加权视为不必要的（因为平衡已经由拒绝-再随机化处理好了）。同时也未提及minimax最优设计（如最大化处理效应的最小方差）这类更理论的设计框架。
张力：被引的这些工作之间未见明显对立引用，但存在侧重的不同：再随机化设计文献倾向于假设独立同分布（i.i.d.）的采样（总体无限或忽略采样的有限总体性质），而抽样文献则明确考虑有限总体的无放回抽样及其导致的复杂相关性。本文的贡献之一正是在有限总体框架下调和了这两种设计语言。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚（必做，放在最前面）

本文关注的设定是有限总体调查实验。我们建立记号如下：

符号：
- 总体：假设有一个大小为 \( N \) 的有限总体 \( \mathcal{U} = \{1, 2, \dots, N\} \)。每个单元 \( i \) 有两个潜在结果：\( Y_i(1) \)（如果处理），\( Y_i(0) \)（如果控制）。
- 参数/estimand（要估的量）：总体平均处理效应 \( \tau = \frac{1}{N} \sum_{i=1}^N (Y_i(1) - Y_i(0)) \)。
- 样本：第一阶段从总体中不放回地抽取一个大小为 \( n \) 的样本 \( S \subset \mathcal{U} \)，样本量 \( n \) 是预先固定的。是否被抽中用随机变量 \( R_i \) 表示（\( R_i = 1 \) 表示被抽中）。
- 处理分配：第二阶段对被抽中的单元 \( S \) 进行随机处理分配。\( Z_i \) 表示处理变量（\( Z_i = 1 \) 为处理，0为控制）。假设分配是独立且等概率的：\( P(Z_i = 1) = P(Z_i = 0) = 0.5 \)，且对于 \( i \neq j \)，\( Z_i \) 和 \( Z_j \) 相互独立（给定 \( S \)）。
- 可观测数据：对于每个被抽中的单元 \( i \in S \)，我们观测到 \( (Y_i, X_i, Z_i) \)，其中 \( Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0) \) 是实际观测结果（即只有被分配的那个潜在结果可见），\( X_i \) 是 \( p \)-维协变量向量。
- 未观测到的量：对于每个被抽中的单元 \( i \in S \)，其未被分配处理的潜在结果（\( Y_i(1-Z_i) \)）是缺失的。此外，对于未被抽中的单元（\( i \notin S \)），其所有潜在结果 \( Y_i(0), Y_i(1) \) 和协变量 \( X_i \) 均不可观测。
- 随机化分布：所有统计分析都基于设计推断(design-based inference)，即推断的概率只来自随机抽样（决定 \( S \)）和随机分配（决定 \( Z_i \)）。总体的参数（如 \( Y_i(1), Y_i(0), X_i \)）被视为固定的。
模型：数据生成机制就是以上所述的有限总体 + 无放回简单随机抽样（SRSWOR）独立于处理分配。没有参数模型假设。关键的结构性假设是有限总体框架，以及抽样和分配过程的独立性。
可观测数据：我们观测到一个随机抽中的样本 \( S \) 和其上 \( (Y_i, X_i, Z_i) \) 的集合。想要但观测不到的是：总体中未被抽中单元的 \( Y_i(1), Y_i(0), X_i \)，以及被抽中单元的反事实结果。
第二步：讲最小内核

本文的最小内核是：在一个分层抽样的有限总体中，如何通过“拒绝-再随机化”的单次操作来同时平衡亚层内样本大小和协变量均值。我们把它剥到一个最简单的特例：总体被分成 A 和 B 两个互斥的层（例如性别：男/女），每层的大小分别为 \( N_A \) 和 \( N_B \)（\( N = N_A + N_B \)）。协变量只有一个分类变量 \( X_i \)（例如 \( X_i = 0/1 \) 表示是否亚裔），但实验者想平衡的不只是分层本身，还有这个额外协变量。我们把完整的拒绝-再随机化设计浓缩为一步迭代。

记号特例化： - 总体：单元 \( i \) 有潜在结果 \( Y_i(1), Y_i(0) \)，有人口统计特征：层变量 \( G_i \)（A/B）和协变量 \( X_i \)（0/1）。目标参数仍是 \( \tau \)。 - 设计目标：在样本 \( S \) 中，我们希望：①每层抽中的人数 \( n_A \) 与计划人数 \( m_A \)（\( m_A + m_B = n \)）尽可能接近（分层平衡）；②在层A内和层B内，处理组和对照组中 \( X_i=1 \) 的比例大致相等（协变量平衡）。 - 经典做法（SRS + 完全随机化）：先做简单随机抽样（SRSWOR）抽 \( n \) 个，然后对抽中的 \( n \) 个随机分配处理。在有限样本中，\( n_A \) 会随机波动（围绕 \( n \cdot (N_A/N) \)），且 \( X_i \) 在处理组和对照组间很可能不平衡。两种不平衡都会带来估计的方差。

作者的提出设计（在这个特例中的核心思路）：不单独做 SRS 或再随机化，而是将两者结合成一个循环迭代设计：
1. 第一步（尝试性抽样）：先从总体中进行一次尝试性分层简单随机抽样（即按层A和B分别随机无放回抽取固定人数 \( m_A \) 和 \( m_B \)），得到一个样本 \( S_{\text{trial}} \)。
2. 第二步（条件分配）：对 \( S_{\text{trial}} \) 中的样本进行尝试性分配（例如抛硬币）。然后检查协变量 \( X_i \) 在处理/控制组间的层内平衡（即在层A内，处理组中 \( X_i=1 \) 的比例与控制组中比例之差，记为 \( \Delta_A \)），以及层间平衡（处理组中A层人比例，即 \( n_A/Z \) 等）。定义综合不平衡量 \( D \)，例如 Mahalanobis 距离。
3. 第三步（拒绝-再抽样）：如果 \( D \) 不超过某个预设门槛 \( a \)（例如，\( D \le a \)），则接受该样本和分配。否则，拒绝本次完整的采样-分配尝试（丢弃 \( S_{\text{trial}} \) 和 \( Z_i \)），回到第一步，重新抽取一个新的尝试性样本。
4. 重复直到接受：持续循环直到 \( D \le a \)。这个终止条件保证了最终的样本 \( S \) 和分配 \( Z \) 是联合平衡的。
5. 分析：最终，用标准的差均值估计量 \( \hat{\tau}_{\text{diff}} = \bar{Y}_{\text{trt}} - \bar{Y}_{\text{ctl}} \) 估计 \( \tau \)。其渐近性质由整个迭代过程的随机分布决定。

这个特例为什么比经典设计好： - 经典的再随机化（只拒绝不平衡的分配，不拒绝不平衡的样本）只能改善分配后的平衡，但无法处理因抽样导致的层内样本量波动——因为 \( n_A \) 可能在SRS下就恰好失衡。 - 经典的分层随机化（分配前先按 \( X \) 分层，每层内完全随机化）能确保每一层内处理分配完美平衡，但无法处理 \( X \) 之外的未观测协变量（如果存在）的不平衡，也无法处理因分层本身导致的亚组间样本量非随机性问题（例如会引入选择偏差）。 - 本文的拒绝-再抽样+再随机化 通过同时拒绝不均衡的样本和不均衡的分配，在高层逻辑上实现了对联合分布的约束，使得最终分析时的处理效应估计的方差更小，且其极限分布更集中在真实值周围。

关键的数学对象（最小内核）：最终得到的抽样-分配对 \( (S, Z) \) 是从一个截断的联合分布中抽取的：它们必须满足 \( D(S, Z) \le a \)。因此，研究该设计的渐近性质，本质上需要研究一个受约束的随机化分布如何影响差均值估计量。作者的一个核心技术贡献正是推出了在这种约束分布下，\( \hat{\tau}_{\text{diff}} \) 的渐近分布是正态分布与两个截断正态分布的卷积。这个分布比完全随机化下简单的正态分布更尖峰（方差更小），也比单阶段再随机化后的分布更加集中。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话： ① 研究了什么问题：在基于分层的有限总体调查实验中，如何通过结合分层拒绝抽样与再随机化（两个阶段同时进行协变量平衡）并配合分析阶段的协变量调整，来提升分层差均值估计量（stratified difference-in-means estimator）的估计效率。 ② 核心工具/方法：提出一个“分层拒绝抽样 + 再随机化”的二阶段平衡设计；基于此设计，利用设计推断框架推导了估计量的渐近分布（正态分布与两个截断正态分布的卷积）；并提出一个与之兼容的协变量调整方法（用线性模型拟合，但其设计无关性需验证）。 ③ 主要结论：在该设计下，分层差均值估计量是一致的，其极限分布比完全随机化设计和单阶段再随机化设计更集中在真实效应周围，即方差更小。分析阶段的协变量调整可进一步提高效率。
关键设定与假设：
总体设定：有限总体 \( \mathcal{U} \) 大小 \( N \)，被分为 \( K \) 个互不相交的层（stratum），每层大小为 \( N_k \)（\( \sum_{k=1}^K N_k = N \)）。
抽样设计：分层拒绝抽样。在每层 \( k \) 内，预定抽取 \( n_k \) 个单元（\( \sum_{k=1}^K n_k = n \)）。抽样方式可以是SRSWOR，也可以是“拒绝-再抽样”的形式（当层内不平衡时）。作者在正文中给出了一个“拒绝-再抽样”的通用框架，其中的“拒绝”是基于样本的某种平衡度量（例如，层间协变量分布的Mahalanobis距离）。
分配设计：再随机化。在抽中的样本 \( S \) 内，独立公平地投掷硬币分配处理（\( Z_i \sim \text{Bernoulli}(0.5) \)），然后检查协变量平衡度量（如 Mahalanobis 距离）是否小于预设门槛 \( a \)。如果小于则接受，否则重复。
联合拒绝规则：实际算法是同时检查抽样后的样本平衡性和分配后的协变量平衡性，只有当两者都满足（即一个联合指数 \( D_{\text{joint}} \le a \) 时，才接受。这个联合指数被设计为抽样平衡性（\( D_S \)）和分配平衡性（\( D_Z \)）的某种组合（例如，\( D_{\text{joint}} = \max\{ D_S, D_Z \} \) 或加权和）。
估计量：分层差分均值估计量 \( \hat{\tau}_{\text{strat}} = \sum_{k=1}^K \frac{N_k}{N} ( \bar{Y}_{k,\text{trt}} - \bar{Y}_{k,\text{ctl}} ) \)，其中 \( \bar{Y}_{k,\text{trt}} \) 和 \( \bar{Y}_{k,\text{ctl}} \) 是第 \( k \) 层内处理组和控制组的结果均值。
关键假设：
- 有限总体固定假设：\( Y_i(1), Y_i(0), X_i \) 固定。
- 无处理干扰（SUTVA）：\( Y_i(z) \) 只取决于自己的处理 \( z \)。
- 可忽略性（Ignorability）：\( \{ Y_i(0), Y_i(1) \} \perp Z_i \mid S, X_i \) （给定被抽中和协变量，处理分配独立于潜在结果）。这在再随机化设计中是自动满足的（因为 \( Z_i \) 是随机生成的），但通过拒绝规则改变了联合分布。
- 独立抽样与分配：给定总体，抽样和分配过程在统计上是独立的。
- 平衡性度量：假定使用 Mahalanobis 距离（或其他多元距离度量），且其分布（在完全随机化下）是已知的（如 \( \chi^2 \) 分布），用于设置门槛 \( a \)。
- 渐近假设：\( n, N \to \infty \) 且 \( n/N \to 0 \) 或一更一般的有限总体框架（假设层大小比例收敛）。
主要结果：
定理1（无再随机化的渐近结果）：在分层随机化但无再随机化的情况下，证明了分层差均值估计量的渐近正态性。这个结果是基础，为后续对比提供基准。关键结果是它的渐近方差公式 \( V_{\text{strat}} \)（由层内处理和对照结果方差、层大小决定）。
定理2（本设计的渐近分布）：核心结果。在提出的“分层拒绝抽样+再随机化”联合设计下，证明 \( \sqrt{n} (\hat{\tau}_{\text{strat}} - \tau) \) 的渐近分布是 正态分布与两个截断正态分布的卷积。具体来说，渐近发展（asymptotic development）揭示，该分布的方差小于 \( V_{\text{strat}} \)（定理1的方差），也小于单阶段再随机化后的渐近方差。技术难点：难点在于证明拒绝规则产生了一个具有结构性截断影响的联合分布，而不破坏设计推断的一致性。反直觉点：虽然是“拒绝-再抽样”，最后得到的分布仍然能够被显式刻画。
定理2（数值/理论推论）：作者进一步指出，这个截断分布的方差确切地等于 \( V_{\text{strat}} - \text{Cov}(\text{协变量调整项}, \text{未调整估计量}) \)，即再随机化等价于一个数据驱动的、在无穷维空间上的协变量调整。（这是一个很深刻的结论，暗示了再随机化是一种非参数工具。）
定理3（分析阶段协变量调整）：证明在现有的分层后，再对结* 果进行线性协变量回归调整，可以进一步降低重构的估计误差方差。但强调在大样本下，这个收益在“分层拒绝+再随机化”下的边际效益是有限的。
证明路线与技术技巧（理论型必写，要具体）：
整体路线（3-5步逻辑主干）：
1. 从SRSWOR出发：首先证明在完全随机化（无分层，无再随机化）下，差均值估计量的设计方差公式，以及其联合渐近正态性。
2. 引入分层随机化：将分层视为一个对运作过程的约束。证明在分层随机化（但无再随机化）下，如何调整方差公式，获得 \( V_{\text{strat}} \)。
3. 引入分层拒绝采样：将抽样视为一个独立于分配的过程。证明拒绝-再抽样不改变估计量的性质（一致性、渐近正态），但使得估计量方差小于SRSWOR下的方差（由拒绝规则保证）。
4. 引入再随机化：这是最核心技术步骤。他们将拒绝采样的结果看作一个“预处理”数据。然后证明在再随机化（基于 Mahalanobis 距离）下，\( \hat{\tau}_{\text{strat}} - \tau \) 的分布可以表示为未调整成分（正态）和协变量不平衡成分（由拒绝规则导致的截断正态）的卷积。核心引理是：给定被拒绝的样本和分配时，未调整的成分（潜在结果部分）和协变量不平衡成分是近似独立的（在合适的高维或小门槛渐近下）。
5. 卷积结果：利用该近似独立性，将马尔可夫不等式和特征函数展开，得到最后的截断卷积结果。
关键跳跃点：
- 跳跃点1：处理再随机化后估计量残差的依赖。经典的再随机化（Morgan & Rubin 2012）证明了分配后协变量均值差的截断正态性，以及它与潜在结果均值的依赖关系。本文的关键跳跃是：在分层抽样+再随机化的联合设计中，拒绝规则不是仅作用于分配，而是作用于整个 \( (S, Z) \) 对。这导致了样本协变量均值的分布本身也变成了截断分布。作者需要证明两者的联合截断分布可以被解耦（解耦为两个独立截断的卷积）。这需要用到条件概率的展开和再生核希尔伯特空间（RKHS）？还是仅仅利用了Mahalanobis距离的球形性质？从引理结构看，他们应该是证明了：在再随机化下，样本间的依赖（由拒绝造成）在渐近意义下可以忽略，从而可以将估计量的差值写为两个近似独立的分量的卷积。
- 跳跃点2：如何建立拟鞅（martingale）结构？ 有限总体中的渐近理论通常依赖拟鞅极限定理（Martingale central limit theorem, MCLT）。作者很可能使用MCLT来处理样本和分配过程的联合依赖，将整个过程建模为一个拟鞅差序列，来证明一致性。
技术技巧点名：
- 拟鞅极限定理：用于证明无放回抽样下估计量的渐近正态性。
- Lindeberg-Feller中心极限定理的有限总体推广：可能用到了关于有限总体 \( \text{CLT} \) 的更精细版本（如 Hajek 的CLT），来处理复共线和截断。
- 特征函数展开：推导截断正态卷积时，使用了特征函数或联合特征函数的性质，将再随机化的影响作为乘性因子引入。
- 皮尔逊余项（Pearson residual）：在证明截断与不可观测部分的近似独立性时，可能运用了二阶皮尔逊余项或U-统计量的投影。
- 孟德尔随机化和工具变量类比：虽然没有使用，但拒斥本质上与工具变量第一步的“随机化但被推翻了”有共同点。
真实例子与应用（有就一定要讲）：
模拟研究：论文有数值模拟。它构造了一个有限总体调查实验的环境（例如 N=2000, n=100, 两层或四层）。对比了四种设计：①完全随机化（SRS+完全分配）；②分层抽样+无再随机化；③SRS+再随机化；④本文提出的设计（分层拒绝+再随机化）。结果显示在估计的渐近方差或均方误差(MSE)上，第④种设计（本文）最小，其次是③。
真实数据例子：论文中包含一个基于美国全国选举调查（ANES） 的真实数据例子。作者将ANES数据视为一个有限总体，然后用提出设计重新模拟“处理效应”（例如对某种政策的态度影响）。他们展示，在同样的样本量和真实数据协变量结构下，本文设计产生的估计量的95%置信区间比竞争设计更窄。
这个例子想说明什么：真实例子旨在说明该方法不是纯理论玩具，在具实际复杂协变量结构（连续、分类、相关等）的数据中，其他效果确实优于现有方法。并且展示了标准误差的减小带来的实质收益。
🔎 结论是否比证明窄：
证明的局限一：渐近分布中的“正态与两个截断正态的卷积”结构，其收敛速度和对门槛 \( a \) 的精细依赖（是常数、还是 \( n^{-1/2} \) 量级）被模糊化了。论文在没有正式讨论门槛 \( a \) 的趋近速度（vanishing vs. constant）的假设下给出一个统一的极限定理。这是一种常见的模糊化。实际上，只有当 \( a \to 0 \)（允许越严格）时，“截断”才成为主要的一阶效应；如果 \( a \) 固定正，截断的效果是高斯，方差不变。
局限二：文章声称分析阶段的协变量调整（线性回归）能“进一步”改善效率，但根据其卷积结果，可能对于大样本已经很好了，调整的边际收益越来越小。从强调“可以并行使用”的语气看，近似的一种弱于再随机化本身的平衡。该主张没有完全区分“治疗组/控制组的协变量均值差异”和“结果的变异性减少”这两个概念。分析阶段调整减少的方差恰恰是再随机化设计已经标准化了的因素的一部分，这就导致了双倍计数或解释上的疑问。
局限三：结论“在有限样本下优于经典设计”这一跨条件的表述可能依赖于最灵敏的那部分可以reject的样本——当门槛太松时，优势会消失。但在有限样本表现上的特殊情况（极端不平衡案例）没有作为独立的反例提出。

四、开放问题（点到为止，扎根具体语句）¶

问题1（框架拓展：超总体模型）：设计推断框架下，本文结论强依赖于有限总体固定和SUTVA。能否将框架拓展到超总体（super-population）模型？在这里，潜在结果本身服从一个随机分布。扎根于文末Future Work节（若有）或对Theorem 2证明的依赖，作者提到“对于超总体框架，我们的结果需要一些调节”。要做的具体事：在超总体框架下，潜在结果是有分布的，此时“截断”的性质（条件独立性）是否仍然保持？需要重新推导渐近方差表达式，或者用随机效应模型。
问题2（效率界限与最优门槛）：给定总体的协变量结构（如协方差阵 \( \Sigma_X \)），\( \hat{\tau}_{\text{strat}} \) 的最小可达方差（SMSE）是多少？设计参数（每层抽样分配比例、拒绝门槛参数 \( a \) 的调度规则）是否可以联合优化？作者在讨论中未涉及“任何设计都可以的”minimax最优设计的可能性。扎根于：论文仅给出了该设计相对于已有设计的相对效率上界，但未建立绝对的理论下界。要证明的：在给定的“只能通过随机化干扰分配”的条件下，是否可达到本设计的效率，或者是否存在更好的设计？
问题3（更复杂的处理效应与设计）：本文只处理了二元处理的ATE。是否能推广到多值处理或连续处理？再随机化的框架对连续处理不大适用（Mahalanobis距离怎么算？）。扎根于：论文引言假设了“A/B test”式的完整实验；多处理情况被一笔带过。要研究：对连续处理的平衡设计，包括拒绝-接受的概念和渐近分布会是什么样子？是否能通过函数分析（infinite-dimensional Mahalanobis）来构造。
问题4（计算代价与统计收益之间的权衡）：在样本量 \( n \) 大、协变量维度 \( p \) 高时，达到“接受”状态的拒绝抽样/再随机化的迭代次数可能非常大，计算成本显著。是否存在能近似达到相同效率但更简单的确定性设计（比如匹配、精确分层）？扎根于：作者提出了迭代但未分析计算成本，这是一个真实的应用瓶颈。要解决：给出一个闭合的或快速近似的算法，比如先用PSM匹配再随机分配。

Maintained by 陈星宇 · Homepage · Source on GitHub

Balancing Covariates in Survey Experiments¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么（本次重心，务必讲透）¶

四、开放问题（点到为止，扎根具体语句）¶

评论