Semiparametric Efficiency in Sequential Experiments: Characterization and Design via Average Propensity¶

作者: Jiachun Li, David Simchi-Levi
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.31190

一、领域脉络与小综述¶

这个方向是什么¶

本论文研究的核心问题是：在序贯实验（sequential experiments）中，当实验设计违反经典独立同分布（i.i.d.）假设时（例如，处理分配是自适应的、协变量平衡的、或受曝光/公平/预算约束的），估计一个因果目标参数（如平均处理效应ATE）的半参数效率基准是什么，以及如何通过可实现的实验设计来逼近这个基准。该方向将经典的i.i.d.半参数效率理论（Newey 1994, Van der Vaart 2000）扩展到更现实、更复杂的实验设定中，其成熟度处于快速发展阶段，核心概念和工具正在被建立和统一。

发展脉络¶

奠基工作：i.i.d. 半参数效率理论。Newey (1994) 和 Van der Vaart (2000) 建立了在独立同分布数据下，正则估计量的渐近方差下界由高效影响函数（EIF）的方差决定。这是所有后续工作的理论基础。留下的口子：该理论假设数据是i.i.d.的，无法直接应用于处理分配依赖于历史数据的序贯实验。
主要进展：针对特定非i.i.d.设计类的效率界。后续研究开始探索特定非i.i.d.设计下的效率界。
- Armstrong (2022)：为一大类无约束的自适应序贯实验推导了效率界。留下的口子：该结果不直接涵盖有约束的设计（如协变量平衡）或离线设计。
- Bai et al. (2023) 和 Rafi (2023)：研究了在固定倾向得分规则下的精细分层（finely stratified）和协变量自适应（covariate-adaptive）设计。留下的口子：这些工作假设倾向得分是固定的，不涉及自适应学习。
- Cytrynbaum (2021)：分析了两阶段抽样与分配设计中的最优分配，并留下了一个关于效率表征的猜想。留下的口子：该猜想需要一个统一的框架来验证。
当前 Frontier：统一框架与可实现的构造性设计。本文（Li & Simchi-Levi, 2026）是当前前沿的代表。它通过引入平均倾向得分（average propensity score）这一核心概念，将上述看似不同的设定（自适应、精细分层、两阶段设计）统一在一个框架下，证明了它们的统计极限都由同一个i.i.d.基准决定。更重要的是，它进一步提出了两种可实现的批式自适应设计（回归调整和协变量平衡）来逼近这个基准。

子线索聚类¶

半参数效率界（Semiparametric Efficiency Bounds）：这条线索关注的是“理论上能有多好”。代表工作包括 Newey (1994), Van der Vaart (2000) 的经典理论，以及 Armstrong (2022), Bai et al. (2023), Rafi (2023) 对特定非i.i.d.设计的扩展。本文通过平均倾向得分，将所有这些工作统一在一个框架下，提供了一个通用的下界。
自适应实验设计（Adaptive Experimentation）：这条线索关注的是“如何通过自适应分配来逼近最优效率”。代表工作包括 Hu & Rosenberger (2006) 的反应自适应随机化，以及 Kato et al. (2020), Zhao (2023), Dai et al. (2023), Li et al. (2024), Cook et al. (2024) 等针对ATE的Neyman分配。本文的贡献在于：将目标从ATE推广到一般光滑泛函，允许多处理，并为线性泛函提供了尖锐的二阶率表征。
协变量平衡（Covariate Balancing）：这条线索关注的是“如何通过设计本身而非估计来达到效率”。代表工作包括 Li et al. (2018), Bai (2022), Cytrynbaum (2024) 的再随机化、配对设计等。这些工作通常是离线的，且主要关注ATE。本文的贡献在于：提出了一个在线、批式、自适应的协变量平衡设计，可以联合学习最优倾向得分，并适用于更广泛的矩定义泛函。

这个方向在追问的核心问题¶

效率基准的统一表征：对于各种复杂的序贯实验设计，是否存在一个统一的、简洁的统计量来刻画其信息极限？
最优设计的可学习性：当最优分配规则未知时，能否在实验过程中通过自适应学习来逼近它？学习的速度有多快？
估计与设计的权衡：是通过复杂的估计器（如回归调整）来纠正设计偏差，还是通过精巧的设计（如协变量平衡）来简化估计，哪种路径更优？各自的代价是什么？
二阶率：在达到一阶渐近有效后，逼近最优基准的速度（二阶率）是多少？这个速度是否是最优的？

⚠️ 作者的 framing¶

作者将缺口框架为：“虽然已有针对特定非i.i.d.设计的效率界，但缺乏一个统一的基准和可实现的构造性方法。” 作者声称，其引入的平均倾向得分是解决这个问题的关键，它既是下界的充分统计量，也是设计优化的目标。这使得本文成为“显然的下一步”。

被淡化或回避的竞争路线：作者将Armstrong (2022) 的工作定位为“无约束自适应设计”，而本文的框架更广。作者也指出，Bai et al. (2023) 和 Rafi (2023) 的工作是“离线”或“固定倾向得分”的，而本文是“在线”和“自适应”的。这实际上是在强调本文的通用性和可操作性，而淡化了这些工作在其特定设定下的深度。
什么明显该被引 / 该存在、却没出现在 intro 里？ 这是一个值得研究者去查的问题。例如，关于高效影响函数（EIF） 在非i.i.d.设定下的更一般理论（如依赖于鞅差序列的EIF），或者关于批式学习（batch learning） 在统计与计算权衡中的更广泛文献，intro中并未提及。这可能是作者有意为之，以保持焦点，但也可能是一个潜在的缺口。

张力¶

未见明显对立引用。所有被引工作都在各自的设定下推进，而本文试图将它们统一起来，因此不存在根本性的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- t = 1, ..., n: 实验单元（units）的索引，按分配顺序排列。
- A = {1, ..., K}: 处理空间，有K个处理组。
- X_t ∈ X = [0,1]^d: 单元t的协变量（covariates），d维。
- Y_t(a): 单元t在分配到处理a时的潜在结果（potential outcome）。
- A_t ∈ A: 单元t实际分配到的处理。
- Y_t = Y_t(A_t): 单元t的观测结果（observed outcome）。
- O_t = (X_t, A_t, Y_t): 单元t的观测数据。
- θ(P_0): 目标因果参数（target estimand），是潜在结果分布P_0的泛函。
- e_t(a | x, F_{t-1}): 在给定协变量x和历史信息F_{t-1}下，单元t被分配到处理a的倾向得分（propensity score）。
- F_t: 到时间t为止的信息流（filtration）。
- ¯e_a(x): 平均倾向得分（average propensity score），定义为(1/n) * Σ_t E[e_t(a|x, F_{t-1})]。这是本文的核心设计对象。
- φ_e(O): 在固定倾向得分e下的i.i.d.模型中，参数θ的高效影响函数（EIF）。
- V(e) = E[φ_e(O)^2]: 在固定倾向得分e下的i.i.d.模型中的半参数效率基准方差。
模型：
- 潜在结果模型：潜在单元W_t = (X_t, Y_t(1), ..., Y_t(K))是独立同分布（i.i.d.）的，服从某个未知分布P_0。
- 观测模型：观测数据O_t的生成过程是：先观测X_t，然后根据一个非预期（non-anticipating）的设计（即A_t的分布可以依赖于X_t和过去的信息F_{t-1}，但不能依赖于未来的信息）分配A_t，最后观测Y_t。
- 已知部分：实验设计（即倾向得分e_t的生成机制）是已知的，由实验者控制。
- 未知部分：协变量的边际分布P_X，以及给定协变量和处理下的结果条件分布P_{Y|X,A}，都是未知的、非参数的。
可观测数据：
- 可观测：O_t = (X_t, A_t, Y_t)，即每个单元的协变量、分配的处理和观测到的结果。实验者知道整个分配历史。
- 不可观测：潜在结果Y_t(a)（对于a ≠ A_t）。这是因果推断的核心反事实。

第二步：讲最小内核¶

本文的最小内核可以归结为：在序贯实验中，任何非预期设计的统计效率，等价于一个具有相同平均倾向得分的i.i.d.实验的效率。

最简特例：两处理（K=2）、ATE、无协变量（d=0）

设定：
- 处理空间A = {0, 1}。
- 目标参数是ATE：θ = E[Y(1) - Y(0)]。
- 没有协变量X，所以倾向得分退化为一个标量概率：e_t(1 | F_{t-1}) = p_t，e_t(0 | F_{t-1}) = 1 - p_t。
- 实验是序贯的，分配概率p_t可以依赖于过去的结果（例如，响应自适应随机化）。
平均倾向得分：
- 在这个特例下，平均倾向得分¯e退化为两个标量：¯e_1 = (1/n) * Σ_t E[p_t] 和 ¯e_0 = 1 - ¯e_1。它代表了在整个实验中，平均有多少比例的单元被分配到了处理组。
核心命题：
- 对于这个序贯实验，任何正则局部无偏估计量T的方差下界是： Var(T) ≥ (1/n) * V(¯e)
- 其中V(¯e)是如果数据是在一个固定倾向得分为¯e_1的i.i.d.实验中收集的，ATE的EIF的方差。对于ATE，这个方差是： V(¯e) = Var(Y(1) - Y(0)) + E[σ_1^2 / ¯e_1 + σ_0^2 / ¯e_0] 其中σ_a^2 = Var(Y(a))。
为什么成立（直觉）：
- 无论p_t如何随时间变化，实验最终提供的信息总量，受限于它分配给处理组和对照组的平均样本量。¯e_1和¯e_0正是这个平均分配比例的度量。
- 证明的核心思想是构造一个最不利的一维子模型，其得分恰好是EIF。然后证明，在这个子模型下，整个序贯实验的似然比得分（log-likelihood ratio score）的方差，恰好等于n / V(¯e)。通过Cauchy-Schwarz不等式，任何无偏估计量的方差必须至少是这个得分的方差的倒数，从而得到下界。
结论：
- 这个特例清晰地展示了本文的核心思想：序贯实验的复杂性（p_t的变化）被“平均”掉了，其统计极限由一个简单的、平均的倾向得分¯e决定。实验设计问题因此简化为：选择一个好的平均倾向得分¯e，然后设计一个序贯实验来实现它。经典的Neyman分配（¯e_1 ∝ σ_1）是这个框架下的一个特例。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文研究了在非i.i.d.的序贯实验中，估计因果参数的半参数效率基准，并提出了可实现的批式自适应设计来逼近该基准。
核心工具/方法：核心工具是平均倾向得分（average propensity score），它被证明是序贯实验设计的“充分统计量”。基于此，作者提出了两种互补的构造性方法：基于高效影响函数的回归调整（regression adjustment）和自适应协变量平衡（adaptive covariate balancing）。
主要结论：任何非预期设计的效率基准由其诱导的平均倾向得分下的i.i.d.效率基准决定。对于一般光滑泛函，在标准n^{-1/4} nuisance率条件下，回归调整法可达到该基准；对于线性泛函，该方法能达到尖锐的二阶率，且该率是最优的。协变量平衡法通过设计本身达到同一基准，避免了nuisance率瓶颈，但代价是依赖于协变量维度的平衡余项率。

关键设定与假设¶

非预期设计（Non-anticipating design）：分配决策只能依赖于已揭示的信息（F_{t-1}），不能依赖于未来的结果或协变量。这涵盖了i.i.d.、完全随机化、离线分层和批式自适应设计。
潜在结果独立同分布：W_t = (X_t, Y_t(1), ..., Y_t(K)) 是i.i.d.的。这是因果推断的标准假设。
结果可见性（Outcome visibility）：给定(X_t, A_t)，Y_t的条件分布不依赖于历史F_{t-1}。这确保了观测结果只受当前分配的影响。
正性（Positivity）：存在ε > 0，使得所有倾向得分e_t(a|x, f) ≥ ε。这是半参数理论的标准假设，确保分母不为零。
路径可微性（Pathwise differentiability）：目标参数θ在固定倾向得分模型下是路径可微的，从而存在EIF。
Neyman正交性（Neyman orthogonality）（用于一般泛函）：EIF的期望关于nuisance参数的导数在真实值处为零。这是去偏机器学习（DML）的标准条件。
Lipschitz连续性（用于协变量平衡）：平衡函数ω_a(x)是Lipschitz连续的。这保证了空间分箱的近似误差可控。

主要结果¶

定理1（效率基准）：对于任何非预期设计，其诱导的平均倾向得分为¯e。那么，任何正则局部无偏估计量的方差下界为V(¯e)/n，其中V(¯e)是在固定倾向得分¯e下的i.i.d.半参数效率基准。直觉：设计的复杂性被平均倾向得分所概括，它是决定统计极限的充分统计量。
定理4（线性泛函的收敛率上界）：对于线性泛函（如ATE），在批式自适应回归调整算法下，如果结果回归的学习率为n^{-α}，第二矩函数的学习率为n^{-β}，那么估计量的MSE与最优基准V^*/n的差距为Õ(n^{-1-2α} ∨ n^{-1-2β})。直觉：由于线性泛函的EIF具有全局无偏性，plug-in偏差完全消失，因此不需要n^{-1/4}的nuisance率条件，二阶率由两个学习任务中较慢的那个决定。
定理5（线性泛函的匹配收敛率下界）：存在环境子族，使得任何非预期实验和估计量都无法以比n^{-1-2α} ∨ n^{-1-2β}更快的速度逼近基准。直觉：定理4给出的上界是紧的（up to log factors），即算法1达到了线性泛函问题的minimax最优二阶率。
定理7（协变量平衡的效率）：在批式自适应协变量平衡设计下，如果平衡函数是Lipschitz的，且第二矩函数的学习率为n^{-β}，那么矩估计量的MSE为V^*/n + o(1/n)。直觉：通过设计本身（协变量平衡）来控制平衡余项，可以绕过回归调整法中的n^{-1/4} nuisance率瓶颈，但代价是平衡余项的收敛率依赖于协变量维度d（m^{-1/(d+4)}）。

证明路线与技术技巧¶

整体路线（以定理1为例）： 1. 构造最不利子模型：在固定倾向得分¯e的i.i.d.模型中，构造一个一维子模型，其得分恰好是EIF φ_{¯e}(O)。 2. 计算轨迹得分：在这个子模型下，整个序贯实验的轨迹（trajectory）的得分是每个观测得分的和：Z(F^n) = Σ_t s(O_t)。由于设计是非预期的，{s(O_t)}是一个鞅差序列。 3. 计算得分方差：利用平均倾向得分的定义和鞅差性质，可以证明E[Z^2] = n / V(¯e)。 4. 应用Cauchy-Schwarz：对于任何局部无偏估计量T，有Cov(T, Z) = 1。因此，Var(T) ≥ 1 / E[Z^2] = V(¯e)/n。

关键跳跃点： * 从复杂设计到简单基准：证明中最关键的一步是，将序贯实验的轨迹得分方差，与一个简单的i.i.d.模型的EIF方差联系起来。这依赖于平均倾向得分¯e的定义，它使得在计算E[s(O_t)^2]时，复杂的依赖结构被“平均”掉了。 * 线性泛函的全局无偏性：在定理4的证明中，关键跳跃点是Proposition 2，它证明了对于线性泛函，任何候选回归函数˜µ下的EIF得分ψ(O; ˜µ, e)的条件期望都等于θ。这意味着plug-in偏差是精确为零的，而不是仅仅二阶小。这使得在MSE分解中，交互项消失，从而避免了n^{-1/4}的瓶颈。

技术技巧点名： * 鞅差序列（Martingale difference sequence）：用于处理序贯实验中的依赖结构，将轨迹得分分解为不相关的增量。 * 最不利子模型（Least-favorable submodel）：用于构造一个得分恰好是EIF的子模型，从而将下界问题转化为方差计算问题。 * 交叉拟合（Cross-fitting）：用于分离nuisance估计和EIF评估，避免过拟合带来的偏差。 * Assouad引理（Assouad's lemma）：用于证明定理5中的匹配下界，通过构造两个超立方体族来分别隔离模型估计误差和设计学习误差。 * 空间分箱与组内置换（Spatial binning and within-bin grouped permutation）：用于实现协变量平衡，通过将协变量空间分箱并在箱内进行无放回置换，来精确控制平衡余项。 * 随机舍入（Randomized rounding）：用于处理非整数倍的目标分配计数，使得在箱内能实现期望的分配比例。

真实例子与应用¶

数据/场景：HELPMed AI医疗助手评估研究（Bean et al. 2026）。数据集包含2400次交互，涉及1298名参与者和4个AI助手（K=4）。结果Y是二元的，表示参与者的诊断选择是否与金标准匹配。原始实验使用均匀1/K随机化。
方法应用：作者将本文的两种自适应算法（回归调整RA和协变量平衡CB）应用于该数据，目标是估计三个竞争助手相对于基准助手的向量ATE（trace MSE）。他们比较了全特征设计和基于因果森林筛选的top-2特征设计。
结果：
- 两种自适应算法（尤其是CB）在n=1200和n=2400时，相比均匀随机化，显著降低了归一化trace MSE（约5-8%）。
- top-2特征设计（主要选择scenario id和age band）在高样本量（n=4800）下表现更好，尤其是在CB算法中，这验证了协变量平衡的几何代价依赖于有效维度。
例子想说明什么：该例子旨在展示本文的理论框架在实际多处理评估问题中的有效性。它说明了：
1. 平均倾向得分设计原则能带来有意义的效率提升。
2. 两种自适应算法都能逼近理论基准。
3. 协变量平衡法在低维有效特征下表现更佳，而回归调整法对特征选择更鲁棒。
4. 效率提升可以转化为所需样本量的减少。

🔎 结论是否比证明窄¶

定理1的适用范围：定理1的证明依赖于“局部无偏性”和“最不利子模型”。作者在Remark 1中将其推广到正则估计量。但严格来说，这个下界是针对特定最不利子模型的，它是否覆盖了所有可能的估计量序列？作者声称“the same argument yields the usual first-order version for regular estimators”，但读者需要确认这个“usual”版本是否完全等价于经典半参数理论中的下界。
协变量平衡的维度依赖：定理7声称达到V^*/n + o(1/n)，但证明中平衡余项的收敛率是m^{-1/(d+4)}。这意味着o(1/n)的成立依赖于d是固定的且远小于n。对于高维协变量（d随n增长），这个结果可能不成立。作者在数值实验中通过top-2特征选择来规避这个问题，但理论结果并未明确处理高维情况。
一般光滑泛函的“基线”结果：Corollary 1声称在n^{-1/4} nuisance率下达到基准，但作者明确表示“this is a baseline achievability result”且“the purpose is deliberately modest”。这个结果没有给出二阶率，且依赖于一个较强的nuisance率条件。相比之下，线性泛函的结果要尖锐得多。这表明，对于一般泛函，本文的构造性方法可能不是最优的，或者需要更强的条件。

四、开放问题¶

一般光滑泛函的尖锐二阶率：本文为线性泛函提供了匹配的minimax最优二阶率，但对于一般光滑泛函，只给出了一个基线结果（Corollary 1）。扎根点：Section 4.3的Theorem 2和Corollary 1。一个开放问题是：对于一般光滑泛函，逼近V^*/n的最优二阶率是什么？是否也存在一个类似于n^{-1-2α} ∨ n^{-1-2β}的尖锐表征？这可能需要更精细地分析交互项和二阶偏差。
高维协变量下的协变量平衡：本文的协变量平衡方法（Theorem 6）的收敛率依赖于协变量维度d（m^{-1/(d+4)}）。扎根点：Section 5.3的Theorem 6和Section 6.1的数值实验。一个开放问题是：能否设计出在高维协变量下仍然有效的协变量平衡方法？例如，是否可以利用稀疏性假设或降维技术（如本文数值实验中的top-2筛选）来获得不依赖于全维度的率？这需要将协变量平衡与高维统计或随机矩阵理论结合起来。
约束下的最优设计：本文的框架允许通过可行集E_{feas}来编码操作约束（如曝光限制、公平性）。扎根点：Section 3.3的讨论。一个开放问题是：对于给定的约束集E_{feas}，如何高效地求解最优平均倾向得分e^*？特别是当约束是非凸的或依赖于数据时，如何设计可实现的算法来逼近这个受约束的基准？这涉及到约束优化和在线学习。
与高阶U-统计量的潜在联系：本文的回归调整法依赖于EIF，而EIF本质上是一阶影响函数。对于更复杂的参数（如高阶交互效应），可能需要高阶影响函数（HOIF）。扎根点：本文专注于一阶半参数效率。一个开放问题是：本文的平均倾向得分框架能否推广到需要高阶U-统计量或HOIF的设定？例如，在估计方差或高阶矩时，效率基准会如何变化？这直接连接了研究者的higher-order U-statistics和HOIF兴趣。

Maintained by 陈星宇 · Homepage · Source on GitHub