Semiparametric Efficiency in Sequential Experiments: Characterization and Design via Average Propensity¶
作者: Jiachun Li, David Simchi-Levi
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.31190
一、领域脉络与小综述¶
这个方向是什么¶
本论文研究的核心问题是:在序贯实验(sequential experiments)中,当实验设计违反经典独立同分布(i.i.d.)假设时(例如,处理分配是自适应的、协变量平衡的、或受曝光/公平/预算约束的),估计一个因果目标参数(如平均处理效应ATE)的半参数效率基准是什么,以及如何通过可实现的实验设计来逼近这个基准。该方向将经典的i.i.d.半参数效率理论(Newey 1994, Van der Vaart 2000)扩展到更现实、更复杂的实验设定中,其成熟度处于快速发展阶段,核心概念和工具正在被建立和统一。
发展脉络¶
-
奠基工作:i.i.d. 半参数效率理论。Newey (1994) 和 Van der Vaart (2000) 建立了在独立同分布数据下,正则估计量的渐近方差下界由高效影响函数(EIF)的方差决定。这是所有后续工作的理论基础。留下的口子:该理论假设数据是i.i.d.的,无法直接应用于处理分配依赖于历史数据的序贯实验。
-
主要进展:针对特定非i.i.d.设计类的效率界。后续研究开始探索特定非i.i.d.设计下的效率界。
- Armstrong (2022):为一大类无约束的自适应序贯实验推导了效率界。留下的口子:该结果不直接涵盖有约束的设计(如协变量平衡)或离线设计。
- Bai et al. (2023) 和 Rafi (2023):研究了在固定倾向得分规则下的精细分层(finely stratified)和协变量自适应(covariate-adaptive)设计。留下的口子:这些工作假设倾向得分是固定的,不涉及自适应学习。
- Cytrynbaum (2021):分析了两阶段抽样与分配设计中的最优分配,并留下了一个关于效率表征的猜想。留下的口子:该猜想需要一个统一的框架来验证。
-
当前 Frontier:统一框架与可实现的构造性设计。本文(Li & Simchi-Levi, 2026)是当前前沿的代表。它通过引入平均倾向得分(average propensity score)这一核心概念,将上述看似不同的设定(自适应、精细分层、两阶段设计)统一在一个框架下,证明了它们的统计极限都由同一个i.i.d.基准决定。更重要的是,它进一步提出了两种可实现的批式自适应设计(回归调整和协变量平衡)来逼近这个基准。
子线索聚类¶
-
半参数效率界(Semiparametric Efficiency Bounds):这条线索关注的是“理论上能有多好”。代表工作包括 Newey (1994), Van der Vaart (2000) 的经典理论,以及 Armstrong (2022), Bai et al. (2023), Rafi (2023) 对特定非i.i.d.设计的扩展。本文通过平均倾向得分,将所有这些工作统一在一个框架下,提供了一个通用的下界。
-
自适应实验设计(Adaptive Experimentation):这条线索关注的是“如何通过自适应分配来逼近最优效率”。代表工作包括 Hu & Rosenberger (2006) 的反应自适应随机化,以及 Kato et al. (2020), Zhao (2023), Dai et al. (2023), Li et al. (2024), Cook et al. (2024) 等针对ATE的Neyman分配。本文的贡献在于:将目标从ATE推广到一般光滑泛函,允许多处理,并为线性泛函提供了尖锐的二阶率表征。
-
协变量平衡(Covariate Balancing):这条线索关注的是“如何通过设计本身而非估计来达到效率”。代表工作包括 Li et al. (2018), Bai (2022), Cytrynbaum (2024) 的再随机化、配对设计等。这些工作通常是离线的,且主要关注ATE。本文的贡献在于:提出了一个在线、批式、自适应的协变量平衡设计,可以联合学习最优倾向得分,并适用于更广泛的矩定义泛函。
这个方向在追问的核心问题¶
- 效率基准的统一表征:对于各种复杂的序贯实验设计,是否存在一个统一的、简洁的统计量来刻画其信息极限?
- 最优设计的可学习性:当最优分配规则未知时,能否在实验过程中通过自适应学习来逼近它?学习的速度有多快?
- 估计与设计的权衡:是通过复杂的估计器(如回归调整)来纠正设计偏差,还是通过精巧的设计(如协变量平衡)来简化估计,哪种路径更优?各自的代价是什么?
- 二阶率:在达到一阶渐近有效后,逼近最优基准的速度(二阶率)是多少?这个速度是否是最优的?
⚠️ 作者的 framing¶
作者将缺口框架为:“虽然已有针对特定非i.i.d.设计的效率界,但缺乏一个统一的基准和可实现的构造性方法。” 作者声称,其引入的平均倾向得分是解决这个问题的关键,它既是下界的充分统计量,也是设计优化的目标。这使得本文成为“显然的下一步”。
- 被淡化或回避的竞争路线:作者将Armstrong (2022) 的工作定位为“无约束自适应设计”,而本文的框架更广。作者也指出,Bai et al. (2023) 和 Rafi (2023) 的工作是“离线”或“固定倾向得分”的,而本文是“在线”和“自适应”的。这实际上是在强调本文的通用性和可操作性,而淡化了这些工作在其特定设定下的深度。
- 什么明显该被引 / 该存在、却没出现在 intro 里? 这是一个值得研究者去查的问题。例如,关于高效影响函数(EIF) 在非i.i.d.设定下的更一般理论(如依赖于鞅差序列的EIF),或者关于批式学习(batch learning) 在统计与计算权衡中的更广泛文献,intro中并未提及。这可能是作者有意为之,以保持焦点,但也可能是一个潜在的缺口。
张力¶
未见明显对立引用。所有被引工作都在各自的设定下推进,而本文试图将它们统一起来,因此不存在根本性的矛盾。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
t = 1, ..., n: 实验单元(units)的索引,按分配顺序排列。A = {1, ..., K}: 处理空间,有K个处理组。X_t ∈ X = [0,1]^d: 单元t的协变量(covariates),d维。Y_t(a): 单元t在分配到处理a时的潜在结果(potential outcome)。A_t ∈ A: 单元t实际分配到的处理。Y_t = Y_t(A_t): 单元t的观测结果(observed outcome)。O_t = (X_t, A_t, Y_t): 单元t的观测数据。θ(P_0): 目标因果参数(target estimand),是潜在结果分布P_0的泛函。e_t(a | x, F_{t-1}): 在给定协变量x和历史信息F_{t-1}下,单元t被分配到处理a的倾向得分(propensity score)。F_t: 到时间t为止的信息流(filtration)。¯e_a(x): 平均倾向得分(average propensity score),定义为(1/n) * Σ_t E[e_t(a|x, F_{t-1})]。这是本文的核心设计对象。φ_e(O): 在固定倾向得分e下的i.i.d.模型中,参数θ的高效影响函数(EIF)。V(e) = E[φ_e(O)^2]: 在固定倾向得分e下的i.i.d.模型中的半参数效率基准方差。
-
模型:
- 潜在结果模型:潜在单元
W_t = (X_t, Y_t(1), ..., Y_t(K))是独立同分布(i.i.d.)的,服从某个未知分布P_0。 - 观测模型:观测数据
O_t的生成过程是:先观测X_t,然后根据一个非预期(non-anticipating)的设计(即A_t的分布可以依赖于X_t和过去的信息F_{t-1},但不能依赖于未来的信息)分配A_t,最后观测Y_t。 - 已知部分:实验设计(即倾向得分
e_t的生成机制)是已知的,由实验者控制。 - 未知部分:协变量的边际分布
P_X,以及给定协变量和处理下的结果条件分布P_{Y|X,A},都是未知的、非参数的。
- 潜在结果模型:潜在单元
-
可观测数据:
- 可观测:
O_t = (X_t, A_t, Y_t),即每个单元的协变量、分配的处理和观测到的结果。实验者知道整个分配历史。 - 不可观测:潜在结果
Y_t(a)(对于a ≠ A_t)。这是因果推断的核心反事实。
- 可观测:
第二步:讲最小内核¶
本文的最小内核可以归结为:在序贯实验中,任何非预期设计的统计效率,等价于一个具有相同平均倾向得分的i.i.d.实验的效率。
最简特例:两处理(K=2)、ATE、无协变量(d=0)
-
设定:
- 处理空间
A = {0, 1}。 - 目标参数是ATE:
θ = E[Y(1) - Y(0)]。 - 没有协变量
X,所以倾向得分退化为一个标量概率:e_t(1 | F_{t-1}) = p_t,e_t(0 | F_{t-1}) = 1 - p_t。 - 实验是序贯的,分配概率
p_t可以依赖于过去的结果(例如,响应自适应随机化)。
- 处理空间
-
平均倾向得分:
- 在这个特例下,平均倾向得分
¯e退化为两个标量:¯e_1 = (1/n) * Σ_t E[p_t]和¯e_0 = 1 - ¯e_1。它代表了在整个实验中,平均有多少比例的单元被分配到了处理组。
- 在这个特例下,平均倾向得分
-
核心命题:
- 对于这个序贯实验,任何正则局部无偏估计量
T的方差下界是:Var(T) ≥ (1/n) * V(¯e) - 其中
V(¯e)是如果数据是在一个固定倾向得分为¯e_1的i.i.d.实验中收集的,ATE的EIF的方差。对于ATE,这个方差是:V(¯e) = Var(Y(1) - Y(0)) + E[σ_1^2 / ¯e_1 + σ_0^2 / ¯e_0]其中σ_a^2 = Var(Y(a))。
- 对于这个序贯实验,任何正则局部无偏估计量
-
为什么成立(直觉):
- 无论
p_t如何随时间变化,实验最终提供的信息总量,受限于它分配给处理组和对照组的平均样本量。¯e_1和¯e_0正是这个平均分配比例的度量。 - 证明的核心思想是构造一个最不利的一维子模型,其得分恰好是EIF。然后证明,在这个子模型下,整个序贯实验的似然比得分(log-likelihood ratio score)的方差,恰好等于
n / V(¯e)。通过Cauchy-Schwarz不等式,任何无偏估计量的方差必须至少是这个得分的方差的倒数,从而得到下界。
- 无论
-
结论:
- 这个特例清晰地展示了本文的核心思想:序贯实验的复杂性(
p_t的变化)被“平均”掉了,其统计极限由一个简单的、平均的倾向得分¯e决定。实验设计问题因此简化为:选择一个好的平均倾向得分¯e,然后设计一个序贯实验来实现它。经典的Neyman分配(¯e_1 ∝ σ_1)是这个框架下的一个特例。
- 这个特例清晰地展示了本文的核心思想:序贯实验的复杂性(
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:本文研究了在非i.i.d.的序贯实验中,估计因果参数的半参数效率基准,并提出了可实现的批式自适应设计来逼近该基准。
- 核心工具/方法:核心工具是平均倾向得分(average propensity score),它被证明是序贯实验设计的“充分统计量”。基于此,作者提出了两种互补的构造性方法:基于高效影响函数的回归调整(regression adjustment)和自适应协变量平衡(adaptive covariate balancing)。
- 主要结论:任何非预期设计的效率基准由其诱导的平均倾向得分下的i.i.d.效率基准决定。对于一般光滑泛函,在标准
n^{-1/4}nuisance率条件下,回归调整法可达到该基准;对于线性泛函,该方法能达到尖锐的二阶率,且该率是最优的。协变量平衡法通过设计本身达到同一基准,避免了nuisance率瓶颈,但代价是依赖于协变量维度的平衡余项率。
关键设定与假设¶
- 非预期设计(Non-anticipating design):分配决策只能依赖于已揭示的信息(
F_{t-1}),不能依赖于未来的结果或协变量。这涵盖了i.i.d.、完全随机化、离线分层和批式自适应设计。 - 潜在结果独立同分布:
W_t = (X_t, Y_t(1), ..., Y_t(K))是i.i.d.的。这是因果推断的标准假设。 - 结果可见性(Outcome visibility):给定
(X_t, A_t),Y_t的条件分布不依赖于历史F_{t-1}。这确保了观测结果只受当前分配的影响。 - 正性(Positivity):存在
ε > 0,使得所有倾向得分e_t(a|x, f) ≥ ε。这是半参数理论的标准假设,确保分母不为零。 - 路径可微性(Pathwise differentiability):目标参数
θ在固定倾向得分模型下是路径可微的,从而存在EIF。 - Neyman正交性(Neyman orthogonality)(用于一般泛函):EIF的期望关于nuisance参数的导数在真实值处为零。这是去偏机器学习(DML)的标准条件。
- Lipschitz连续性(用于协变量平衡):平衡函数
ω_a(x)是Lipschitz连续的。这保证了空间分箱的近似误差可控。
主要结果¶
-
定理1(效率基准):对于任何非预期设计,其诱导的平均倾向得分为
¯e。那么,任何正则局部无偏估计量的方差下界为V(¯e)/n,其中V(¯e)是在固定倾向得分¯e下的i.i.d.半参数效率基准。直觉:设计的复杂性被平均倾向得分所概括,它是决定统计极限的充分统计量。 -
定理4(线性泛函的收敛率上界):对于线性泛函(如ATE),在批式自适应回归调整算法下,如果结果回归的学习率为
n^{-α},第二矩函数的学习率为n^{-β},那么估计量的MSE与最优基准V^*/n的差距为Õ(n^{-1-2α} ∨ n^{-1-2β})。直觉:由于线性泛函的EIF具有全局无偏性,plug-in偏差完全消失,因此不需要n^{-1/4}的nuisance率条件,二阶率由两个学习任务中较慢的那个决定。 -
定理5(线性泛函的匹配收敛率下界):存在环境子族,使得任何非预期实验和估计量都无法以比
n^{-1-2α} ∨ n^{-1-2β}更快的速度逼近基准。直觉:定理4给出的上界是紧的(up to log factors),即算法1达到了线性泛函问题的minimax最优二阶率。 -
定理7(协变量平衡的效率):在批式自适应协变量平衡设计下,如果平衡函数是Lipschitz的,且第二矩函数的学习率为
n^{-β},那么矩估计量的MSE为V^*/n + o(1/n)。直觉:通过设计本身(协变量平衡)来控制平衡余项,可以绕过回归调整法中的n^{-1/4}nuisance率瓶颈,但代价是平衡余项的收敛率依赖于协变量维度d(m^{-1/(d+4)})。
证明路线与技术技巧¶
整体路线(以定理1为例):
1. 构造最不利子模型:在固定倾向得分¯e的i.i.d.模型中,构造一个一维子模型,其得分恰好是EIF φ_{¯e}(O)。
2. 计算轨迹得分:在这个子模型下,整个序贯实验的轨迹(trajectory)的得分是每个观测得分的和:Z(F^n) = Σ_t s(O_t)。由于设计是非预期的,{s(O_t)}是一个鞅差序列。
3. 计算得分方差:利用平均倾向得分的定义和鞅差性质,可以证明E[Z^2] = n / V(¯e)。
4. 应用Cauchy-Schwarz:对于任何局部无偏估计量T,有Cov(T, Z) = 1。因此,Var(T) ≥ 1 / E[Z^2] = V(¯e)/n。
关键跳跃点:
* 从复杂设计到简单基准:证明中最关键的一步是,将序贯实验的轨迹得分方差,与一个简单的i.i.d.模型的EIF方差联系起来。这依赖于平均倾向得分¯e的定义,它使得在计算E[s(O_t)^2]时,复杂的依赖结构被“平均”掉了。
* 线性泛函的全局无偏性:在定理4的证明中,关键跳跃点是Proposition 2,它证明了对于线性泛函,任何候选回归函数˜µ下的EIF得分ψ(O; ˜µ, e)的条件期望都等于θ。这意味着plug-in偏差是精确为零的,而不是仅仅二阶小。这使得在MSE分解中,交互项消失,从而避免了n^{-1/4}的瓶颈。
技术技巧点名: * 鞅差序列(Martingale difference sequence):用于处理序贯实验中的依赖结构,将轨迹得分分解为不相关的增量。 * 最不利子模型(Least-favorable submodel):用于构造一个得分恰好是EIF的子模型,从而将下界问题转化为方差计算问题。 * 交叉拟合(Cross-fitting):用于分离nuisance估计和EIF评估,避免过拟合带来的偏差。 * Assouad引理(Assouad's lemma):用于证明定理5中的匹配下界,通过构造两个超立方体族来分别隔离模型估计误差和设计学习误差。 * 空间分箱与组内置换(Spatial binning and within-bin grouped permutation):用于实现协变量平衡,通过将协变量空间分箱并在箱内进行无放回置换,来精确控制平衡余项。 * 随机舍入(Randomized rounding):用于处理非整数倍的目标分配计数,使得在箱内能实现期望的分配比例。
真实例子与应用¶
- 数据/场景:HELPMed AI医疗助手评估研究(Bean et al. 2026)。数据集包含2400次交互,涉及1298名参与者和4个AI助手(K=4)。结果
Y是二元的,表示参与者的诊断选择是否与金标准匹配。原始实验使用均匀1/K随机化。 - 方法应用:作者将本文的两种自适应算法(回归调整RA和协变量平衡CB)应用于该数据,目标是估计三个竞争助手相对于基准助手的向量ATE(trace MSE)。他们比较了全特征设计和基于因果森林筛选的top-2特征设计。
- 结果:
- 两种自适应算法(尤其是CB)在
n=1200和n=2400时,相比均匀随机化,显著降低了归一化trace MSE(约5-8%)。 - top-2特征设计(主要选择
scenario id和age band)在高样本量(n=4800)下表现更好,尤其是在CB算法中,这验证了协变量平衡的几何代价依赖于有效维度。
- 两种自适应算法(尤其是CB)在
- 例子想说明什么:该例子旨在展示本文的理论框架在实际多处理评估问题中的有效性。它说明了:
- 平均倾向得分设计原则能带来有意义的效率提升。
- 两种自适应算法都能逼近理论基准。
- 协变量平衡法在低维有效特征下表现更佳,而回归调整法对特征选择更鲁棒。
- 效率提升可以转化为所需样本量的减少。
🔎 结论是否比证明窄¶
- 定理1的适用范围:定理1的证明依赖于“局部无偏性”和“最不利子模型”。作者在Remark 1中将其推广到正则估计量。但严格来说,这个下界是针对特定最不利子模型的,它是否覆盖了所有可能的估计量序列?作者声称“the same argument yields the usual first-order version for regular estimators”,但读者需要确认这个“usual”版本是否完全等价于经典半参数理论中的下界。
- 协变量平衡的维度依赖:定理7声称达到
V^*/n + o(1/n),但证明中平衡余项的收敛率是m^{-1/(d+4)}。这意味着o(1/n)的成立依赖于d是固定的且远小于n。对于高维协变量(d随n增长),这个结果可能不成立。作者在数值实验中通过top-2特征选择来规避这个问题,但理论结果并未明确处理高维情况。 - 一般光滑泛函的“基线”结果:Corollary 1声称在
n^{-1/4}nuisance率下达到基准,但作者明确表示“this is a baseline achievability result”且“the purpose is deliberately modest”。这个结果没有给出二阶率,且依赖于一个较强的nuisance率条件。相比之下,线性泛函的结果要尖锐得多。这表明,对于一般泛函,本文的构造性方法可能不是最优的,或者需要更强的条件。
四、开放问题¶
-
一般光滑泛函的尖锐二阶率:本文为线性泛函提供了匹配的minimax最优二阶率,但对于一般光滑泛函,只给出了一个基线结果(Corollary 1)。扎根点:Section 4.3的Theorem 2和Corollary 1。一个开放问题是:对于一般光滑泛函,逼近
V^*/n的最优二阶率是什么?是否也存在一个类似于n^{-1-2α} ∨ n^{-1-2β}的尖锐表征?这可能需要更精细地分析交互项和二阶偏差。 -
高维协变量下的协变量平衡:本文的协变量平衡方法(Theorem 6)的收敛率依赖于协变量维度
d(m^{-1/(d+4)})。扎根点:Section 5.3的Theorem 6和Section 6.1的数值实验。一个开放问题是:能否设计出在高维协变量下仍然有效的协变量平衡方法?例如,是否可以利用稀疏性假设或降维技术(如本文数值实验中的top-2筛选)来获得不依赖于全维度的率?这需要将协变量平衡与高维统计或随机矩阵理论结合起来。 -
约束下的最优设计:本文的框架允许通过可行集
E_{feas}来编码操作约束(如曝光限制、公平性)。扎根点:Section 3.3的讨论。一个开放问题是:对于给定的约束集E_{feas},如何高效地求解最优平均倾向得分e^*?特别是当约束是非凸的或依赖于数据时,如何设计可实现的算法来逼近这个受约束的基准?这涉及到约束优化和在线学习。 -
与高阶U-统计量的潜在联系:本文的回归调整法依赖于EIF,而EIF本质上是一阶影响函数。对于更复杂的参数(如高阶交互效应),可能需要高阶影响函数(HOIF)。扎根点:本文专注于一阶半参数效率。一个开放问题是:本文的平均倾向得分框架能否推广到需要高阶U-统计量或HOIF的设定?例如,在估计方差或高阶矩时,效率基准会如何变化?这直接连接了研究者的
higher-order U-statistics和HOIF兴趣。
Maintained by 陈星宇 · Homepage · Source on GitHub