Prepivoting in Finite Population Causal Inference¶

讲者: Colin Fogarty
讨论人: Tirthank a r Dasgupta
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-10-12
主题: 因果推断
视频: https://www.youtube.com/watch?v=N0QOGkzZXhw · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向：有限总体（finite population）因果推断中，如何用同一个随机化检验（randomization test）同时为Fisher的sharp null（无个体效应）和Neyman的weak null（平均效应为零）提供有效推断。

奠基与主流路线： - Fisher (1925, 1935) 的随机化检验：在sharp null下精确（exact），只要检验统计量是已知函数。 - Neyman (1923, 1935) 的弱零：平均处理效应为零，通常借助大样本近似。 - 两类零假设的冲突：一个对sharp null精确的随机化检验，若用自然统计量（如均值差），在weak null下可能渐近anti-conservative（Type I error超过名义水平）。 - 近期解决思路：针对特定实验设计，构造“在sharp null下精确、在weak null下渐近保守”的检验统计量。关键工作：Loh, Richardson & Robins (2017, JRSSB)；Ding & Dasgupta (2018, JASA)；Wu & Ding (2020, JRSSB)；Chung & Romano (2013, 2016) 关于置换检验的类似结果。这些工作都是case-by-case设计——为完全随机化、配对、分层等场景分别定制统计量。

当前frontier：是否存在一个通用配方，能自动将任何满足一定条件的检验统计量转化为同时满足sharp精确与weak保守的随机化检验？本报告（Fogarty & Cohen）给出的答案：Gaussian prepivoting——把1减去一个渐近保守的p-value作为新检验统计量，再在sharp null下做随机化检验。

核心工具：Prepivoting——由Beran (1987, 1988) 在bootstrap语境中提出，用于通过bootstrap CDF变换实现高阶校正；本报告将其用于一阶校正，以恢复weak null下的有效性。

与经典文献的关系：Beran使用prepivoting改善渐近展开的精度；Fogarty & Cohen使用prepivoting解决不同的零假设之间的不一致，这是对Beran思想的新应用。

二、最小内核 / 一个最简例子¶

设定（完全随机化试验CRE，一元结果）： - 有限总体：\( i=1,\dots,n \)，\( n_1 \)个处理，\( n_0=n-n_1 \)个对照。 - 潜在结果：\( y_i(1), y_i(0)\in\mathbb{R} \)；处理指示\( Z_i\in\{0,1\} \)；观测结果\( Y_i = Z_i y_i(1)+(1-Z_i)y_i(0) \)。 - 目标参数：样本平均处理效应\( \bar\tau = n^{-1}\sum_i(y_i(1)-y_i(0)) \)。 - Sharp null \( H_F: y_i(1)=y_i(0)\;\forall i \)；Weak null \( H_N: \bar\tau=0 \)。 - 观测统计量：\( \hat\tau = n_1^{-1}\sum_i Z_i Y_i - n_0^{-1}\sum_i (1-Z_i)Y_i \)。 - 自然检验统计量：\( T = \sqrt{n}|\hat\tau| \)。

传统做法与问题：在sharp null下，Fisher随机化检验枚举所有\( \binom{n}{n_1} \)种分配，计算T值，p-value = #{分配下T ≥ 观测值}/总数，精确有效。
但在weak null下，该随机化检验的“参考分布”（假设sharp null成立而计算出的T分布）与T的真实随机化分布不同，导致p-value偏小，渐近anti-conservative。

新方法（Gaussian prepivoting）步骤： 1. 构造一个在weak null下渐近保守的p-value：先估计保守方差\( \hat V_{\tau\tau} \)（如\( n(\hat\sigma_1^2/n_1 + \hat\sigma_0^2/n_0) \)，该估计在有限总体下满足\( \hat V_{\tau\tau} - V_{\tau\tau} \xrightarrow{p} \text{非负定} \)），然后计算

\[\tilde p = 2\Phi\left(-\frac{\sqrt{n}|\hat\tau|}{\sqrt{\hat V_{\tau\tau}}}\right),\]

这是基于正态近似的保守p-value：其在weak null下依概率收敛到一个随机变量，该变量被均匀分布随机占优（stochastically dominated by Uniform(0,1)）。

将\( G = 1-\tilde p \)作为新检验统计量。在sharp null下枚举所有分配，计算每个分配下的\( G \)值，得到参考分布\( P_G(t) \)。
决策：若\( G_{\text{obs}} > P_G^{-1}(1-\alpha) \)，则拒绝。

核心结论： - 在sharp null下，这一过程就是Fisher随机化检验，所以精确（对任意n）；
- 在weak null下，真实随机化分布（未知）的尾部概率被参考分布尾部概率所界（渐近sharp dominance），因此渐近保守（limsup Type I error ≤ α）；
- 渐近功效与基于同一个保守p-value的大样本检验相同。

为何这是“最小内核”：这个最简例子（d=1, CRE）已经展示了prepivoting的全部逻辑：取一个渐近保守p-value，pivot它（即1-p），再随机化。它恰好恢复已知的“学生化均值差”方法（Loh et al. 2017），但方法本身是通用的。

三、报告主体：讲者讲了什么¶

时间戳基于转写视频时间，括号内为大致对应幻灯片页码（幻灯片的文字抽取已提供）。

[0:00:05–0:09:00] 引言与问题动机¶

回顾Fisher与Neyman关于“无效应”定义的争论。
Sharp null = 无个体效应（Fisher）；Weak null = 平均效应为零（Neyman）。
随机化检验在sharp null下精确，但若研究者误用于检验weak null，可能产生anti-conservative推断。
近期文献提供了特定设计下的“同时满足sharp精确 + weak保守”的检验统计量（Loh et al. 2017; Ding & Dasgupta 2018; Wu & Ding 2020），但都是case-by-case。
报告目标：提供一个通用方法（prepivoting），能精确恢复已有解并在新设计中提供解。

[0:09:00–0:12:00] 高层直觉¶

（幻灯片：Towards a Unifying Framework） - DO NOT：直接用自然统计量（如均值差）的随机化分布检验weak null。 - DO：先构造一个在weak null下渐近保守的p-value（基于该统计量），然后枚举1减去该p-value的随机化分布（假设sharp null）。 - 优点：若只关心平均效应，此法仍提供“免费”的sharp null精确性（除计算外），且渐近功效与底层大样本检验相同。

[0:12:00–0:17:00] 记号与设定¶

（幻灯片：Notation, The Assignment Mechanism, Rerandomized Designs） - 记号：\( n, n_1, Z_i, y_i(1), y_i(0), \tau_i, \bar\tau, x_i\)。观测\( y_i(Z_i)\)。 - 有限总体模型：推断条件于所有潜在结果与协变量，随机性仅来自分配机制。 - 设定两种设计：完全随机化（CRE）和rerandomized实验（接受条件\( \phi(\sqrt{n}\hat\delta(x,z))=1\)，其中\( \phi \)是平衡准则，如Mahalanobis距离）。 - 定义随机化分布\( R_T(t) \)与参考分布\( P_T(t) \)（假设sharp null）。

[0:17:00–0:23:00] 为什么自然统计量不够：渐近sharp dominance¶

（幻灯片：Asymptotic Sharp-Dominance; Finite Population CLT; Conservative Covariance Estimation） - 引入概念：若\( P_{T,\infty}(t) \leq R_{T,\infty}(t) \)对所有\( t \)成立，则统计量\( T \)是渐近sharp dominant。有了它，用参考分布检验weak null就是保守的。 - 但自然统计量（如\( \sqrt{n}|\hat\tau| \)）不满足：其真分布参考分布渐近协方差不同（\( V_{\tau\tau} \) vs \( \tilde V_{\tau\tau} \)）。 - 关键：\( V_{\tau\tau} \)包含不可识别的\( \Sigma_{\tau} \)，无法一致估计；但许多方差估计（如两样本方差）是渐近保守的（\( \hat V_{\tau\tau} - V_{\tau\tau} \xrightarrow{p} \Sigma_\tau \succeq 0 \)）。

[0:23:00–0:28:00] Gaussian prepivoting定义与主要定理¶

（幻灯片：Prepivoting; Gaussian Prepivoting; A New Reference Distribution; Limiting Behavior） - 统计量的一般形式：\( T = f_{\hat\xi}(\sqrt{n}\hat\tau) \)，其中\( f_\eta \)连续、拟凸、非负、镜像对称，\( \hat\xi \)是收敛的插件估计。 - Gaussian prepivoting变换：

\[G = \frac{\gamma^{(d+k)}_{0,\hat V}\{(a,b): f_{\hat\xi}(a)\leq T_{\text{obs}} \land \phi(b)=1\}}{\gamma^{(k)}_{0,\hat V_{\delta\delta}}\{b:\phi(b)=1\}},\]

即基于估计协方差\( \hat V \)的多元正态分布，在条件于平衡下的尾部概率。这正是1减去大样本检验的p-value（用保守协方差估计）。 - 主要定理（幻灯片：Limiting Behavior of \( R_G \) and \( P_G \)）：
在weak null下，\( G \)的真实随机化分布收敛到一个随机变量\( \tilde U \)，满足\( P(\tilde U\leq t)\geq t \)（随机占优于均匀）；参考分布\( P_G(t) \)依概率收敛到\( t \)。因此\( G \)是渐近sharp dominant。 - 推论：在sharp null下，Type I error精确为\( \alpha \)；在weak null下，limsup Type I error ≤ \( \alpha \)。

[0:28:00–0:34:00] 解释与讨论¶

（幻灯片：Exact and Asymptotically Conservative Randomization Tests） - 保守性是有限总体因果推断的内在属性（源于处理效应异质性）。 - 讨论环节（[0:31:45–0:33:58]）讨论者Tirthankar Dasgupta提问学生化对sharp null在有限样本下的潜在坏处，Colin认为这是开放问题，提到Xinran Li的后续工作。

[0:34:00–0:42:00] 示例与模拟¶

（幻灯片：Absolute Difference in Means in CRE; Max Absolute t Statistic; Absolute Difference in Means in Rerandomized Experiments; A Simulation Study; Results） - 例1：CRE，一元结果：
\( G = 1-2\Phi(-\sqrt{n}|\hat\tau|/\sqrt{\hat V_{\tau\tau}}) \)。在sharp null下，\( G \)与\( \sqrt{n}|\hat\tau|/\sqrt{\hat V_{\tau\tau}} \)有完美秩相关，因而随机化检验与直接学生化等价。恢复Loh et al. (2017)的学生化方法。 - 例2：CRE，多元结果（d>1）：
统计量\( T = \max_j \sqrt{n}|\hat\tau_j|/\sqrt{\hat V_{\tau\tau,jj}} \)。学生化后仍不sharp dominant（因为真实协方差与参考协方差相关结构不同）。Prepivoting通过计算\( F_{|\max|}(\cdot) \)（基于多元正态分布）给出新解。 - 例3：Rerandomized实验（Mahalanobis准则），一元结果：
学生化不再提供完美秩相关，模拟显示学生化仍anti-conservative，prepivoting恢复保守性（幻灯片表格：\( N=50,1000 \)，prepivoting下weak null Type I error分别为0.068, 0.038，小于α=0.1；而学生化高达0.166,0.135）。 - 模拟设定细节：协变量三维正态，异方差误差，rerandomization阈值Mahalanobis距离≤1。

[0:42:00–结束] 结论与扩展¶

（幻灯片：Conclusions） - Prepivoting提供了一个通用配方，通常只需一个在weak null下渐近保守的p-value。 - 可扩展到配对、区块、精细分层等设计，以及多臂实验。 - 提及后续工作：使用bootstrap而非高斯近似构造p-value。

四、对应论文与开放问题¶

对应论文¶

Cohen, P.L. and Fogarty, C.B. (to appear). “Gaussian prepivoting for finite population causal inference.” Journal of the Royal Statistical Society Series B. 报告的正式论文，具体出版年份未在转写中明确，但提到“to appear”。（幻灯片的参考文献部分显示：Cohen, P.L and Fogarty, C.B. Gaussian prepivoting for finite population causal inference. Journal of the Royal Statistical Society Series B (Statistical Methodology), to appear.）
Fogarty, C.B. (arXiv). “Prepivoted permutation tests.” 同一思路向置换检验的推广。（幻灯片的参考文献部分显示：Fogarty, C.B. Prepivoted permutation tests. arXiv (related work for permutation tests).）

注意：转写中名字可能被误读（如“peter cohen”正确，但“barron”应为“Beran”等），以上以幻灯片为权威。

开放问题（基于转写与讨论）¶

学生化在有限样本下对sharp null的潜在危害（[0:33:58] Tirthankar提问，Colin回应“open”）。学生化有时会导致检验统计量不再是effect-increasing，从而在sharp null下降低power。如何解析/补救？是否与prepivoting框架有关？
使用bootstrap或其他重抽样构造p-value的替代形式的prepivoting（[0:35:36] Colin提到有follow-up work探索bootstrap prepivoting）。高斯近似的假设（如正态性、协方差估计一致性）是否可以放松？
结合sharp null和weak null的顺序检验（[0:37:28] Colin回应Dominic关于power的问题时提及）。例如先检验weak null，若不拒绝再检验sharp null，或将两种p-value组合。如何控制整体错误率？
多元单侧检验（幻灯片最后一张被截断的标题：“An Open Question: Multivariate One-Sided Testing”）。由于报告时间限制未详细讨论，幻灯片中提到要求\( f_\eta \)拟凸且镜像对称，适用于双侧检验；单侧检验是否也能纳入同一框架是公开问题。

（以上开放问题依据转写内容直接提取，未作可行性判断。）

Maintained by 陈星宇 · Homepage · Source on GitHub