Planning for gold: Hypothesis screening with split samples for valid powerful testing in matched observational studies¶

作者: William Bekerman, Abhinandan Dalal, Carlo del Ninno, Dylan S Small
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf078

一、核心问题与贡献¶

①研究了在匹配观察性研究中存在未测量混杂且处理影响未知数量结局时，如何筛选对隐藏偏倚更具鲁棒性的因果假设并进行有效检验的问题。②核心方法是样本分割与假设筛选机制，将数据分为计划样本（用于探索性筛选）与分析样本（用于严格推断），并结合Rosenbaum敏感性分析框架。③主要贡献是提出了一种在允许未知数量受影响结局的情况下，兼顾探索性与推断有效性的筛选策略，并在理论上证明了其误差控制与势性质。

二、基础设定¶

核心概念与符号：
$I$：匹配对集合，$I_1$（计划样本），$I_2$（分析样本）。
$\Gamma$：Rosenbaum敏感性分析参数，表征未测量混杂导致处理分配几率比的最大偏离程度（$\Gamma=1$表示无未测量混杂）。
$\mathcal{K}$：候选结局集合，$|\mathcal{K}|$可能极大且受处理影响的真实结局数量未知。
$\mathcal{S}$：在计划样本中筛选出的、对未测量混杂更具鲁棒性的假设子集。
关键假设：
SUTVA：个体潜在结果不受他人处理分配影响，且处理水平单一。
Hidden bias bounded by $\Gamma$：未测量混杂导致的处理分配几率比不超过$\Gamma$。这是Rosenbaum模型的标准假设，本文在此基础上进行筛选，而非假设$\Gamma=1$（无混杂）。
Split-sample independence：计划样本与分析样本独立。这是避免"双重 dipping"（double dipping）导致第一类错误膨胀的核心假设，相比传统不分割的多重检验方法，该假设是实现筛选后仍有效推断的关键前提。
问题背景：
已有方法不足：在多结局观察性研究中，若对所有结局进行多重检验校正（如Bonferroni），检验势因维度膨胀而急剧下降；若先筛选再检验，则面临选择性偏差导致第一类错误失控。
与最相关文献的区别：相较于Rosenbaum传统的敏感性分析（仅针对固定单一假设），本文解决了多结局下的探索与推断问题；相较于数据分割推断文献（如Foygel Barber & Candes的Knockoffs），本文将目标从单纯的FDR控制扩展到了因果推断中对未测量混杂的鲁棒性筛选。

三、主要定理 / 核心结果¶

原文陈述：在分析样本$I_2$中，对筛选出的假设集合$\mathcal{S}$进行多重检验，其FWER（族错误率）在给定的$\Gamma$水平下受控于$\alpha$，即 $\Pr(\text{至少一个真零假设被拒绝} \mid \mathcal{S}) \le \alpha$。
直观解释：由于计划样本仅用于"提名"候选假设，分析样本独立地进行"验证"，这种物理隔离使得选择性偏差被完全消除。多重检验惩罚仅需针对被选中的少量假设进行，从而在控制错误率的同时保留了检验势。
解决了什么技术难点：在Rosenbaum的边界框架下，证明了基于数据依赖的筛选集合$\mathcal{S}$，在分析样本中的条件误差率仍然无条件受控。克服了筛选规则依赖数据时，传统渐近分布失效的问题。
适用条件与局限：必须满足样本分割的独立性；当真正的受影响结局极少或信号极弱时，筛选步骤可能在计划样本中遗漏，导致不可挽回的势丧失；$\Gamma$的设定仍需先验判断，无法从数据中识别。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
识别策略：基于Rosenbaum的倾向得分边界模型，构造最坏情况下的符号秩和统计量（或符号统计量）。
估计量：在计划样本$I_1$中计算每个结局在$\Gamma$下的最大p值（worst-case p-value），若小于筛选阈值则入选$\mathcal{S}$；在分析样本$I_2$中，仅对$\mathcal{S}$中的结局计算标准p值，并使用Holm或BH步骤进行多重检验校正。
核心假设的可信度分析：
样本分割的独立性：在简单随机抽样下自然成立，但在匹配设计中（如使用了全样本匹配或网络匹配），分割样本会破坏匹配结构，需重新在子样本中独立匹配，这可能损失效率或导致子样本协变量不平衡。
$\Gamma$的设定：属于不可验证的因果假设，需靠专家知识或规范框架确定，本文方法的优势在于使得在较大$\Gamma$下仍能找到存活假设。
稳健性检验策略：
通过不同的分割比例（如50/50, 70/30）验证检验势的变化；对不同的$\Gamma$水平进行扫描，观察假设集合$\mathcal{S}$的收缩情况。
计算/实现细节：
Rosenbaum敏感性分析的p值计算涉及组合分布的尾部概率，计算复杂度较高，但已有现成R包（如sensitivitymw）。样本分割本身计算开销极小，整体算法复杂度主要取决于匹配与敏感性p值的计算。

五、与研究者兴趣的关联¶

连接到哪个子方向：匹配观察性研究下的敏感性分析与多重假设检验。
可借鉴的核心思路或技术工具：
将样本分割与敏感性分析结合的范式：传统的敏感性分析往往极其保守，通过样本分割进行"假设筛选"（Hypothesis screening），可以在高维多结局场景下大幅缓解多重比较带来的势损耗。这为处理高维因果推断中的未测量混杂提供了一种计算与统计上的折中方案。
条件推断框架：在分析样本上以筛选事件为条件的推断逻辑，可迁移到其他存在选择偏差的因果识别场景（如定性变量选择后的因果效应估计）。
值得精读的关键参考文献：
Rosenbaum, P. R. (2004). "Design sensitivity in observational studies". Biometrika. （理解设计敏感性$\tilde{\Gamma}$的概念，这是本文筛选机制的理论基石，决定了哪些假设在原则上对未测量混杂更鲁棒）
Foygel Barber, R., & Candes, E. (2015). "Controlling the false discovery rate via knockoffs". Annals of Statistics. （对比样本分割与Knockoffs在控制FDR上的异同，理解不同多重检验框架在因果推断中的边界）

六、延伸思考与练习¶

假设扰动：若修改"计划样本与分析样本独立"的假设，例如在匹配设计中使用了网络匹配（network matching，样本间存在依赖），分割样本将破坏匹配结构。结论会如何变化？技术上需要引入依赖图或随机化推断的新的方差-协方差估计工具，以处理分割后残留的样本间依赖性。
开放问题：如何在非匹配设计（如连续混杂调整的IPW或AIPW框架）下，构建类似的对未测量混杂鲁棒的假设筛选机制？这需要将Rosenbaum的边界理论推广到半参数模型下的M-估计或R-估计理论中。
理解检测题：假设在计划样本中，某个真实受处理影响的结局因偶然性（或信号较弱）未被选入集合$\mathcal{S}$，而在分析样本中其效应极强。本文的方法能否发现该因果效应？这反映了该方法在何种参数空间下具有极小极大最优性，又牺牲了什么？

Maintained by 陈星宇 · Homepage · Source on GitHub