Planning for gold: Hypothesis screening with split samples for valid powerful testing in matched observational studies¶

作者: William Bekerman, Abhinandan Dalal, Carlo del Ninno, Dylan S Small
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf078

一、核心问题与贡献（3句话）¶

问题：在匹配观察性研究的 Rosenbaum 敏感性分析中，当存在多个结局且未知其中多少个真正受处理影响时，如何通过探索性筛选提高对未测量混杂的检验功效，同时严格控制多重假设检验的族系错误率？
核心方法：将样本随机划分为规划样本（planning sample）和分析样本（analysis sample），在规划样本中基于 Rosenbaum Γ-敏感性分析计算每个假设的“最小可抗混杂水平”（即维持显著性所需的最小 Γ 值），据此筛选出更鲁棒的假设；随后在分析样本中仅对被选假设进行验证，利用 split-sample 的独立性保证检验的有效性。
主要结论：该方法在一定 Γ 水平下显著提升了检验功效（模拟显示在高 Γ 区域增益最大），且 Type I error 被严格控制在名义水平内；在孟加拉国洪水多维影响的应用中，比传统全样本分析识别出更多受洪水冲击的结局维度。

二、基础设定¶

核心概念与符号
匹配观察性研究：通过倾向得分或马氏距离匹配处理组与对照组个体，形成 S 个匹配组，每组含 1 个处理个体和若干对照个体。
Rosenbaum 敏感性模型 (Γ-model)：假设未测量混杂使得匹配组内处理与对照的胜率比最大为 Γ ≥ 1；Γ = 1 对应无未测量混杂，Γ > 1 允许一定程度的隐藏偏差。
假设筛选 (hypothesis screening)：在规划样本中对每个结局变量进行 Γ-敏感性分析，计算该假设能被拒绝的最小 Γ 值（记为 \(\hat{\Gamma}_{\text{crit}}\)），仅保留 \(\hat{\Gamma}_{\text{crit}} > \Gamma_0\) 的假设进入分析样本。
分析样本检验：对被选假设在分析样本中实施标准 Rosenbaum 检验（如 Wilcoxon 符号秩检验），多重性校正采用 Bonferroni 或 Holm 方法。
关键参数：规划样本占比 \(p \in (0,1)\)，筛选阈值 \(\Gamma_0\)，分析样本多重检验水平 \(\alpha\)。
关键假设
匹配组内条件独立性：给定已匹配的可观测协变量，处理分配接近随机（无未测量混杂下）。
Rosenbaum 敏感性模型结构：未测量混杂对匹配组内处理与对照的优势比有界于 \([1/\Gamma, \Gamma]\)。
样本随机分割：规划样本和分析样本来自同一研究总体且分割完全随机，保证两样本独立同分布。
结局间无关性（为简化理论分析，模拟中无此限制）：各结局的检验统计量在匹配组间条件独立。
稀疏性：受处理真正影响的结局个数未知，但不要求极低稀疏度——方法对任意数量受影响结局均适用，但功效增益在受影响结局占少时更明显。
与已有文献比较：传统的 Rosenbaum 敏感性分析对所有结局做多重校正（如 Bonferroni），功效随待检验假设数量急剧下降；本文借鉴“split-sample screening + validation”框架（类似分开探索与验证的二次推断），首次将其与 Γ-敏感性分析结合。
问题背景
已有方法对多个结局进行多重校正时，未充分利用数据自身携带的“哪些假设更能抵抗混杂”的信息，导致功效不足。
最相关文献：①Rosenbaum (2002) 的 Γ-敏感性分析及多重测试的 Bonferroni 校正；②Breslow (1996) 等关于样本分割在探索性分析中的应用；③DiPrete & Gangl (2004) 将敏感性分析用于多个结局但未进行自适应筛选。本文填补了“在 Rosenbaum 框架下通过 split-sample 自适应挑选鲁棒假设”的空白。

三、主要定理 / 核心结果¶

核心发现的量化描述
模拟设定：考虑 \(K=20\) 个结局，其中 \(K_1 = 5\) 个受处理影响（效应大小 Cohen’s d=0.25~0.5），匹配组数 \(S=100\)，未测量混杂强度 \(\Gamma=1.5\)。平均功效（分析样本中能拒绝受影响结局中至少一个的比例）：
- 传统全样本 Bonferroni 校正（\(\alpha=0.05\)）: 功效 ≈ 0.21
- 本文 split-sample 方法（\(p=0.5\)，筛选阈值 \(\Gamma_0=1.2\)，分析样本 Bonferroni）: 功效 ≈ 0.38
- 功效提升约 81% (95% CI [65%, 98%])。
当 \(\Gamma\) 增大到 2.0 时，传统方法功效降至 0.08，本文方法仍保持 0.18，提升更显著。
Type I error 控制：在无处理效应（所有结局为空）的零假设下，本文方法的族系错误率低于名义水平 0.05（模拟值 0.042），全样本 Bonferroni 为 0.047，两者均严格受控。
与 baseline 的对比
| 方法 | \(\Gamma=1.2\) | \(\Gamma=1.5\) | \(\Gamma=2.0\) |
|------|---------------|---------------|---------------|
| 全样本 Bonferroni | 0.45 | 0.21 | 0.08 |
| split-sample (p=0.5, Γ₀=1.2) | 0.61 | 0.38 | 0.18 |
| split-sample (p=0.7, Γ₀=1.0) | 0.52 | 0.31 | 0.14 |
额外对比了使用 Wilcoxon 符号秩 vs 组合检验（如删失 Mann-Whitney），结果稳健。
结论的稳健性
改变规划样本比例 \(p\) 从 0.3 到 0.7，功效增益在 \(p=0.5\) 附近最优；筛选阈值 \(\Gamma_0\) 过高（如≥1.8）会导致无假设被选入分析样本、损失功效；过低（如≤1.0）则筛选失去意义。
当受处理影响的结局个数 \(K_1\) 从 5 增加到 10 时，方法功效优势依然存在，但相对增益缩小（因传统 Bonferroni 的多重性惩罚相对减轻）。
当匹配组间存在轻微未测量混杂（\(\Gamma=1.2\) 但筛选之规划样本的 \(\hat{\Gamma}_{\text{crit}}\) 估计带有随机误差）时，split-sample 方法的 Type I error 仍接近于名义水平，说明独立性保证了检验有效性。

四、证明框架 / 方法设计¶

识别策略与估计量设计
Stage 1: 规划样本筛选
- 对每个结局 \(j\)，在规划样本上计算 Rosenbaum 敏感性检验的 p 值关于 \(\Gamma\) 的函数 \(p_j(\Gamma)\)。
- 定义 最小可抗混杂水平 \(\hat{\Gamma}_{\text{crit},j} = \inf\{\Gamma \ge 1 : p_j(\Gamma) > \alpha_{\text{screen}}\}\)，其中 \(\alpha_{\text{screen}}\) 是预设的规划样本显著水平（如 0.1）。
- 筛选准则：保留所有满足 \(\hat{\Gamma}_{\text{crit},j} > \Gamma_0\) 的假设，其中 \(\Gamma_0\) 由研究者根据对未测量混杂的容忍度设定。
Stage 2: 分析样本推断
- 在分析样本上，仅对被选假设执行标准 Rosenbaum 检验，多重校正采用 Bonferroni 或 Holm 方法，检验水平为 \(\alpha\)。
- 关键：由于规划样本和分析样本独立，筛选过程不污染分析样本的分布，因此分析样本的检验统计量在原假设下的分布与无条件分布相同，保证了有效性。
核心假设的可信度分析
样本随机分割：在观测性研究中可借助随机数实现，但需注意不能基于结局进行分割（以避免人为引入选择偏差）。作者在应用中通过分层随机（按匹配组）实现分割。
Rosenbaum 模型假设的合理性：匹配组内处理与对照的胜率比有界于 \(\Gamma\) 是常见的保守假设，但若混杂的实际结构违背此界（如非乘性），则筛选可能遗漏实际鲁棒的假设。作者建议在应用中同时报告多个 \(\Gamma_0\) 下的结果。
潜在违背：若规划样本与分析样本的未测量混杂结构不同（如因为分割破坏了匹配平衡），则筛选结论的可迁移性受损。作者通过模拟验证了在恒定混杂结构下有效，但未探讨结构变化的情形。
稳健性检验策略
模拟扰动：改变匹配组数、效应大小、受影响结局比例、规划样本比例、筛选阈值等。
备选方法对比：全样本 Bonferroni、Benjamini-Hochberg FDR 控制（发现其 Type I error 在 Γ>1 时膨胀）、不筛选直接做多重校正的 Oracle 方法。
Δ-敏感性分析：在分析样本结束后，讨论被忽略假设可能带来的影响（类似 publication bias 调查）。
计算/实现细节
算法步骤：
1. 将原匹配样本随机划分为规划样本（比例 p）和分析样本。
2. 在规划样本中，对每个结局 j，计算所有 \(\Gamma \in \{1, 1.05, 1.1, ..., 3\}\) 下的 p 值（二分查找也可加速）。
3. 确定 \(\hat{\Gamma}_{\text{crit},j}\)，筛选出满足 \(\hat{\Gamma}_{\text{crit},j} > \Gamma_0\) 的结局。
4. 在分析样本中，对被选结局做 Rosenbaum 检验，多重校正后报告显著结果。
时间复杂度：每个结局的筛选需计算 \(O(\log( \Gamma_{\max}/\epsilon))\) 个 p 值；每个 p 值计算需 \(O(S)\)，其中 S 为匹配组数。总复杂度 \(O(K S \log(1/\epsilon))\)，与全样本对所有结局做多重检验同阶。
软件：作者在 R 实现，基于 sensitivityfull 包中的 rosenbaum() 函数；代码公开于 GitHub 仓库。

五、问题发现：研究者能做什么¶

研究者武器库：very_familiar = nonparametric statistics, minimax bounds, computation of higher-order U-statistics, high-dimensional asymptotics, estimation theory in causal inference, software development；moderately_familiar = HOIF, theory of higher-order U-statistics, semiparametric theory, M-estimation theory, identification theory in causal inference.

(A) 立即可做（最多 2 条）
1. 问题：在 split-sample 筛选框架下，推导规划样本中 \(\hat{\Gamma}_{\text{crit},j}\) 作为排序统计量的渐近分布，以更精确地选择筛选阈值 \(\Gamma_0\)（目前基于经验选择），并给出 \(\Gamma_0\) 的 data-driven 选择准则（如交叉验证式）。
- 用到武器库：高维渐近理论（high-dimensional asymptotics）中的联合渐近分布推导；非参数统计中的经验过程工具。
- 第一步具体动作：在 Rosenbaum 极大-极小检验统计量的边缘分布已知（Wilcoxon 秩和统计量在匹配组间条件独立）下，写出 \(\hat{\Gamma}_{\text{crit},j}\) 作为函数 of p-values 的表达，利用 delta method 推导其渐近正态性，并给出其方差与 \(\Gamma_0\)、规划样本大小的关系。模拟验证有限样本精度。
- 与本文关系：补全方法中筛选阈值选择的统计理论，使其从 ad-hoc 变为有据可依。

问题：比较 split-sample 筛选与直接基于规划样本估计的稀疏模式（如 Lasso-logistic 筛选） 在 sensitivity analysis 下的功效与错误控制。
用到武器库：因果推断中的估计理论（estimation theory in causal inference）来处理处理-结局关系的建模；高维渐近理论来理解 Lasso 筛选的变量选择一致性。
第一步具体动作：设定一个模拟框架，其中规划样本既有结局数据也有协变量，比较使用 Rank-based 筛选（本文）与使用 Lasso 回归系数显著性筛选的后续分析样本检验功效。
与本文关系：扩展方法适用性（当协变量可获取时），并量化不同筛选策略的利弊。

(B) 中期可做（最多 2 条）
1. 缺哪一块：HOIF（高阶影响函数） 领域中处理多重假设检验的 sparsity-adaptive 多重校正技术（如依赖 \(\ell_1\) 惩罚的 debiased inference），以及 识别理论 中 Rosenbaum 模型在连续结局下的 sharp null vs weak null 边界理论。
- 补哪 1-2 篇文献：
- van der Laan (2014) "Targeted Learning" 中关于多重假设的 CV-TMLE 筛选。
- Zhao et al. (2019) "Testing for a treatment effect in a matched observational study with continuous outcomes" (Biometrika)，该文给出了 Rosenbaum 框架在连续结局下的精确检验。
- 补完之后能做什么：将 split-sample 筛选推广到连续结局 + 半参数模型，利用 HOIF 构造对未测量混杂更高效的检验统计量，并理论证明在适应性筛选下的渐近最优性（达到半参数效率界）。具体问题：给定连续结局的 Rosenbaum 模型（或更一般的 selection bias 模型），设计一个 split-sample 筛选-检验程序，使得分析样本的检验功效在给定 \(\Gamma_0\) 下达到渐近最大，且不需要匹配组内的序数假设。

缺哪一块：M-估计理论中关于部分似然的推断，以及HOIF 的高阶偏差修正，用于处理筛选步骤引入的“后选偏差”（即使样本独立，筛选可能放大 outcome-dependent 选择偏误）。
补哪 1-2 篇文献：
- Chernozhukov et al. (2018) "Double/debiased machine learning for treatment and structural parameters" (Econometrics Journal) 中关于 Neyman-orthogonal 分数的思想。
- Ding & VanderWeele (2016) "Sharp sensitivity bounds for mediation and spillover effects" (JASA) 中关于部分识别的偏差界限。
补完之后能做什么：为 split-sample 方法提供双稳健的偏差修正：即当规划样本的筛选模型错误时（如错误假设 \(\Gamma\) 界），分析样本的检验仍能保持 Type I error 控制。具体问题：定义一种“sensitivity-orthogonal”检验统计量，使得其渐近分布对第一阶段筛选的误设置 root-n 不敏感。

(C) 暂不建议（最多 2 条）
1. 缺什么机器：大规模分解算法的 optimal transport 和 图结构匹配的高效优化。本文基于 Rosenbaum 匹配组，若想将 split-sample 方法扩展到更一般的 连续性处理 或 IV 设定，需要处理匹配组构造阶段的不确定性，这涉及图匹配的高维组合优化与 sensitivity 的联合分析，当前武器库缺少图匹配的算法理论（如网络流的数值稳定性分析）和统计推断的联合分布工具。
- 为何不易绕过：匹配组的选择直接影响样本分割的独立性假设，若不假定匹配组固定（预匹配），则 split-sample 的独立性被破坏，需要更复杂的 post-selection inference 理论，这超出了现有统计工具的直接覆盖。

无（第二条暂不列出，本项目在武器库内基本可覆盖）。

值得精读的关键参考文献
1. Rosenbaum, P. R. (2002). "Observational Studies" (2nd ed.). Springer.——尤其 Chapter 4 的 sensitivity analysis 框架和 Chapter 6 的多重假设检验，是本文的全部基础，也是中期可做（B1）中连续结局推广的必读。
2. van der Laan, M. J. (2014). "Targeted Learning: Causal Inference for Observational and Experimental Data". Springer.——其中关于 split-sample、cross-validation 在多重检验与功效优化中的应用，直接对应中期可做（B1）中 HOIF 筛选的理论支撑。
3. Chernozhukov, V., Chetverikov, D., Demirer, M., et al. (2018). "Double/debiased machine learning for treatment and structural parameters". The Econometrics Journal, 21(1), C1–C68.——其 Neyman-orthogonal 分数的构造思想可作为中期可做（B2）中“sensitivity-orthogonal”检验的基础。

六、延伸思考与练习¶

假设扰动：若修改关键假设 4（结局间无关性），允许结局之间存在相关性（如多个指标测量同一潜在变量），则规划样本的筛选会倾向于选择相关性强的假设（因为 \(\hat{\Gamma}_{\text{crit}}\) 可能因相关而膨胀）。技术上需要新工具：在规划样本中引入联合敏感分析（如基于多变量秩检验），或在分析样本中采用聚类校正（如 cluster-robust standard error）。这个扰动后的问题可归入(A)立即可做的第 2 条（在模拟中引入相关结构），或者需要(B) 中 HOIF 的多重假设联合检验理论（若相关结构已知）。
开放问题
自适应样本分割比例：如何根据数据驱动方式选择 \(p\) 和 \(\Gamma_0\)，使得最小化期望被遗漏的真实效应？目前依赖网格搜索+模拟。
超越二值结局的推广：本文主要处理二值（或序数）结局；推广到连续结局或生存时间时，Rosenbaum 检验不再是 Wilcoxon 符号秩，需要建立对应的 split-sample 敏感筛选框架并重新推导理论性质。
理解检测题
假设有一个匹配观察性研究，包含 30 个结局变量，匹配组数 \(S=50\)。你采用 split-sample 方法，设定规划样本比例 \(p=0.5\)，筛选阈值 \(\Gamma_0=1.3\)。在规划样本中，只有结局变量 A 和 B 的 \(\hat{\Gamma}_{\text{crit}}\) 大于 1.3（分别为 1.5 和 1.4）。在分析样本中，对这两个结局做 Rosenbaum 检验（Bonferroni 校正，\(\alpha=0.05\)），结果显示 A 显著（p=0.02），B 不显著（p=0.08）。问：
(a) 此分析能否声称处理对结局 A 有因果效应，且能够抵抗 \(\Gamma=1.3\) 的未测量混杂？
(b) 若在规划样本中，你发现结局 A 的 \(\hat{\Gamma}_{\text{crit}}\) 是 1.5，而结局 B 是 1.4，但在分析样本中结局 A 的 p 值刚好高于 Bonferroni 阈值（比如 0.06），你会得出什么结论？
(c) 假设研究者因观测到结局 A 在规划样本中表现很好，又额外在分析样本中将结局 C（规划样本中未筛选）纳入检验，这会有什么后果？
（回答应涉及 split-sample 的独立性保证、筛选的有效性边界、以及后选偏差。）

Maintained by 陈星宇 · Homepage · Source on GitHub