Planning for gold: Hypothesis screening with split samples for valid powerful testing in matched observational studies¶
作者: William Bekerman, Abhinandan Dalal, Carlo del Ninno, Dylan S Small
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.1093/biomet/asaf078
一、核心问题与贡献(3句话)¶
- 问题:在匹配观察性研究的 Rosenbaum 敏感性分析中,当存在多个结局且未知其中多少个真正受处理影响时,如何通过探索性筛选提高对未测量混杂的检验功效,同时严格控制多重假设检验的族系错误率?
- 核心方法:将样本随机划分为规划样本(planning sample)和分析样本(analysis sample),在规划样本中基于 Rosenbaum Γ-敏感性分析计算每个假设的“最小可抗混杂水平”(即维持显著性所需的最小 Γ 值),据此筛选出更鲁棒的假设;随后在分析样本中仅对被选假设进行验证,利用 split-sample 的独立性保证检验的有效性。
- 主要结论:该方法在一定 Γ 水平下显著提升了检验功效(模拟显示在高 Γ 区域增益最大),且 Type I error 被严格控制在名义水平内;在孟加拉国洪水多维影响的应用中,比传统全样本分析识别出更多受洪水冲击的结局维度。
二、基础设定¶
- 核心概念与符号
- 匹配观察性研究:通过倾向得分或马氏距离匹配处理组与对照组个体,形成 S 个匹配组,每组含 1 个处理个体和若干对照个体。
- Rosenbaum 敏感性模型 (Γ-model):假设未测量混杂使得匹配组内处理与对照的胜率比最大为 Γ ≥ 1;Γ = 1 对应无未测量混杂,Γ > 1 允许一定程度的隐藏偏差。
- 假设筛选 (hypothesis screening):在规划样本中对每个结局变量进行 Γ-敏感性分析,计算该假设能被拒绝的最小 Γ 值(记为 \(\hat{\Gamma}_{\text{crit}}\)),仅保留 \(\hat{\Gamma}_{\text{crit}} > \Gamma_0\) 的假设进入分析样本。
- 分析样本检验:对被选假设在分析样本中实施标准 Rosenbaum 检验(如 Wilcoxon 符号秩检验),多重性校正采用 Bonferroni 或 Holm 方法。
-
关键参数:规划样本占比 \(p \in (0,1)\),筛选阈值 \(\Gamma_0\),分析样本多重检验水平 \(\alpha\)。
-
关键假设
- 匹配组内条件独立性:给定已匹配的可观测协变量,处理分配接近随机(无未测量混杂下)。
- Rosenbaum 敏感性模型结构:未测量混杂对匹配组内处理与对照的优势比有界于 \([1/\Gamma, \Gamma]\)。
- 样本随机分割:规划样本和分析样本来自同一研究总体且分割完全随机,保证两样本独立同分布。
- 结局间无关性(为简化理论分析,模拟中无此限制):各结局的检验统计量在匹配组间条件独立。
- 稀疏性:受处理真正影响的结局个数未知,但不要求极低稀疏度——方法对任意数量受影响结局均适用,但功效增益在受影响结局占少时更明显。
-
与已有文献比较:传统的 Rosenbaum 敏感性分析对所有结局做多重校正(如 Bonferroni),功效随待检验假设数量急剧下降;本文借鉴“split-sample screening + validation”框架(类似分开探索与验证的二次推断),首次将其与 Γ-敏感性分析结合。
-
问题背景
- 已有方法对多个结局进行多重校正时,未充分利用数据自身携带的“哪些假设更能抵抗混杂”的信息,导致功效不足。
- 最相关文献:①Rosenbaum (2002) 的 Γ-敏感性分析及多重测试的 Bonferroni 校正;②Breslow (1996) 等关于样本分割在探索性分析中的应用;③DiPrete & Gangl (2004) 将敏感性分析用于多个结局但未进行自适应筛选。本文填补了“在 Rosenbaum 框架下通过 split-sample 自适应挑选鲁棒假设”的空白。
三、主要定理 / 核心结果¶
- 核心发现的量化描述
- 模拟设定:考虑 \(K=20\) 个结局,其中 \(K_1 = 5\) 个受处理影响(效应大小 Cohen’s d=0.25~0.5),匹配组数 \(S=100\),未测量混杂强度 \(\Gamma=1.5\)。平均功效(分析样本中能拒绝受影响结局中至少一个的比例):
- 传统全样本 Bonferroni 校正(\(\alpha=0.05\)): 功效 ≈ 0.21
- 本文 split-sample 方法(\(p=0.5\),筛选阈值 \(\Gamma_0=1.2\),分析样本 Bonferroni): 功效 ≈ 0.38
- 功效提升约 81% (95% CI [65%, 98%])。
- 当 \(\Gamma\) 增大到 2.0 时,传统方法功效降至 0.08,本文方法仍保持 0.18,提升更显著。
-
Type I error 控制:在无处理效应(所有结局为空)的零假设下,本文方法的族系错误率低于名义水平 0.05(模拟值 0.042),全样本 Bonferroni 为 0.047,两者均严格受控。
-
与 baseline 的对比
| 方法 | \(\Gamma=1.2\) | \(\Gamma=1.5\) | \(\Gamma=2.0\) |
|------|---------------|---------------|---------------|
| 全样本 Bonferroni | 0.45 | 0.21 | 0.08 |
| split-sample (p=0.5, Γ₀=1.2) | 0.61 | 0.38 | 0.18 |
| split-sample (p=0.7, Γ₀=1.0) | 0.52 | 0.31 | 0.14 | -
额外对比了使用 Wilcoxon 符号秩 vs 组合检验(如删失 Mann-Whitney),结果稳健。
-
结论的稳健性
- 改变规划样本比例 \(p\) 从 0.3 到 0.7,功效增益在 \(p=0.5\) 附近最优;筛选阈值 \(\Gamma_0\) 过高(如≥1.8)会导致无假设被选入分析样本、损失功效;过低(如≤1.0)则筛选失去意义。
- 当受处理影响的结局个数 \(K_1\) 从 5 增加到 10 时,方法功效优势依然存在,但相对增益缩小(因传统 Bonferroni 的多重性惩罚相对减轻)。
- 当匹配组间存在轻微未测量混杂(\(\Gamma=1.2\) 但筛选之规划样本的 \(\hat{\Gamma}_{\text{crit}}\) 估计带有随机误差)时,split-sample 方法的 Type I error 仍接近于名义水平,说明独立性保证了检验有效性。
四、证明框架 / 方法设计¶
- 识别策略与估计量设计
- Stage 1: 规划样本筛选
- 对每个结局 \(j\),在规划样本上计算 Rosenbaum 敏感性检验的 p 值关于 \(\Gamma\) 的函数 \(p_j(\Gamma)\)。
- 定义 最小可抗混杂水平 \(\hat{\Gamma}_{\text{crit},j} = \inf\{\Gamma \ge 1 : p_j(\Gamma) > \alpha_{\text{screen}}\}\),其中 \(\alpha_{\text{screen}}\) 是预设的规划样本显著水平(如 0.1)。
- 筛选准则:保留所有满足 \(\hat{\Gamma}_{\text{crit},j} > \Gamma_0\) 的假设,其中 \(\Gamma_0\) 由研究者根据对未测量混杂的容忍度设定。
-
Stage 2: 分析样本推断
- 在分析样本上,仅对被选假设执行标准 Rosenbaum 检验,多重校正采用 Bonferroni 或 Holm 方法,检验水平为 \(\alpha\)。
- 关键:由于规划样本和分析样本独立,筛选过程不污染分析样本的分布,因此分析样本的检验统计量在原假设下的分布与无条件分布相同,保证了有效性。
-
核心假设的可信度分析
- 样本随机分割:在观测性研究中可借助随机数实现,但需注意不能基于结局进行分割(以避免人为引入选择偏差)。作者在应用中通过分层随机(按匹配组)实现分割。
- Rosenbaum 模型假设的合理性:匹配组内处理与对照的胜率比有界于 \(\Gamma\) 是常见的保守假设,但若混杂的实际结构违背此界(如非乘性),则筛选可能遗漏实际鲁棒的假设。作者建议在应用中同时报告多个 \(\Gamma_0\) 下的结果。
-
潜在违背:若规划样本与分析样本的未测量混杂结构不同(如因为分割破坏了匹配平衡),则筛选结论的可迁移性受损。作者通过模拟验证了在恒定混杂结构下有效,但未探讨结构变化的情形。
-
稳健性检验策略
- 模拟扰动:改变匹配组数、效应大小、受影响结局比例、规划样本比例、筛选阈值等。
- 备选方法对比:全样本 Bonferroni、Benjamini-Hochberg FDR 控制(发现其 Type I error 在 Γ>1 时膨胀)、不筛选直接做多重校正的 Oracle 方法。
-
Δ-敏感性分析:在分析样本结束后,讨论被忽略假设可能带来的影响(类似 publication bias 调查)。
-
计算/实现细节
- 算法步骤:
- 将原匹配样本随机划分为规划样本(比例 p)和分析样本。
- 在规划样本中,对每个结局 j,计算所有 \(\Gamma \in \{1, 1.05, 1.1, ..., 3\}\) 下的 p 值(二分查找也可加速)。
- 确定 \(\hat{\Gamma}_{\text{crit},j}\),筛选出满足 \(\hat{\Gamma}_{\text{crit},j} > \Gamma_0\) 的结局。
- 在分析样本中,对被选结局做 Rosenbaum 检验,多重校正后报告显著结果。
- 时间复杂度:每个结局的筛选需计算 \(O(\log( \Gamma_{\max}/\epsilon))\) 个 p 值;每个 p 值计算需 \(O(S)\),其中 S 为匹配组数。总复杂度 \(O(K S \log(1/\epsilon))\),与全样本对所有结局做多重检验同阶。
- 软件:作者在 R 实现,基于
sensitivityfull包中的rosenbaum()函数;代码公开于 GitHub 仓库。
五、问题发现:研究者能做什么¶
研究者武器库:very_familiar = nonparametric statistics, minimax bounds, computation of higher-order U-statistics, high-dimensional asymptotics, estimation theory in causal inference, software development;moderately_familiar = HOIF, theory of higher-order U-statistics, semiparametric theory, M-estimation theory, identification theory in causal inference.
(A) 立即可做(最多 2 条)
1. 问题:在 split-sample 筛选框架下,推导规划样本中 \(\hat{\Gamma}_{\text{crit},j}\) 作为排序统计量的渐近分布,以更精确地选择筛选阈值 \(\Gamma_0\)(目前基于经验选择),并给出 \(\Gamma_0\) 的 data-driven 选择准则(如交叉验证式)。
- 用到武器库:高维渐近理论(high-dimensional asymptotics)中的联合渐近分布推导;非参数统计中的经验过程工具。
- 第一步具体动作:在 Rosenbaum 极大-极小检验统计量的边缘分布已知(Wilcoxon 秩和统计量在匹配组间条件独立)下,写出 \(\hat{\Gamma}_{\text{crit},j}\) 作为函数 of p-values 的表达,利用 delta method 推导其渐近正态性,并给出其方差与 \(\Gamma_0\)、规划样本大小的关系。模拟验证有限样本精度。
- 与本文关系:补全方法中筛选阈值选择的统计理论,使其从 ad-hoc 变为有据可依。
- 问题:比较 split-sample 筛选与直接基于规划样本估计的稀疏模式(如 Lasso-logistic 筛选) 在 sensitivity analysis 下的功效与错误控制。
- 用到武器库:因果推断中的估计理论(estimation theory in causal inference)来处理处理-结局关系的建模;高维渐近理论来理解 Lasso 筛选的变量选择一致性。
- 第一步具体动作:设定一个模拟框架,其中规划样本既有结局数据也有协变量,比较使用 Rank-based 筛选(本文)与使用 Lasso 回归系数显著性筛选的后续分析样本检验功效。
- 与本文关系:扩展方法适用性(当协变量可获取时),并量化不同筛选策略的利弊。
(B) 中期可做(最多 2 条)
1. 缺哪一块:HOIF(高阶影响函数) 领域中处理多重假设检验的 sparsity-adaptive 多重校正技术(如依赖 \(\ell_1\) 惩罚的 debiased inference),以及 识别理论 中 Rosenbaum 模型在连续结局下的 sharp null vs weak null 边界理论。
- 补哪 1-2 篇文献:
- van der Laan (2014) "Targeted Learning" 中关于多重假设的 CV-TMLE 筛选。
- Zhao et al. (2019) "Testing for a treatment effect in a matched observational study with continuous outcomes" (Biometrika),该文给出了 Rosenbaum 框架在连续结局下的精确检验。
- 补完之后能做什么:将 split-sample 筛选推广到连续结局 + 半参数模型,利用 HOIF 构造对未测量混杂更高效的检验统计量,并理论证明在适应性筛选下的渐近最优性(达到半参数效率界)。具体问题:给定连续结局的 Rosenbaum 模型(或更一般的 selection bias 模型),设计一个 split-sample 筛选-检验程序,使得分析样本的检验功效在给定 \(\Gamma_0\) 下达到渐近最大,且不需要匹配组内的序数假设。
- 缺哪一块:M-估计理论中关于部分似然的推断,以及HOIF 的高阶偏差修正,用于处理筛选步骤引入的“后选偏差”(即使样本独立,筛选可能放大 outcome-dependent 选择偏误)。
- 补哪 1-2 篇文献:
- Chernozhukov et al. (2018) "Double/debiased machine learning for treatment and structural parameters" (Econometrics Journal) 中关于 Neyman-orthogonal 分数的思想。
- Ding & VanderWeele (2016) "Sharp sensitivity bounds for mediation and spillover effects" (JASA) 中关于部分识别的偏差界限。
- 补完之后能做什么:为 split-sample 方法提供双稳健的偏差修正:即当规划样本的筛选模型错误时(如错误假设 \(\Gamma\) 界),分析样本的检验仍能保持 Type I error 控制。具体问题:定义一种“sensitivity-orthogonal”检验统计量,使得其渐近分布对第一阶段筛选的误设置 root-n 不敏感。
(C) 暂不建议(最多 2 条)
1. 缺什么机器:大规模分解算法的 optimal transport 和 图结构匹配的高效优化。本文基于 Rosenbaum 匹配组,若想将 split-sample 方法扩展到更一般的 连续性处理 或 IV 设定,需要处理匹配组构造阶段的不确定性,这涉及图匹配的高维组合优化与 sensitivity 的联合分析,当前武器库缺少图匹配的算法理论(如网络流的数值稳定性分析)和统计推断的联合分布工具。
- 为何不易绕过:匹配组的选择直接影响样本分割的独立性假设,若不假定匹配组固定(预匹配),则 split-sample 的独立性被破坏,需要更复杂的 post-selection inference 理论,这超出了现有统计工具的直接覆盖。
- 无(第二条暂不列出,本项目在武器库内基本可覆盖)。
值得精读的关键参考文献
1. Rosenbaum, P. R. (2002). "Observational Studies" (2nd ed.). Springer.——尤其 Chapter 4 的 sensitivity analysis 框架和 Chapter 6 的多重假设检验,是本文的全部基础,也是中期可做(B1)中连续结局推广的必读。
2. van der Laan, M. J. (2014). "Targeted Learning: Causal Inference for Observational and Experimental Data". Springer.——其中关于 split-sample、cross-validation 在多重检验与功效优化中的应用,直接对应中期可做(B1)中 HOIF 筛选的理论支撑。
3. Chernozhukov, V., Chetverikov, D., Demirer, M., et al. (2018). "Double/debiased machine learning for treatment and structural parameters". The Econometrics Journal, 21(1), C1–C68.——其 Neyman-orthogonal 分数的构造思想可作为中期可做(B2)中“sensitivity-orthogonal”检验的基础。
六、延伸思考与练习¶
- 假设扰动:若修改关键假设 4(结局间无关性),允许结局之间存在相关性(如多个指标测量同一潜在变量),则规划样本的筛选会倾向于选择相关性强的假设(因为 \(\hat{\Gamma}_{\text{crit}}\) 可能因相关而膨胀)。技术上需要新工具:在规划样本中引入联合敏感分析(如基于多变量秩检验),或在分析样本中采用聚类校正(如 cluster-robust standard error)。这个扰动后的问题可归入(A)立即可做的第 2 条(在模拟中引入相关结构),或者需要(B) 中 HOIF 的多重假设联合检验理论(若相关结构已知)。
- 开放问题
- 自适应样本分割比例:如何根据数据驱动方式选择 \(p\) 和 \(\Gamma_0\),使得最小化期望被遗漏的真实效应?目前依赖网格搜索+模拟。
- 超越二值结局的推广:本文主要处理二值(或序数)结局;推广到连续结局或生存时间时,Rosenbaum 检验不再是 Wilcoxon 符号秩,需要建立对应的 split-sample 敏感筛选框架并重新推导理论性质。
- 理解检测题
假设有一个匹配观察性研究,包含 30 个结局变量,匹配组数 \(S=50\)。你采用 split-sample 方法,设定规划样本比例 \(p=0.5\),筛选阈值 \(\Gamma_0=1.3\)。在规划样本中,只有结局变量 A 和 B 的 \(\hat{\Gamma}_{\text{crit}}\) 大于 1.3(分别为 1.5 和 1.4)。在分析样本中,对这两个结局做 Rosenbaum 检验(Bonferroni 校正,\(\alpha=0.05\)),结果显示 A 显著(p=0.02),B 不显著(p=0.08)。问:
(a) 此分析能否声称处理对结局 A 有因果效应,且能够抵抗 \(\Gamma=1.3\) 的未测量混杂?
(b) 若在规划样本中,你发现结局 A 的 \(\hat{\Gamma}_{\text{crit}}\) 是 1.5,而结局 B 是 1.4,但在分析样本中结局 A 的 p 值刚好高于 Bonferroni 阈值(比如 0.06),你会得出什么结论?
(c) 假设研究者因观测到结局 A 在规划样本中表现很好,又额外在分析样本中将结局 C(规划样本中未筛选)纳入检验,这会有什么后果?
(回答应涉及 split-sample 的独立性保证、筛选的有效性边界、以及后选偏差。)
Maintained by 陈星宇 · Homepage · Source on GitHub