Powerful Multivariate Sensitivity Analysis via Sample Splitting in an Observational Study of the Effects of Poverty on Cardiovascular Disease Risk Factors¶

作者: William Bekerman, Anurag Mehta, Rebecca E. Hasson, Leah E. Robinson, Dylan S. Small, Colin B. Fogarty
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.04416

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在观察性研究中，当暴露可能对多个结局（\(K \ge 2\)）产生因果效应时，如何在存在潜在未测量混杂（hidden bias）的条件下，对全局零假设（所有结局均无有害效应）进行敏感性分析与检验。当前该方向在理论框架上已相对成熟（形成了基于 Rosenbaum 模型的 minimax 对抗博弈框架与设计敏感性理论），但在多结局（尤其是 \(K\) 较大时）的检验功效上存在明显瓶颈——多重检验校正导致临界值随 \(K\) 急剧膨胀，严重削弱了检验的统计功效。

发展脉络： - 奠基工作：Rosenbaum (2002, §4) 提出了匹配观察性研究中未测量混杂的 \(\Gamma\)-敏感性模型，为后续所有敏感性分析提供了基本设定；Rosenbaum (2004) 引入了设计敏感性（design sensitivity, \(\tilde{\Gamma}\)）的概念，作为大样本下敏感性分析功效的极限指标，奠定了渐近理论的基础。 - 主要进展（多结局检验）：Rosenbaum (1997) 考虑了所有结局的等权线性组合（\(\lambda = 1_K\)），构造了 coherent statistic；Rosenbaum (2016) 将其扩展到所有线性组合（\(\Lambda = \mathbb{R}^K \setminus \{0_K\}\)），利用经典的 Scheffé 投影进行检验，但临界值退化为 \(\sqrt{\chi^2_{K, 1-\alpha}}\)；Fogarty and Small (2016) 通过二次约束线性规划，使用标准基向量（\(\Lambda = \{e_1, \dots, e_K\}\)），即对每个结局单独做敏感性分析再取最大值；Cohen et al. (2020) 将多结局单侧检验形式化为一个研究者与自然的 minimax 对抗博弈，限定线性组合在非负象限（\(\Lambda_+\)），证明了全样本下目标函数的渐近分布为 chi-bar-squared（\(\bar{\chi}^2\)），其临界值 \(c_{\alpha, \Lambda_+}\) 同样随 \(K\) 增大而膨胀。 - 当前 frontier 与本文位置：上述所有全样本方法在 \(K\) 较大时均面临临界值膨胀导致的功效灾难。本文引入样本分割，用 planning sample 在概率单纯形（\(\Delta_+\)）上寻找最优线性组合，在 analysis sample 上将其视为预指定从而使用标准正态临界值 \(z_{1-\alpha}\)（不依赖 \(K\)），并证明在 \(\Delta_+\) 上 minimax 等式成立，从而 split-sample 方法的渐近设计敏感性等于全样本方法。

子线索聚类： 1. 全局检验的参考分布与多重校正线索：Rosenbaum (2016) [Scheffé 投影 / \(\chi^2\)] → Cohen et al. (2020) [非负约束 / \(\bar{\chi}^2\)] → 本文 [样本分割 / 标准正态 \(z_{1-\alpha}\)]。核心矛盾是：允许更丰富的 \(\Lambda\) 集合能更好对抗 hidden bias，但随之而来的多重校正临界值膨胀会吞噬功效。 2. Minimax 对抗博弈与设计敏感性线索：Fogarty and Small (2016) [揭示了 \(\min_\varrho \max_\lambda\) 与 \(\max_\lambda \min_\varrho\) 之间可以存在严格不等式（功效损失）] → Cohen et al. (2020) [形式化为左端博弈] → 本文 [证明在 \(\Delta_+\) 上 minimax 等式成立，使得右端博弈（样本分割的自然形式）不损失渐近功效]。 3. 样本分割在观察性研究中的功效线索：Cox (1975) / Wasserman and Roeder (2006) [传统智慧：样本分割通常损失功效] → Heller et al. (2009) / Bekerman et al. (2026) [反传统：在某些设计下，样本分割在有限样本下提升功效且渐近无损失] → 本文 [将此现象扩展到多结局敏感性分析的 minimax 框架中]。

这个方向在追问的核心问题： 1. 如何突破多结局敏感性分析中临界值随 \(K\) 膨胀的瓶颈？（当前主流通过约束 \(\Lambda\) 缓解，但治标不治本；本文通过样本分割彻底解耦临界值与 \(K\) 的依赖）。 2. 样本分割导致的“研究者先动、自然后动”（右端 minimax）是否必然带来功效惩罚？（已知在 \(\Lambda = \{e_k\}\) 时会有严格惩罚；本文追问在 \(\Lambda = \Delta_+\) 时是否可以免除惩罚）。 3. 如何在有限样本下量化并提升敏感性分析的鲁棒性（设计敏感性）？

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有方法（Cohen et al. 2020 等）的临界值随 \(K\) 膨胀导致功效灾难，而 \(K\) 较大是实际应用（如本文的 CVD 研究）的刚需，因此引入样本分割以使用正态临界值是“显然的下一步”。 - 被淡化或回避的竞争路线：Intro 中未提及高维均值检验中的投影测试（如 Liu et al. 2024, Huang 2015）或 knockoff filter (Barber & Candès 2019) 等同样使用样本分割/投影降维来规避多重检验惩罚的平行高维统计文献——作者仅在模拟部分和 Appendix 顺带提及它们作为"概念相关"，但未在理论框架中正面对比这些路线在敏感性分析中的适用性或局限。 - 明显该被引却未出现的：关于样本分割后功效损失量化的一般性理论（如 Fithian et al. 关于 data carving / selective inference 的功效界），以及半参数效率理论中关于样本分割与全样本效率比较的文献（如 Lei & Fithian 2018 的 AdaPT 虽被引，但更广泛的 selective inference 功效理论未被纳入）。

张力： - 核心对立引用：Fogarty and Small (2016) 与 Heng et al. (2021) 给出了具体反例，证明在特定 \(\Lambda\)（如标准基向量或负相关结局）下，右端 minimax（样本分割的逻辑）严格劣于左端 minimax（全样本逻辑）。本文的 Theorem 1 则声称在 \(\Lambda = \Delta_+\)（概率单纯形）下，minimax 等式成立（无惩罚）。这两者构成了直接的条件性对立：惩罚是否存在，取决于 \(\Lambda\) 的几何结构。这是一个高价值信号，暗示 \(\Lambda\) 的凸性与维数可能是决定样本分割功效惩罚的开关。

二、这篇论文做了什么¶

三句话： ① 研究了匹配观察性研究中多结局全局零假设的敏感性分析，在结局数量 \(K\) 较大时如何避免多重检验临界值膨胀导致的功效灾难； ② 核心方法是样本分割——在 planning sample 上于概率单纯形 \(\Delta_+\) 中寻找最大化敏感性值的线性组合，在 analysis sample 上将其视为固定并使用标准正态临界值进行推断； ③ 主要结论是证明了一个新的 minimax 定理（在 \(\Delta_+\) 上 \(\min_\varrho \sup_\lambda F = \sup_\lambda \min_\varrho F\)），并由此导出 split-sample 方法与全样本方法具有相同的渐近设计敏感性，模拟与实证显示有限样本功效显著提升。

关键设定与假设： - Rosenbaum \(\Gamma\)-敏感性模型：匹配集内，个体接受处理的几率比由于未测量混杂 \(u\) 最多偏离 \(\Gamma\) 倍（式 1-2）。\(\Gamma=1\) 对应随机化实验，\(\Gamma>1\) 允许 hidden bias。统计含义：将未测量混杂的影响参数化为一个最坏情形的干预分配概率 \(\varrho_{ij}\)，其属于多面体集 \(\mathcal{P}_\Gamma\)。 - 全局零假设 \(H_0\)：所有 \(K\) 个结局的复合零假设均成立（式 4）。统计含义：暴露对任何一个结局均无有害效应。 - Extended-real payoff \(F(\lambda, \varrho)\)（Theorem 1）：当 \(\lambda^\top \Sigma(\varrho)\lambda > 0\) 时为标准化的正部平方；当方差为 0 但均值差为正时定义为 \(+\infty\)；其余为 0。统计含义：将检验统计量的目标函数推广到半正定协方差矩阵的边界情况，避免了除零问题，是证明 minimax 等式的关键技巧。 - 概率单纯形 \(\Delta_+\)：\(\lambda_k \ge 0, \sum \lambda_k = 1\)。统计含义：限定线性组合为非负加权平均，符合“贫困对所有结局均有害”的单侧因果理论；相比 Cohen et al. (2020) 的非负象限 \(\Lambda_+\)，由于目标函数的齐次性，两者在目标值上等价，但 \(\Delta_+\) 的紧致性与凸性是 minimax 定理成立的必要条件。 - 正则性条件 (A1)-(A2)（Theorem 2）：(A1) 要求总体均值/方差函数的连续性、关于 \(\Gamma\) 的严格单调性及端点符号分离；(A2) 要求方差函数的正性与连续性、样本准则关于 \(\Gamma\) 的严格单调性，以及关键的一致 Lipschitz 与 \((1+\delta)\)-矩有界条件（式 A2(iv-v)）。统计含义：这些条件排除了目标函数的非光滑震荡，保证了样本敏感性值的一致收敛与设计敏感性最大化的连续性，是渐近功效等价性的基石；相比已有文献，这些条件是为适应样本分割下随机极值点收敛而新增的。

主要结果： 1. Theorem 1 (Minimax Equality)：对于任何非空凸集 \(\Lambda \subseteq \mathbb{R}^K\)，在 extended-real payoff \(F\) 下，\(\min_{\varrho \in \mathcal{P}_\Gamma} \sup_{\lambda \in \Lambda} F(\lambda, \varrho) = \sup_{\lambda \in \Lambda} \min_{\varrho \in \mathcal{P}_\Gamma} F(\lambda, \varrho)\)。 - 直觉：在凸组合空间中，研究者先选方向（右端，样本分割逻辑）与自然先选最坏分配（左端，全样本逻辑）的博弈值相等，意味着样本分割在博弈论意义上没有先天劣势。 - 必要条件：\(\Lambda\) 必须是凸集（否则如 Fogarty & Small 2016 的离散基向量集，等式不成立）；\(F\) 必须推广到 extended-real（处理 \(\lambda^\top \Sigma \lambda = 0\) 的边界）。 - 解决的技术难点：克服了传统比率型目标函数（分母可能为 0）不满足 Sion minimax 定理连续性条件的障碍。 2. Corollary 1：Minimax 等式在 \(\Lambda_+\) 和 \(\Delta_+\) 上成立。直接由 Theorem 1 与两者的凸性得出。 3. Theorem 2 (Equal Design Sensitivity)：在正则条件 (A1)-(A2) 下，全样本方法 (6) 与 split-sample 方法 (8) 具有相同的设计敏感性 \(\tilde{\Gamma}\)。 - 直觉：尽管 split-sample 用了更少的样本做推断，但由于 planning sample 估计的最优方向 \(\hat{\lambda}_p\) 收敛到总体最优方向集合 \(M\)（Corollary 2），且 minimax 等式保证了右端博弈的极限值与左端相同，因此大样本下两者的敏感性值极限（设计敏感性）完全一致。 - 解决的技术难点：证明了随机极值点 \(\hat{\lambda}_s\) 到总体极值集 \(M\) 的距离依概率收敛到 0（Corollary 2），这需要一致随机收敛（uniform stochastic convergence）的工具，而非简单的点估计收敛。

证明路线与技术技巧： - 整体路线： 1. 重构目标函数：将比率型 payoff \(\max\{0, \lambda^\top(t-\mu)/\sqrt{\lambda^\top \Sigma \lambda}\}^2\) 重构为二次型 supremum \(\sup_{s \ge 0} \{2s \lambda^\top(t-\mu) - s^2 \lambda^\top \Sigma \lambda\}\)（Lemma 1-2），进而表示为锥壳 \(\mathcal{K}_\Lambda\) 上的有限二次函数 \(2B^\top(t-\mu) - B^\top \Sigma B\)。 2. 验证 Sion 定理条件：证明重构后的二次函数在 \(\varrho\) 上凸/连续，在 \(B\) 上凹/连续，且域 \(\mathcal{P}_\Gamma\) 紧凸、\(\mathcal{K}_\Lambda\) 凸，应用 Sion minimax 定理交换 min 与 sup。 3. 回代到原 payoff：利用 \(\Delta_+\) 的紧致性，将锥壳上的极值还原为 \(\Delta_+\) 上的极值，得出 minimax 等式。 4. 建立一致随机收敛：在 analysis/planning/whole sample 上，利用 Lipschitz 与矩条件，通过有限网（finite-net）+ von Bahr-Esseen 不等式，证明样本准则 \(\Psi_s(\lambda, \Gamma)\) 一致收敛到总体准则 \(\Psi(\lambda, \Gamma)\)。 5. 论证极值点收敛与设计敏感性等价：利用一致收敛与总体准则的严格单调性，证明样本敏感性值 \(\hat{\Gamma}_s(\lambda)\) 一致收敛到总体设计敏感性 \(\tilde{\Gamma}(\lambda)\)；进一步利用 \(\tilde{\Gamma}\) 的连续性与 \(\Delta_+\) 的紧致性，证明 \(\hat{\lambda}_s\) 收敛到 \(M\)，从而 split-sample 的敏感性值 \(\hat{\Gamma}_a(\hat{\lambda}_p)\) 与全样本的 \(\hat{\Gamma}_w(\hat{\lambda}_w)\) 均依概率收敛到同一总体最大值 \(\Gamma^\star\)。 - 关键跳跃点： - Lemma 1-2 的二次重构是整个证明的跳跃点。原始的比率型目标函数在 \(\lambda^\top \Sigma \lambda = 0\) 时无定义或不连续，无法直接应用 Sion 定理。通过引入 \(s \ge 0\) 并取 supremum，巧妙地将不可控的比率转化为可控的、关于 \(s\) 的凹二次函数，进而关于 \(B\) 也是凹的，满足了 Sion 定理的凹性要求。 - Extended-real payoff 的定义：在 \(\lambda^\top \Sigma \lambda = 0\) 且 \(\lambda^\top(t-\mu) > 0\) 时定义 \(F = +\infty\)，这一步看似只是边界补全，实则是保证重构前后等价性（Lemma 2）及后续下半连续性的关键。 - 技术技巧点名： - Sion's Minimax Theorem：用于在凸-凹结构下交换 min 与 sup，是 Theorem 1 的核心引擎。 - Quadratic Reformulation / Conic Hull Duality：将比率统计量转化为二次优化，绕过分母为零的奇点。 - Finite-net + von Bahr-Esseen inequality：用于证明独立非同分布随机变量平均的一致收敛，是高维/无穷维经验过程理论在无分布设定下的替代工具。 - Uniform Lipschitz & \((1+\delta)\)-moment bounds：控制样本准则的震荡，保证有限网逼近的余项可被矩不等式吸收。

真实例子与应用： - 数据/场景：NHANES 1999-2016 pre-pandemic 数据，研究贫困（FPIR<1）对儿童/青少年（8-11岁与12-17岁，分性别）心血管风险因素（体成分、体力活动、烟草暴露等，最多 \(K=9\)）的因果效应。4027个匹配对，1/4作 planning sample，3/4作 analysis sample。 - 怎么用上去： 1. 在 planning sample 上探索数据，修正了饮食指标（从总 HEI 改为基于本文方法构造的成分组合），剔除冗余结局（如 BMI 与腰围身高比高度相关，保留后者），并利用式 (7) 在 \(\Delta_+\) 上估计最优线性组合 \(\hat{\lambda}_{plan}\)（表 5：可替宁在多数层占绝大权重）。 2. 在 planning sample 上网格搜索选择最鲁棒的 m-statistic（Huber \(\psi\) vs. InnerTrim）。 3. 在 analysis sample 上，使用固定的 \(\hat{\lambda}_{plan}\) 与选定的 m-statistic，通过式 (8) 计算最坏情形分配下的标准化偏差，与标准正态临界值比较。 4. 使用 Goeman & Finos (2012) 的 inheritance procedure 在树状假设结构下控制 FWER。 - 得到什么结果： - 在 \(\Gamma=1\)（无 hidden bias）时，split-sample 拒绝了所有年龄/性别的全局零假设，而全样本方法（Cohen et al. 2020）仅拒绝了男孩全局零假设。 - 在 \(\Gamma=1.15\)（允许轻微 hidden bias）时，split-sample 仍能拒绝全局零假设并发现可替宁（烟草暴露）的显著有害效应，而全样本方法在此 \(\Gamma\) 下已无法拒绝任何假设。 - 根节点的敏感性值：split-sample 约为 3.05，全样本仅为 1.67。 - 想说明什么：实证旨在展示（1）当 \(K\) 较大时，split-sample 通过使用正态临界值，在有限样本下显著挽回了全样本方法因 \(\bar{\chi}^2\) 临界值膨胀而损失的功效；（2）样本分割的 planning 阶段在实际应用中具有巨大的探索与设计价值（修正变量、选择统计量）；（3）贫困对烟草暴露的影响对未测量混杂具有鲁棒性，而对其他结局（如体力活动）的影响则非常敏感。

🔎 结论是否比证明窄： - Theorem 1 证明了对于任何非空凸集 \(\Lambda\) minimax 等式成立，但 Theorem 2 的渐近功效等价性仅针对 \(\Lambda = \Delta_+\)（概率单纯形）证明。作者在文中将此泛泛 claim 为 "sample splitting approaches preserve large-sample power"（Section 4.2），但这一 claim 仅在 \(\Delta_+\) 这一特定凸集上被严格证明，对于其他凸集（如带约束的子空间），Corollary 2 的极值点收敛可能因目标函数非严格单调或极值集 \(M\) 非紧而失效。这是一个典型的"证明窄、claim 广"的位置。

三、开放问题（点到为止）¶

要估什么：如何量化线性组合估计 \(\hat{\lambda}_p\) 与总体最优集 \(M\) 的距离，并据此给出 split-sample 在有限样本下的功效下界或敏感性值的置信区间？扎根点：Appendix A.4 "One question in the area of multivariate sensitivity analysis that remains unresolved is how to quantify the closeness of particular linear combinations and what distance metrics would be most appropriate. New insights could lead to finite sample guarantees for the performance of our method."
要证什么：在 \(\Lambda\) 为非凸集（如 Fogarty & Small 2016 的标准基向量集）或更一般的离散集时，样本分割的 minimax 惩罚（式 9 的严格不等式）在渐近意义上究竟有多大？能否给出惩罚的定量界？扎根点：Section 4.2 提到 "for certain choices of \(\Lambda\), solving the optimization problem on the right-hand side yields strictly lower power"，但 Theorem 1 仅给出了凸集上的无惩罚结论，非凸集的惩罚量级是 open gap。
要算什么：如何将此框架扩展到 partial conjunction tests（评估因果理论的证实程度）或 FDR 控制，以适应更复杂的多重假设逻辑结构？扎根点：Appendix A.4 "It could also be useful to extend our framework to conjunction or partial conjunction tests in the spirit of Benjamini and Heller (2008) and Karmakar and Small (2020)... or to guarantee control of the false discovery rate."

四、最核心、最简单的例子 / 数学问题¶

最简特例：\(K=2\) 个结局，且限定在概率单纯形 \(\Delta_+ = \{\lambda \in \mathbb{R}^2: \lambda_1 \ge 0, \lambda_2 \ge 0, \lambda_1 + \lambda_2 = 1\}\) 上。

在这个特例下，整篇论文的核心数学本质退化为一个一维参数 \(\lambda_1 \in [0,1]\) 上的 minimax 博弈与极值收敛问题（因为 \(\lambda_2 = 1-\lambda_1\)）。

要证的命题退化成什么：证明 \(\min_{\varrho \in \mathcal{P}_\Gamma} \max_{\lambda_1 \in [0,1]} F(\lambda_1, \varrho) = \max_{\lambda_1 \in [0,1]} \min_{\varrho \in \mathcal{P}_\Gamma} F(\lambda_1, \varrho)\)，且 planning sample 上估计的最优 \(\hat{\lambda}_{1, plan}\) 在 analysis sample 上做推断时，大样本下不损失设计敏感性。
证明怎么走（为什么成立）：
重构：\(F(\lambda_1, \varrho)\) 原本是 \(\max\{0, \lambda_1(t_1-\mu_1) + (1-\lambda_1)(t_2-\mu_2)\}^2 / [\lambda_1^2 \Sigma_{11} + 2\lambda_1(1-\lambda_1)\Sigma_{12} + (1-\lambda_1)^2 \Sigma_{22}]\)。当分母为 0 且分子为正时，定义为 \(+\infty\)。
二次化：通过引入 \(s \ge 0\)，上述比率等于 \(\sup_{s \ge 0} \{2s[\lambda_1(t_1-\mu_1) + (1-\lambda_1)(t_2-\mu_2)] - s^2[\lambda_1^2 \Sigma_{11} + \dots]\}\)。令 \(B_1 = s\lambda_1, B_2 = s(1-\lambda_1)\)，则 \(B \in \mathcal{K}_{\Delta_+}\)（即 \(\mathbb{R}^2_+\) 的锥壳），目标函数变为关于 \(B\) 的凹二次函数 \(2B^\top(t-\mu) - B^\top \Sigma B\)。
Sion 定理：在紧凸集 \(\mathcal{P}_\Gamma\) 与凸锥 \(\mathcal{K}_{\Delta_+}\) 上，二次函数关于 \(\varrho\) 凸、关于 \(B\) 凹，直接应用 Sion 定理交换 min 与 max。
回代：由于 \(\Delta_+\) 是紧致线段 \([0,1]\)，\(\sup_{B \in \mathcal{K}_{\Delta_+}} \min_\varrho [\dots] = \sup_{\lambda_1 \in [0,1]} \sup_{s \ge 0} \min_\varrho [\dots] = \sup_{\lambda_1 \in [0,1]} \min_\varrho F(\lambda_1, \varrho)\)。Minimax 等式成立。
功效等价：总体设计敏感性 \(\tilde{\Gamma}(\lambda_1)\) 是 \([0,1]\) 上的连续函数，必有最大值点 \(\lambda_1^\star\)。Planning sample 上的 \(\hat{\lambda}_{1, plan}\) 是随机极值点，由一致收敛与连续性，\(\hat{\lambda}_{1, plan} \to \lambda_1^\star\)（或其附近），因此在 analysis sample 上用 \(\hat{\lambda}_{1, plan}\) 做推断，其敏感性值极限仍为 \(\tilde{\Gamma}(\lambda_1^\star)\)，与全样本最优极限一致。
为什么成立（直觉）：在 \(K=2\) 时，\(\Delta_+\) 是一条闭线段（紧凸），不存在 Fogarty & Small (2016) 反例中那种"离散跳跃"导致的 minimax 惩罚。研究者在线段上选一个点，自然再选最坏分配；由于线段的连通性，研究者总能选到那个让自然无论怎么选都难以压低目标值的"黄金比例"（如可替宁占 0.7，腰围占 0.3），而这个黄金比例在大样本下可以被 planning sample 精准逼近。

Maintained by 陈星宇 · Homepage · Source on GitHub

Powerful Multivariate Sensitivity Analysis via Sample Splitting in an Observational Study of the Effects of Poverty on Cardiovascular Disease Risk Factors¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题（点到为止）¶

四、最核心、最简单的例子 / 数学问题¶

评论