Isotonic subgroup selection¶

作者: Manuel M Müller, Henry W J Reeve, Timothy I Cannings, Richard J Samworth
来源: Journal of the Royal Statistical Society Series B
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么
子群选择（subgroup selection）问题：给定协变量‑响应样本 \((X_i, Y_i) \in \mathcal{X} \times \mathbb{R}\)，目标是识别回归函数 \(f(x) = \mathbb{E}(Y \mid X = x)\) 超过预设阈值 \(\tau\) 的协变量子集 \(R = \{x \in \mathcal{X} : f(x) > \tau\}\)。这是后选择推断的一个特例，在临床试验（例如找出受益于新疗法的患者亚群）和实证科学中广泛出现。核心统计挑战有二：一是必须对最终报告的子集提供可验证的 Type I error 控制（避免报告实际上不存在的亚群），二是希望检验的 power 尽可能高（即真子集被报告出来的比例）。该方向当前成熟度不高：已有大量应用层面的警示，但在非参数框架下同时保证有限样本误差控制和最优 minimax power 的方法仍属空白。

发展脉络（history）
按时间与逻辑顺序梳理：

临床/应用层面的警示（约 1997 – 2020）: Senn & Harrell (1997); Feinstein (1998); Rothwell (2005); Wang et al. (2007); Kaufman & MacLehose (2013); Altman (2015); Gabler et al. (2016); Lipkovich et al. (2017); Watson & Holmes (2020)。这些工作反复论证不加调整的亚组检索会严重夸大假阳性率，但未给出可控的方法论。
形状约束回归的估计理论（1955 起，近十年尤其活跃）：
奠基：Ayer et al. (1955), Brunk (1955), van Eeden (1956) 提出并发展了 isotonic 回归。
风险界与 oracle 不等式：Meyer & Woodroofe (2000), Zhang (2002), Chatterjee (2014), Chatterjee et al. (2015), Bellec (2018), Han et al. (2019), Deng & Zhang (2020), Fokianos et al. (2020), Pananjady & Samworth (2022)。这些工作确定了多元 isotonic 回归的 minimax 速率为 \(n^{-1/d}\)（在固定格点设计下）以及分段常数信号的适应速率。但它们关注的是回归函数的整体 MSE，而非其中哪部分大于阈值这个子集推断问题。
多重检验与逻辑约束（1969 – 2019）：
Gabriel (1969) 提出“coherent”多重检验原则：拒绝集应构成一个上集（upper set）。
Meijer & Goeman (2015) 和 Ramdas et al. (2019) 将假设组织成有向无环图（DAG），并按顺序检验以控制 FWER / FDR。Ramdas et al. (2019) 进一步处理了在线设定。但这些方法假设 p‑value 已经事先计算好，没有讨论如何从数据构造这些 p‑value 并同时利用非参数结构。
Anytime‑valid / martingale 检验（1939 – 2021）：
Ville (1939), Wald (1947), Robbins (1970) 开创了基于 martingale 的序贯检验。
Duan et al. (2020) 基于 “masking” p‑value 提出交互式全域零检验；Howard et al. (2021) 给出了非参数下的 time‑uniform 置信序列。Wasserman et al. (2020) 提出通用推断方法（split LRT）。这些工作提供了对单个复合假设的时时有效 p‑value，但并未将其放入结构化多重检验框架下解决子群选择。
异质性治疗效应的子集识别（近五年）：Ballarini et al. (2018), Watson & Holmes (2020) 等尝试用预测个体治疗效应（PITE）或 ML 检测交互，但多依赖离散化或缺乏有限样本误差控制。

本文位置：首次将上述四条线索缝合——在多元 isotonic 回归下，用单调性自然诱导 DAG 结构假设，用 martingale confidence sequence 构造每个点的 anytime‑valid p‑value，再用 Gabriel 的 coherent 原则设计多重检验程序 RISS，同时实现了非渐近均匀 Type I error 控制以及匹配 minimax 下界（至多对数因子）的 power。

子线索聚类：

线索	代表工作	核心关注
形状约束回归的理论估计	Han et al. (2017); Deng & Zhang (2020); Bellec (2018); Chatterjee (2014)	对单调/凸函数的 MSE / oracle 界
多重检验与 DAG 逻辑约束	Gabriel (1969); Meijer & Goeman (2015); Ramdas et al. (2019); Goeman & Solari (2010)	给定 p‑value 后如何控制 FWER/FDR
Anytime‑valid martingale 检验	Robbins (1970); Duan et al. (2020); Howard et al. (2021); Wasserman et al. (2020)	构造有限样本有效的、可随时停止的 p‑value
子群选择的临床/应用层面	Kaufman & MacLehose (2013); Gabler et al. (2016); Ballarini et al. (2018)	强调问题严重但缺少理论工具

核心问题：① 如何在连续协变量空间上对“\(f(x) > \tau\)”这一族假设提供 uniform Type I error 控制？② 在非参数形状约束下，能达到的最优 power（被拒绝区域的 Lebesgue 测度）是多少？③ 如何将 anytime‑valid 理念与结构化多重检验结合实现可在线计算的算法？④ 能否推广到分类响应、分位数回归、异质性治疗效应？

⚠️ 作者的 framing
作者在引言中把缺口框定为：“现有子群选择方法要么牺牲 Type I error（例如不加调整的逐个检验），要么只针对有限个预先指定的子组；在 isotonic 假设下，自然的偏序结构使我们能同时解决 error 控制和 power 最优。”

被本文淡化/回避的竞争路线：
基于树/分治的方法（SIDES, GUIDE, PRIM）——理由可能是这些方法需要离散化且缺乏整体误差控制。
直接通过函数估计 + bootstrap 校准阈值的方法——本文未讨论。
一个明显的缺失引用：Yang & Barber (2019) 关于 isotonic 回归一致置信带的工作；以及 Deng, Han, Zhang (2020) 关于多元 isotonic 点态置信区间的 pivot 极限理论。后者的推断思路（利用块最大‑最小估计量）与本文构造 p‑value 的视角可能互补，值得研究者去查是否可嫁接。

张力：未发现被引文献之间存在显式矛盾。不同线索间多属互补而非竞争。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

协变量：\(X \in [0,1]^d\)，设计为固定 \(r\)-regular 格点（等距网格点），记 \(n\) 为总样本量，各坐标方向格点数 \(m \approx n^{1/d}\)。
响应：\(Y = f(X) + \varepsilon\)，\(\varepsilon\) 为 sub‑Gaussian 噪声，方差参数 \(\sigma\) 已知（或给定上界）。
未知回归函数：\(f\) 在 \([0,1]^d\) 上对每个坐标单调不减（non‑decreasing in each coordinate）。
阈值：\(\tau\) 是预先指定的常数（例如主观设定的“有效”水平）。
目标子集：\(R = \{x \in [0,1]^d : f(x) > \tau\}\)。由单调性，\(R\) 必为上集（upper set）：若 \(x \in R\)，则对所有坐标分量都大于或等于 \(x\) 的点也属于 \(R\)。
可观测数据：设计点 \(x_i\)（格点位置）及其对应的 \(y_i\)。不可观测的是 \(f\) 在非设计点上的值以及噪声的每一实现。本文假设设计点位置已知，且可重复采样（条件于设计）。
参数：样本量 \(n\)，协变量维数 \(d\)，显著性水平 \(\alpha \in (0,1)\)。

第二步：最小内核——一元分段常数特例¶

取 \(d=1\)，设计点为 \(x_1 < x_2 < \cdots < x_n\) 均匀分布在 \([0,1]\) 上（格点间距 \(1/n\)）。真回归函数设为

\[f(x) = \begin{cases} 0, & x \leq \theta, \\ 1, & x > \theta, \end{cases}\]

其中 \(\theta \in (0,1)\) 未知。阈值 \(\tau = 0.5\)，则真上集 \(R = (\theta, 1]\)。
噪声 \(\varepsilon_i \sim \text{subG}(\sigma^2)\) 独立。

任务：报告一个上集 \(\widehat{R} = (\widehat{\theta}, 1]\)，使得
- Type I error 控制：\(\Pr(\widehat{R} \subseteq R) \geq 1 - \alpha\)，即拒绝集不含“假阳性”点（没有报告 \(x \notin R\) 的点）。
- Power 最大化：在满足该误差约束下，最小化期望缺失测度 \(\mathbb{E}[|R \setminus \widehat{R}|] = \mathbb{E}[|\min(\theta, \widehat{\theta}) - \theta|]\)（当 \(\widehat{\theta} > \theta\) 时缺失为 0）。

最小内核做法：

对每个点 \(x_i\) 构造 p‑value：固定 \(i\)，检验 \(H_i : f(x_i) \leq 0.5\)。由单调性，\(H_i\) 蕴含所有 \(j \leq i\) 的 \(f(x_j) \leq 0.5\)。构造检验统计量 \(S_i = \sum_{j=i}^{n} (Y_j - 0.5)\)。在 \(H_i\) 下，\(S_i\) 的期望 \(\leq 0\)。利用 Howard et al. (2021) 的 sub‑Gaussian 时间均匀置信序列得到 p‑value

\[\widetilde{p}_i = \exp\!\left(-\frac{(S_i)^2}{2 \sum_{j=i}^n (Y_j \vee \tau) + \cdots}\right)\]
（细节略，核心是这个 p‑value 对任何停止时间皆有效：若 \(H_i\) 真，\(\Pr(\widetilde{p}_i \leq \alpha) \leq \alpha\)。）
多重检验：由于单调性，\(R\) 是上集，因此若拒绝 \(x_i\)（报告 \(f(x_i) > 0.5\)），则对所有 \(j > i\) 也必须拒绝。反之，若不拒绝 \(x_j\)（认为 \(f(x_j) \leq 0.5\)），则对所有 \(i < j\) 也不能拒绝。这就是 Gabriel (1969) 的 coherent 拒绝原则。
RISS 在该特例中的实现：将所有 p‑value \(\{ \widetilde{p}_1, \ldots, \widetilde{p}_n \}\) 从大到小排序（实际上根据 DAG 的偏序），然后找到一个最小的阈值 \(c\) 使得所有满足 \(\widetilde{p}_i \leq c\) 的点组成的集合恰为某个上集。等价地，可定义 \(\widehat{\theta} = \min\{ x_i : \widetilde{p}_i \leq \alpha \text{ 且对所有 } j < i, \widetilde{p}_j \leq \alpha \}\)，再拒绝 \((\widehat{\theta}, 1]\)。

要证明的事：
- 对任意 \(\alpha\)，\(\Pr(\widehat{\theta} > \theta) \leq \alpha\)（即拒绝集不含假阳性）。
- 若 \(1-\theta\) 远离零（真集较大），则 \(\mathbb{E}[|\widehat{\theta} - \theta|] \leq C n^{-1} (\log n)^{\gamma}\)。其中 \(n^{-1}\) 即为 minimax 最优速率（因为一维下通过估计一个跳点，参数速率可达 \(O(n^{-1})\)）。

为什么这是一个“最小内核”：
- 一般 \(d \geq 2\) 的情形不过是把一维区间推广为多维上集，p‑value 构造变成对每个点取“所有坐标分量≥它的”子格点的均值，minimax 速率变为 \(n^{-1/d}\)。
- DAG 从一条链变成更复杂的偏序格，但 coherent 拒绝算法（Meijer‑Goeman 的 DAG 树）本质上是将一维的阈值规则推广到多维（通过“局部最小值”逻辑）。

因此，读者抓住一元例子的思想，就掌握了整篇论文的核心数学操作。

三、这篇论文做了什么¶

三句话：
1. 研究在多元 isotonic 回归中，给定样本 \((X_i,Y_i)\) 和阈值 \(\tau\)，如何识别回归函数超过 \(\tau\) 的协变量子集 \(R\)，并同时控制 Type I error 和达到最优 power。
2. 提出的 RISS (Reject Isotonic Subgroup Selection) 程序将每个设计点处的假设 \(H_x: f(x) \leq \tau\) 构建为 DAG，对每个点用 martingale 构造 anytime‑valid p‑value，再按 Gabriel coherent 原则进行多重检验。
3. 主要理论贡献：(i) 非渐近均匀 Type I error 控制——\(\Pr(\widehat{R} \subseteq R) \geq 1-\alpha\)；(ii) power 边界 \(\mathbb{E}[|R \setminus \widehat{R}|] \leq C (\log n)^{\gamma} n^{-1/d}\)；(iii) minimax 下界 \(c n^{-1/d}\)，从而证明 RISS 在该意义下最优（至多对数因子）。

关键设定与假设（在第二节记号基础上补全）： - 设计：主要是固定 \(r\)-regular 格点（各方向格点数 \(m = \lfloor n^{1/d} \rfloor\)），也扩展到随机设计（假设协变量密度有界且 Lipschitz）。 - 噪声：\(\varepsilon\) 是 sub‑Gaussian，参数 \(\sigma\) 已知；对分类扩展假设二项噪声。 - 单调性：\(f\) 对每个坐标单调不减（弱增）。 - 信号强度条件：Power bound 要求存在 \(\delta > 0\) 使得在真上集 \(R\) 中，\(f(x) \geq \tau + \delta\)，且下界证明在较弱的条件下仍成立。
- 与已有文献的差异：相比现有 isotonic 估计工作（如 Han et al. 2017）只关心 \(\ell_2\) 风险，本文首次关注子集推断。相比多重检验工作（如 Ramdas et al. 2019），本文提供了如何从数据构造 p‑value 并保证同时有效性的具体操作。

主要结果（理论型，选最关键三个定理）：

Theorem 1 (Type I error control)：对任意 \(\alpha \in (0,1)\) 和任意单调 \(f\)，

\[\Pr\bigl( \widehat{R} \subseteq R \bigr) \geq 1 - \alpha,\]
其中概率基于数据生成。证明关键：每个点的 p‑value 在各自的零假设下是 super-uniform（\(\Pr(\widetilde{p}_x \leq u) \leq u\)），而 RISS 的拒绝集定义保证了只有当所有被拒绝点的 p‑value 都 \(\leq \alpha\) 时才可能产生假阳性；通过 union bound over 所有可能的上集（其实是在 DAG 结构上做 union bound），得到整体控制。
Theorem 2 (Power bound)：设 \(\delta > 0\) 且 \(f(x) \geq \tau + \delta\) 对几乎所有 \(x \in R\)。则存在常数 \(C, \gamma > 0\) 使得

\[\mathbb{E}\bigl[|R \setminus \widehat{R}|\bigr] \leq C\, (\log n)^{\gamma}\, \frac{1}{n^{1/d}}.\]
这里 \(|\cdot|\) 是 Lebesgue 测度。证明思路：对离 \(R\) 边界有一定距离（至少 \(\ell\)）的点，构造 p‑value 以指数速率衰减；然后通过测度论得到整体 bound。需要用到 Bullwinkle 不等式（Howard et al. 2021）来控制 p‑value 的尾部。
Theorem 4 (Minimax lower bound)：对任何满足 Type I error 条件（\(\Pr(\widehat{R} \subseteq R) \geq 1-\alpha\)）的估计量 \(\widehat{R}\)，存在单调函数 \(f\) 使得

\[\mathbb{E}\bigl[|R \setminus \widehat{R}|\bigr] \geq \frac{c}{n^{1/d}}.\]
证明采用构造性硬例子：取 \(f\) 为分段常数，\(R\) 是一个体积为 \(1/2\) 的上集，并利用 Le Cam’s method 或 Fano’s inequality。这一步表明 RISS 的 power 速率是最优的（至多对数因子差）。

证明路线与技术技巧（理论型必写，具体）：

整体路线：
对每个格点构造 p‑value：利用 Howard et al. (2021) 的 empirical Bernstein martingale。具体地，对给定 \(x\)，定义其“上锥” \(C(x) = \{ x' \in [0,1]^d : x' \geq x \text{ componentwise} \}\)。取所有位于 \(C(x)\) 内的设计点，计算累积和 \(S_n(x) = \sum_{i: X_i \in C(x)} (Y_i - \tau)\)。在零假设 \(H_x\) 下该和的上偏差通过一个 time‑uniform bound 控制，得到 p‑value \(\widetilde{p}_x\)。
组织 DAG：将所有格点按坐标偏序构成 DAG（\(x \preceq y\) 当且仅当每一坐标分量前者不大于后者）。由单调性，拒绝某一点蕴含拒绝其所有后继（DAG 中的“后代”）。这对应 Gabriel 的 coherent 性质。
多重检验算法（RISS 实现）：采用 Meijer & Goeman (2015) 的 DAG 序贯 reject 算法——从局部最小节点（没有前驱）开始，依次测试其 p‑value 是否小于临界值，若小于则拒绝该节点及其整个后代，否则继续。临界值通过 Bonferroni 类型调整保证 FWER。关键验证：由于 martingale p‑value 的 super-uniform 性质，该算法满足 Type I error 控制。
Power 分析：对每个在真集 \(R\) 内且离边界 \(\epsilon\) 以上的点，根据 Hoeffding 型不等式证明其对偶 p‑value 几乎肯定小于任意多项式阈值；然后对边界层进行积分，得到期望缺失测度 bound。
关键跳跃点：
Lemma 5：证明了 \(\widetilde{p}_x\) 的确是 p‑value（即使对依赖数据构造的上锥随机停时）。这依赖于 Howard et al. (2021) 的 empirical Bernstein 停时引理。难点在于噪声方差未知时需用样本方差替代，但仍保持 valid。
Proposition 1（多重检验的 FWER 控制）：论证 RISS 序列拒绝算法保持 coherence 且 FWER \(\leq \alpha\)。这里用到了 Gabriel (1969) 的“coherent test imply FWER control” 这一经典结论。
Lemma 8（幂尾部的指数衰减）：对于真集内的点，构造了下鞅并证明 \(\widetilde{p}_x\) 以指数速率趋于零。
技术技巧点名：
martingale / time‑uniform confidence sequence（Howard et al. 2021）——用于构造每个点的 p‑value。
empirical Bernstein 不等式——在未知方差下替代 Hoeffding。
DAG 闭包与拓扑排序——用于多重检验算法。
Gabriel (1969) coherent 原则——证明拒绝集自然形成上集。
Le Cam’s method——用于 minimax 下界。

真实例子：
论文第四节的“Fuel consumption dataset”——来自 UCI 的 Auto MPG 数据。使用两个协变量（重量 weight、加速度 acceleration），响应为 MPG（每加仑英里数）。设置阈值 \(\tau = 20\)（即希望找出 MPG > 20 的车对应的特征区域）。RISS 程序在格点设计下（20×20 网格）运行，输出一个被拒绝的上集。结果表明：该上集主要由重量轻且加速度大的车构成，符合直觉。对比方法：如果忽略多重检验，直接对每个点进行单次检验（无校正），会得到更大但含许多假阳性的区域。RISS 则更保守但保证了错误拒绝概率低于 5%。作者还展示了在协变量空间中画出 RISS 的拒绝边界，并与简单阈值法对比，凸显其形状约束带来的平滑性和可解释性。

🔎 结论是否比证明窄：
- Theorem 2 的 power bound 要求 \(f(x) \geq \tau + \delta\) 对几乎所有 \(x \in R\)，若 \(\delta\) 很小（信号弱），bound 中的常数 \(C\) 可能随 \(\delta\) 变大。本文未给出紧依赖，只说了“存在某个常数”。实践中若信号弱到噪声水平附近，power 会显著下降。
- 所有结果针对的是固定格点设计。虽然 Section 3.3 讨论了随机设计的推广，但条件更强（要求协变量概率密度有界且 Lipschitz），且未提供相同程度的 power 最小最大化证明。文中明确说“这些是初步结果，有待进一步研究”。
- 对分类响应和二项噪声的扩展（Section 3.4）只给出了 FWER 控制，没有给出 power 的minimax 界。作者在讨论中承认了这一点（“Extending the power analysis to these settings is an interesting direction for future work”）。

四、开放问题（点到为止，扎根具体语句）¶

弱信号下的 power 紧界：Theorem 2 的常数依赖于 \(\delta\)，但当 \(\delta \to 0\) 时，bound 退化很快。论文 Theorem 2 注释中写道“the constant \(C\) may depend on \(\delta\) in a way that we have not made explicit”。寻找在信号刚好等于 \(\tau\) 时的精确 minimax 率（可能涉及 \(n^{-1/(d+1)}\)？）尚属开放。
随机设计的更紧结果：Section 3.3 的随机设计扩展仅给出 FWER 控制，但 power bound 未与固定设计同样紧。论文明确说“we leave a full power analysis under random design for future work”。这需要一个关于协变量密度光滑性的更精细处理。
异质性治疗效应的理论保证：虽然 Section 5 展示了如何将 RISS 用于 HTE 设定（替代响应为估计的 CATE），但该部分本身不含任何有限样本理论。论文末段写道“the theoretical development for the HTE setting is beyond the scope of this work”。补上完整的 FWER 和 power 分析是一个自然方向。
与其他形状约束的结合：论文只利用了单调性。若假设函数为凸函数或 Lipschitz，是否可以类似构造 DAG？凸函数不诱导偏序，但可诱导其他形式的结构化假设。本文在结论中提到“we believe similar ideas could be applied to other shape‑restricted classes such as convex functions”，但未给出任何具体操作。

此外，读者可去核实：Deng, Han, Zhang (2020) 的工作（关于多元 isotonic 点态置信区间）是否可用于直接构造子群的置信区域？若可，其 power 如何与 RISS 比较？这没有出现在本论文的讨论中。

Maintained by 陈星宇 · Homepage · Source on GitHub