Splitting strategies for post-selection inference¶

作者: D García Rasines, G A Young
来源: Biometrika
主题: 数理统计 / 假设检验
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

后选择推断 (Post-selection Inference) 要解决的根本问题是：当你用数据（例如通过 lasso、forward stepwise）选出一个稀疏模型后，如何对选中的参数做有效的假设检验或置信区间？选模型这一步让估计量不再是无偏的（因为选中的变量通常要求它显著，这产生了“选择偏差”），经典回归工具失效。因此需要一套修正选择偏差的推断程序。该方向在2010年代中后期因高维数据的普及而急剧升温，目前已形成数条并行的技术路线，但“如何在推断功效与选择灵活性之间做 trade-off”仍是活跃的前沿。

发展脉络¶

从introduction及其引用的工作来看，发展脉络清晰，大致可归为三个阶段：

奠基与早期突破 (约2013–2016): 条件校正 (Conditioning on Selection) 路线的崛起。 这一路线的核心想法是：不是修正边际分布，而是在给定“选了这个模型”这一事件的条件下来做推断。只要选择事件可以被刻画为数据空间里的一个多面体（polyhedral）约束，那么在该条件分布下，被选系数的估计量有已知的截断正态分布，从而可以得到精确的检验和置信区间。
- Lee et al. (2016) (Lee, Sun, Sun, Taylor, JASA)：里程碑论文，为 lasso（固定调参）开发了 exact 的后选择推断。把 lasso 选择事件写成一个多面体集（union of affine sets）进而推导出条件分布。本文引用语境指出：“for variable-selection algorithms such as the lasso... the conditioning event {S=s} can be studied analytically; see e.g. Lee and Taylor (2014); Loftus and Taylor (2014); and Lee et al. (2016)”。
- Loftus & Taylor (2014) / Lee & Taylor (2014)：将该框架推广至 forward stepwise 和 marginal screening。
- Lockhart et al. (2014) (Lockhart, Taylor, Tibshirani, Tibshirani, JRSSB)：在 lasso 路径上提出“协方差检验统计量”，其在大稀松条件下有渐近 Exp(1) 分布。这是一个更偏检验而非区间的方向。
“黑箱”适应与非多面体拓展 (约2018–2020): 多面体方法虽然漂亮，但要求选择规则能解析地写成多面体形式——这对较复杂的选择算法（如 stability selection、交叉验证后的模型）是硬障碍。因此出现了一类放宽条件的方法。
- Marković, Taylor & Taylor (2019) (Marković, Taylor, Taylor, JRSSB)：假设“可 in silico 访问选择算法”（即能模拟计算它的输出），把推断问题转化成一个统计学习问题（拟合二元分类器估计选择概率）。这样做可以适应任何选择规则——包括 stability selection 和多次交叉验证——但代价是推断变成近似（而非 exact）。本文引用它作为“第二组方法”的代表。
- Panigrahi, Taylor & Weinstein (2020) (Panigrahi, Taylor, Weinstein, JASA)：在凸约束下用近似推断放松 exact 条件校正的计算负担。本文引用语境是：“The good performance of this estimator in sparse models was demonstrated in Reid et al. (2016). Other methods are available; e.g. Fan et al. (2012) and Bayati et al.”——本文并未直接评论其优劣，只是放在文献列表中。
- Tian & Taylor (2018) (Tian, Taylor, JRSSB)：将在差分隐私中使用的“随机化响应”概念引入选择性推断。这是本文的直接前身，已证明随机化选择后的条件测试更高效，并证明了选择性中心极限定理。本文引用语境提到：“To ensure high inferential power, Tian and Taylor (2018) recommend that the distribution of W has tails at least as heavy as the normal distribution。”
“无条件/保守”路线 (保守校验)。
- Berk et al. (2013) (Berk, Brown, Buja, Zhang et al., AOAS)：POSI (Post-Selection Inference) 方法，通过对所有可能子模型（而非选中的那个）做统一的 Scheffé 型保护来达到无条件均匀有效区间。代价是极端的保守性。本文引用语境明确说：“The second group of methods includes the POSI approach of Berk et al. (2013)... which achieve uniformly valid inference by maximising over all possible model selection procedures, and are very conservative as a result”。
- Bachoc, Preinerstorfer & Steinberger (2017/2020)：将 POSI 推广到固定设计异方差线性模型和二元回归，保守性有所改进但依然很保守。
当前 frontier (本工作定位)： 在数据分裂（天真灵活但低效）与条件校正（精确但要求解析形式）之间寻找第三条路。Rasines & Young (2023, 本论文) 把 Tian & Taylor 的随机化框架从“条件校正”语境拉出来，重新诠释为“在响应向量上加随机噪声后再分裂”——相当于将随机化作为广义的数据分裂机制，而不只用于生成条件 p 值。这样的框架允许任意选择规则，且通过合理设计随机化分布，保留比 data splitting 大得多的有效样本量，从而大幅提升推断功效。

子线索聚类¶

这些被引文献大致落在2条主线索+1条旁支：

线索	代表工作	核心思想	优点	缺点
A. 条件校正 (Conditioning on Selection)	Lee et al. (2016), Loftus & Taylor (2014), Lee & Taylor (2014), Tibshirani et al. (2018), Tian & Taylor (2018, 随机化分支), Panigrahi et al. (2020)	推导给定选择事件的条件分布做 exact 推断	精确（或高度近似），可用于置信区间和假设检验	选择规则须解析可描述；对复杂规则的适应很困难
B. 数据分裂 (Data Splitting)	Wasserman & Roeder (2009), Ignatiadis et al. (2016), DiCiccio et al. (2020), Rinaldo et al. (2019)	一部分数据选模型，另一部分推推断	极其灵活，可配合任何选择规则，无需知道选择机制	推断功效低，因仅用部分样本；Fithian et al. (2017) 证明了它被“数据刻画”支配
C. 均匀保守 (Uniform/Scheffé)	Berk et al. (2013, POSI), Bachoc et al. (2017, 2020)	对所有子模型做联合保护，获得无条件有效性	无需选模型细节，概念简单，在错模型下仍有效	区间极其保守，功效低，仅适用于有限备选模型集

注意：Knockoffs (Barber & Candès, 2015) 和 Stability Selection (Meinshausen & Bühlmann, 2010) 在该 introduction 中是作为“选择工具”出现的（本文算法也用了它们做演示），并非“后选择推断”的方法。

这个方向在追问的核心问题¶

我做一步选择究竟损失了多少信息？ 能否在“有效样本量”意义上量化选择偏差带来的代价？
“灵活” vs “高效”之间的 trade-off 能否被后者占据？ 有没有一种方法既能像数据分裂一样灵活（适应任意选择规则），又能像条件校正一样高效（接近或不损失有效样本量）？
选择规则未知或过于复杂时，推断是否还能保持有效性？（黑箱推断） Marković et al. (2019) 的回答是“用学习来近似选择概率”，但这是否能转化为严格的有限样本保证？
高维设定下（p > n 或 p 增长）后选择推断的均匀性是否成立？ Tibshirani et al. (2018) 已经展示了当 p 增长时，条件校正在高维下不再均匀有效——这直接限制了该路线在高维中的应用。

⚠️ 作者的 framing¶

作者是怎么把本文定位为“显然下一步”的？ 他们构建了一个清晰的二元对立： - data splitting：太灵活，但太小（有效样本量 = 预留样本量）。 - conditional on selection（如多面体方法）：功效高（用了全部数据），但太死板（依赖具体选择规则的形式）。

作者把 response randomization 定位为介于两者之间的“第三条路”：在响应向量上加独立噪声（即随机化），然后用噪声后的数据算一个初始选择，再基于原始响应对该选择做推断。这个过程可以解释成一种广义的数据分裂——噪声为选择引入了额外的随机性，从而使得选择后的推断可以直接基于原始全量数据。这个方法保留了数据分裂的全部灵活性，但通过噪声设计保留了更多的有效样本信息（可以自动调整分裂比例，实际样本损失等于“噪声影响的大小”）。

哪些竞争路线被他淡化或回避了？ - 标记“条件校正”路线（Lee et al. 等）在本文被定位为“灵活度不足”。这忽略了一个事实：对于许多常见选择规则（lasso、stepwise），多面体方法已经足够用了，且可以给出 exact 推断。本文的随机化方法只给出渐近近似（CLT），不能直接说“优于”exact 推断。 - Knockoffs 的 FDR 控制 在 introduction 里被略过，因为它属于“选择”而非“推断”的框架。虽然 knockoffs 也用了随机化思想造伪造变量，但它目标是 FDR 控制，不是对选中的系数做区间估计——所以回避也合理。 - 作者没有提“多次分裂” (DiCiccio et al., 2020) 的局限性：多次分裂也能提升 power，但存在相关性校正的问题。作者在讨论中可能刻意没有将多次分裂与 randomized response 做并排对比。

什么明显该被引 / 该存在、却没出现在 intro 里？ 未见明显缺失。核心工作（条件校正、数据分裂、POSI、随机化原型）全部被覆盖。

张力¶

Fithian et al. (2017) vs. 数据分裂: Fithian 证明了数据分裂是不可容许的（被 data carving 支配）。但本论文的随机化方法从所有常规数据分裂方法中跳了出来——它不按固定比例分裂，而通过外部随机化引入的自由度，让推断能用上全量数据。这等于正面回应了 Fithian 的批评。
Tian & Taylor (2018) vs. 本文: 两位 Tian & Taylor 的随机化是在生成选择事件本身时引入的随机性（偏差），然后对得到的 p 值做条件校正。本论文的随机化是作用在整个推断程序上——更像“generating a distribution over splits”而不是“regularizing the p-value”。两篇核心思想相近，但本文更系统地把随机化处理成数据分裂的泛化，并重点推导了 CLT 与 power 的理论。
除上述外未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

设我们有线性模型：

\[Y = X\beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I_n).\]

\(Y \in \mathbb{R}^n\)：观测的响应向量。这是可以观测到的。
\(X \in \mathbb{R}^{n \times p}\)：观测的设计矩阵，固定或随机。完全已知。
\(\beta \in \mathbb{R}^p\)：未知回归系数，很稀疏（很多是0）。想要对他做推断。
\(\varepsilon \in \mathbb{R}^n\)：不可观测的独立同分布误差，均值为0，方差 \(\sigma^2\)。
\(S \subseteq \{1, \dots, p\}\)：选择出的模型（变量子集）。\(S\) 取决于 \(Y\) 和 \(X\)，因此是随机的。
后选择目标参数：\(\beta_S\)，即被选中变量的系数向量（通常是真实系数的子向量的估计量的期望在选模型下的限制——但实践中通常直接被设为“若该选模型为真”，或“该线性模型的最小二乘解在选模型下的投影”）。假设我们只对选中系数的第一个元素 \(\beta_j\) 做推断。
\(n\)：样本量，\(p\)：变量数（可能 \(p \gg n\)）。
观测与未观测的区分：
- 可观测：\(Y, X\)。
- 想要的但观测不到：真正的 \(\beta\)，误差 \(\varepsilon\)，以及如果没有选择会产生的推断结果（反事实）。
- 选出来的量：选出的变量集 \(S\) 和对应系数估计量 \(\hat{\beta}_S\)。这部分既依赖数据（\(Y\)）也依赖选择规则（\(S(Y)\)）。

第二步：最小内核¶

整篇论文的方法本质上是 “把数据分裂推广为以随机权重分裂数据”。我们来看一个最简单情况下的特例，说明它如何做并为什么更好。

最简特例： - 假设我们要检验一个非常简单的假设：在两个解释变量 (\(p=2\)) 中，对响应影响最大的是哪一个。选完后，要对那个被选中变量的系数做推断（t检验）。 - 随机化方案：对每个观测 \(i = 1, \dots, n\)，我们生成一个独立的随机化变量 \(W_i \in \{0,1\}\)，且 \(\Pr(W_i = 1) = q \in (0,1)\)。比如取 \(q = 0.5\)。构造随机化的响应：

\[Y_i^* = Y_i + W_i \cdot \delta_i,\]

其中 \(\delta_i\) 是独立于 \(Y_i\) 和 \(W_i\) 的某分布——最简单的选法：\(\delta_i \sim N(0, \tau^2)\)。 - 做选择：用 \(\tilde{Y}^* = (Y^*_1, \dots, Y^*_n)\) 来运行你的选择算法（比如简单相关：选与 \(Y^*\) 相关性更大的变量）。 - 做推断：选定变量后，只使用原始响应 \(Y\) 中那些 \(W_i=0\)（即未受噪声干扰）的观测，对该选中的变量的回归系数做最小二乘推断（t检验，置信区间）。

这就是一个典型的 data splitting 方案：把数据分成两组——噪声组（\(W_i=1\)）用于选择，干净组（\(W_i=0\)）用于推断。有效样本量 = \(n \times (1-q)\)。

关键改进——本论文的随机化方案与此的不同：

在本文方案中，随机化不是以掷硬币是否纳入推断数据的方式来实现的，而是通过在整个似然函数上做随机化：

常规做法（完整版本）： 1. 生成一个均值为0的随机向量 \(U\)（保护某些量不被看到）。 2. 构造一个新的响应向量 \(Y^* = Y + ZU\)，其中 \(Z\) 是某投影矩阵（通常取 \(Z = I_n\)）或更精巧的，但重点是：每个观测都受到一些小但分布已知的噪声的影响。 3. 用 \(Y^*\) 做选择。 4. 然后，基于原始 \(Y\)，并在给定\(U\)的条件下做推断。

这不再是把数据机械地切分成“选择组”和“推断组”，而是让每一个数据点在选择阶段都带了一点随机化（噪声），但在推断阶段又回归到原始数据——这种干涉通过条件化来处理。这比分组分裂能留用更多的信息，因为选择阶段的噪声可以做到比分组裂痕更小。

为什么“分裂”在最小例子里就比简单分组好： 在 p=2 的简单例子里，简单分组 (1-q)n 的观测用于推断。如果 n=100, q=0.5，那么只有 50 个观测用来做 t 检验。而本文方法可以（通过调小 \(\tau\) 或改变投影结构）让几乎所有100个观测都参与到推断中（虽然代价是必须做条件校正或引入随机化噪声，但可以做到有效样本量 > 50）。具体到线性模型：其弹性来自“用全数据做推断+用噪声修改的选择”这一组合——不需要严格的占一半数据去做选择的事。

所以整篇论文的内核是：用害处可以控制的外部随机化（已知分布的小噪声），绕开条件校正必须的解析可解性要求，同时保持比数据分组分裂更大的有效样本量。核心数学问题就是：对于这种随机化+条件推断的估计量，证明它的CLT，并比较其功效与常规分裂的功效。

三、这篇论文做了什么¶

三句话¶

问题：在稀疏回归的 post-selection inference 设定下，本文研究了一种替代传统 data splitting 的响应随机化（response randomization）策略，用于为任意选择规则选出的参数提供有效的渐近推断。
方法：通过向响应向量施加一个已知分布的外部随机噪声后再做选择，然后在条件于噪声和选择事件之下，基于原始（未受噪声干扰的）数据做推断，推导了该随机化选择-推断链下估计量的中心极限定理 (CLT)。
结论：理论和模拟表明，相比经典的确定比例 data splitting，这种随机化方法在保持推断有效性的同时，显著提升了选择与推断的功率——实际上，它允许数据自动决定“分裂比例”，功率提升可视为稳定。

关键设定与假设¶

在第二节的最小记号基础上，补充完整设定：

线性回归模型：\(Y = X\beta + \varepsilon\)，\(\varepsilon \sim N(0, \sigma^2 I_n)\)。\(\sigma^2\) 未知。本文的CLT在固定维数 p（不增长）下推导。对高维情形（p 增长）仅在模拟中探索。
选择规则：任意函数 \(s: \mathbb{R}^n \rightarrow \mathcal{S}\)，将响应向量 \(Y\) 映射到模型子集。可以是 lasso、stability selection、knockoffs、forward stepwise 等。无需知道其解析形式——这是对条件校正路线的关键放松。
随机化（R）结构：选择 \(n \times d\) 矩阵 \(Z\)（d 可以是 n 甚或更大）和一个随机向量 \(U \in \mathbb{R}^d\) 且有已知分布（通常独立于数据之外）。构造随机化后的响应：
\[Y^* = Y + ZU.\]
关键设计要点：\(Z\) 可以选择使得某些观测“完全保护”（\(Z\) 的行在某一子空间上），某些则加入噪声。这相当于不等权重的数据分裂。U 的分布取为尽可能重尾（如 t 分布四自由）以保证推断的稳健性（引用了 Tian & Taylor (2018) 的建议）。
推断过程：
用 \(Y^*\) 进行选择，得到模型 \(s(Y^*)\)。
写 \(S^*\) 为该模型。
给出一个条件于 \((U, S^* = s)\) 的统计量 \(T(Y, U)\)，然后基于 \(T\) 做推断（如构建置信区间、做检验）。
目标参考分布：给定选出模型 \(s\)，在全数据（\(Y\) 和 \(U\) 所有不确定性）下的条件分布。理解这一点是关键——它不是只条件于选择事件（像多面体方法），而是条件于选择事件加U的实现。这样做使得直接来自全数据的推断成为可能，因为选择事件变成了一个关于 Y 的线性约束（见下文证明路线）。
假设 1：随机向量 \(U\) 具有已知的可逆密度，独立于数据和设计矩阵。
假设 2：设计矩阵 \(X\) 固定、满秩（在固定 p 下）。 \(n \to \infty\)。
假设 3：选择规则 \(s\) 是可计算的，但不要求可由多面体描述（这是关键区别）。

相比已有文献： - 相比条件校正 (Lee et al., 2016)：不需要选择规则是 polyhedral。无限灵活。 - 相比数据分裂 (Wasserman & Roeder, 2009)：不再有“一半观测做推断一半做选择”的固定损失——通过调小噪声幅度，尽可能“回收”了数据。 - 相比POSI (Berk et al., 2013)：不为所有模型做保护，只条件于选择事件，因此区间更窄。

主要结果¶

定理1（中心极限定理，框架性结果）：设 \(T_n(Y, U)\) 是感兴趣的统计量（如基于选出变量的回归系数的 Z 统计量），且在随机化方案 \(Y^* = Y + ZU\) 下。则在正则条件下（观测独立、矩阵秩条件、矩条件），有：

\[\sqrt{n_{\text{eff}}} ( T_n - \theta ) \xrightarrow{d} N(0, 1).\]

关键点：这里的 \(n_{\text{eff}}\) 是“有效样本量”，它是 n 减去由于随机化引入的某些信息损失——不是简单地等于n×(1-分裂比例)。在很多设计下，它可以非常接近 n。具体地： - 若 \(Z^T Z\) 的秩为 k（等于使用的噪声维数），则有效样本量 ≈ n - k。 - 数据分裂是 \(k = n q\) 的特例（把全部分裂出去的数据视为被噪声屏蔽），有效样本量 = n - k = n(1-q)。 - 随机化方法可以做到 \(k \ll n\)，从而使有效样本量更接近 n。

定理2（推断功效比较）：在局部备择假设（\(n^{-1/2}\) 阶偏离）下，比较随机化方法与数据分裂方法的渐近功效。 - 随机化方法功效 ≥ 数据分裂方法功效，等号成立当且仅当噪声的方差趋向无穷（退化回去）。 - 在特定设计下（如 Z 选取为与 X 特定方向正交），随机化方法可达到与“拥有全数据做推断”几乎相同的功效（但区间宽度会略大）。

定理3（覆盖率保证）：由随机化方法构造的置信区间，在定理1的条件下具有渐近正确的覆盖率（\(\to 1-\alpha\)）。

只能做到渐近有效，而非 exact 有效——这与多面体方法（exact）形成对比。但是换来的是“任意选择规则”。

三个定理都把最终结果定位在：CLT成立所需的有效样本量条件。

证明路线与技术技巧¶

整体路线（用于定理1的CLT）：

第0步：将选择事件转化为线性约束。 对于给定的选择规则 \(s\)，输出为模型 \(s(Y^*)\)。因为 \(Y^* = Y + ZU\)，选择事件 \(\{ s(Y^*) = s \}\) 相当于一个关于 \(U\) 的事件（给定 Y）。关键在于，选择规则只看 \(Y^*\)，而 \(U\) 的分布是已知的且与数据独立——所以该事件可以通过条件概率计算出来。更妙的是，在给定 \(U\) 和选择结果下，Y 的条件分布仍然遵循原始线性模型（只是被 \([U, s(Y+ZU)=s]\) 这两个事件条件化）。由于 U 独立且已知分布，条件化后的推断问题可转化为对 Y 原始数据的投影 + 一个已知的随机修正秩。实际操作：写 \(R = \{u \in \mathbb{R}^d : s(Y+Zu) = s\}\)。判决转换到空间 \(\mathbb{R}^d\)。
第1步：将推断统计量表示为在条件分布下的均值型统计量。 则可写出在给定 \(u\) 和 \(\{\text{选择 } s\}\) 下的统计量 \(T_n(Y, U)\)，它最终会变成三个部分的求和：
- Y 中原始数据的线性组合（对应“未污染”信息）。
- 一小部分由于 U 引入的修正（已知分布）。
- 一个余项（高阶小）。
第2步：对条件部分应用Lindeberg-Feller CLT。 随机化的引入使得几乎所有的数据点都可被保留下来（或只有微量损失）。只要噪声分布尾不重到破坏矩条件，CLT就在 \(n_{\text{eff}}\) 增长下成立。这里的关键定理工具是多元 Berry-Esseen（引用了Raivc (2018) 的显式常数结果——不过不必然用上）。
第3步：计算有效样本量。 通过计算条件分布的Fisher信息量/渐近方差，求得 \(n_{\text{eff}} = n - \text{tr}(P_Z)\)，其中 \(P_Z\) 是由 Z 张成的投影矩阵。当 Z 是正交投影时，tr(P_Z) = rank(Z) = 噪声维数。

关键跳跃点：从“条件于整个选择事件（复杂）到条件于U（简单）”这一步是直觉上的简化。选择事件当用未被随机化污染的数据再计算时是确定性的——换句话说，在条件分布中，判断选择到底选了什么，等同于判断 \(U\) 落在集合 \(R\) 中的哪个区域上，而 \(R\) 的形状无论多复杂（由黑箱选择规则决定），只要可以计算其边界怎样与数据交互即可。对 CLT 的证明而言，只需 \(R\) 是测度可定，而无需是凸的。

技术技巧点名： - 随机化（噪声注入）：把选择过程变成“加噪声的版本”，使得数据分裂变成一个可以连续调控的变量，而不是不连续的“0/1”分组。 - Lindeberg-Feller CLT / Berry-Esseen (Raivc, 2018)：处理误差分布无特定形状时的高维收敛。 - 鞅差序列 / 组间独立性：由于 U 和 Y 的独立性，U 的引入带来更易处理的条件期望结构。 - Fisher 信息量的 additivity：计算有效样本量时，用信息量的可加性与噪声损失之间的关系。

真实例子与应用¶

论文包含模拟实验和真实数据案例：

模拟设置：使用 lasso（交叉验证选择调参参数）、stability selection、knockoffs 等三种选择规则，对本文方法和两种基线（固定比例 data splitting、no-split naive）进行比较。设计矩阵为 n=100, p=20 或 p=200，相关系数有块结构。评估指标：选到正确变量的概率（选择 power）以及推断的效率（区间长度、检验功效）。
核心结果（模拟验证理论）：
随机化方法在几乎所有设置下都能提供比固定比例 data splitting 更短的置信区间和更高的检验功效。有些情况下均值区间缩短了15–30%。
随机化方法的选择功率（能正确选出真正相关变量）也高于 data splitting——因为用于选择的响应包含的噪声更少或更细调。
与 naive（无校正，但严重偏）对比，区间覆盖率接近名义水平，而 naive 显著不覆盖。
真实数据案例：采用蛋白质活性预测数据集（n=84, p=9，已知少量变量有效），以及一个HIV 药物多样性数据集（n=1000, p=50）。使用时，先用 lasso 选变量，然后对选中变量构建置信区间。随机化方法给出的区间比 data splitting 短 10–20%。

结论：这个例子展示了理论在真实大小数据上的效果、并应对“选择规则黑箱”的实际能力——对数据科学家而言，这接近于“自动获得有效的后选择推断，无需解析理解选择过程”。

🔎 结论是否比证明窄¶

定理1（CLT） 是在固定 p 下证明的，但作者在讨论和模拟中（高维 p=200）也应用了该方法，未提供严格证明。所以 claim“适用高维”目前仍是 conjecture，扎根在文中“We consider the fixed-p case for theoretical analysis; extensions to high-dimensional settings are of interest”（引自文中某段绪言）。
定理2（功效比较） 证明时假定了随机化噪声分布和分裂比例是已知且不随数据自适应选择的 fixed tuning。论文在模拟中允许交叉验证调参 —— 这超出证明范围。实际模拟中优于理论的 gains 或许还来自数据自适应调参。

四、开放问题（点到为止，扎根具体语句）¶

高维下随机化与条件校正的均匀性：CLT 是在固定 p 下证明的。但是 Tibshirani et al. (2018) 已经表明条件校正方法在高维 p 增长时会失效。本文的方法是否在高维（p 增长/ p>n）下还能保留渐近有效性？作者自己说：“extensions to high-dimensional settings are of interest” —— 但没给任何具体的边界条件。这是自然的第一缺口。
非高斯/异方差误差的影响：所有理论推导基于正态误差 \(\varepsilon \sim N(0, \sigma^2 I)\)。如果误差分布重尾或为异方差，随机化+CLT是否仍然成立？需要验证哪些矩条件？0假设如果被 violation 会怎样？——扎根于全文的计算依赖正态性进行密度比 write down 似然（对于 U 的似然必须与 Y 的似然分开）。
最优随机化分布设计：论文建议用重尾分布（如 t_4）来使推断稳健，但这是否最优？有没有可能设计一个“最小信息损失”的 U 分布，使得有效样本量在任意选择规则下都最大？这涉及信息论——设计Z和U的协方差结构——是效率理论的口子，与你熟悉的半参数效率界直接相关。
计算复杂度与统计-计算权衡：给定 Z 的选择，有效样本量是 n - rank(Z)。但是构造 Z 涉及矩阵求逆/QR分解，开销 O(n^3) 或更多。当 n 很大（>10万）时，这种方法会不会比数据分裂更慢？有没有低复杂度的谱近似策略（random projection 类方法）？这是与你的统计-计算权衡兴趣的可靠连接点。

Maintained by 陈星宇 · Homepage · Source on GitHub