Bias-Aware External-Model-Assisted Inference in High-Dimensional Regression¶

作者: Hongzhe Zhang, Hanxuan Ye, Hongzhe Li
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: https://arxiv.org/abs/2606.15602

一、领域脉络与小综述¶

这个方向是什么¶

本文所解决的根本问题可以简述为：在高维半监督线性回归中，如何利用一个外部预测模型（如黑盒ML模型或迁移学习模型）和一个大型无标签协变量样本，来改善对稀疏回归系数β的推断（即构造更短的置信区间、更具统计功效的假设检验）。该问题的核心挑战是，外部模型可能是有偏的（biased）或噪音很大的，其直接输出不能直接用于推断。现有的主流框架“预测驱动推断”（PPI）依赖一个“校验器”（rectifier）来修正预测，但在线性模型中这一机制会失效（Proposition 1），从而无法利用外部信息。因此，该子方向当前的核心矛盾是：如何在保证推断有效性的前提下，从“方差”渠道（而非“均值”渠道）榨取外部模型和无标签数据的信息增益*。

发展脉络（History）¶

奠基工作：预测驱动推断（PPI）：Angelopoulos et al. [2023a] 的工作，建立在 Wang et al. [2020] 和 Motwani and Witten [2023] 的后预测推断思想之上，是当前解决“外部预测+少量标记+大量无标签”推断问题的通用框架。其核心思想是利用预测器在无标签数据上的输出形成初始估计，再用标记数据计算的“校验器”（rectifier）进行修正，以保证无论预测器质量如何，推断都是有效的。
主要进展：PPI++ 与交叉拟合：Angelopoulos et al. [2023b] 引入了一个数据驱动的权重ω来优化方差（即 PPI++），使得推断不会劣于仅使用标记数据的方法。Zrnić and Candès [2024b] 提出交叉预测驱动推断（cross-prediction-powered inference），解决了训练预测器需要占用标记数据的问题。
当前 Frontier 与本文位置：本文（Zhang, Ye, Li）工作的出发点是上述进展的一个结构性弱点：在(高维)线性模型下，这些“校验器”机制是失效的。Proposition 1 清晰表明，当模型和预测器都是线性时，PPI 退化为标记数据上的 OLS，无法利用无标签数据。PPI++ 同样失效。作者因此提出一种全新的机制——DEAL。它放弃从“均值”渠道（即使用校验器修正预测均值）入手，转向从“方差”渠道（即通过无标签数据增强debiased estimator的方差项）获取效率。这是与 PPI 系列最根本的差别。本文同时类似于 Keret and Shojaie [2025] 使用带统计特征的合成数据（AI-generated）进行推断，但后者是低维GLM，而本文是高维线性模型。

子线索聚类¶

线索1：面向低维参数的高维半监督推断：Chakrabortty and Cai [2018] 和 Zhang et al. [2019] 发展了在半监督设定下使用大量无标签协变量来改善低维泛函（如均值）估计的理论。本文工作不在低维泛函，而是直接在高维回归设定下进行坐标方向的推断，并允许外部估计器作为额外输入。
线索2：高维推断的矫正Lasso技术：van de Geer et al. [2014], Javanmard and Montanari [2014], Zhang and Zhang [2014] 奠定了使用debiased Lasso进行高维坐标推断的框架。本文的 Stage 4 最终去偏步骤直接建立在此之上，文章反复强调DEAL的效率提升是通过增强无标签数据的设计矩阵、进而影响去偏后估计量的方差。
线索3：高维迁移学习（外部估计器）：Li et al. [2022] 和 Tian and Feng [2023] 提供了从不同但相关领域迁移学习得到的高维估计器，并给出了ℓ₁误差率。文章将外部估计器视为一个黑箱，并假设Assumption 4只需要一个误差率(a₁, a₂)，涵盖包括TransLasso在内的各类方法。本文的核心步骤（Stage 1）通过交叉拟合的shrinkage参数ˆt自动适应外部估计器质量（从无用、有用到oracle）。

这个方向在追问的核心问题¶

外部模型的“无效”担忧：如何安全地将一个不可审计的、可能有偏的外部黑箱模型（如LLM、物理模拟器）整合进严格的推断框架，确保推断的有效性（coverage）不受污染？
效率瓶颈的突破：当已有方法（如PPI）在某些常见设定（如线性模型）下效率提升为零时，新的机制能否打破僵局，获得真正的增益？
对模型错误设定和协变量偏移的鲁棒性：当线性模型设定错误或未标记数据存在协变量偏移时，这些外部模型辅助机制还能否保持有效的推断？

⚠️ 作者的 Framing¶

作者把自己的缺口 frame 成什么？：作者的核心叙事是“PPI的rectifier机制在线性模型下结构性地无效”（Proposition 1），因此“真正的效率必须来自其他机制”（即方差渠道）。他们将DEAL定位为“显然的下一步”：通过将外部估计器灌入debiased estimator的方差（而非均值的rectifier），并加上一个bias-aware shrinkage来在三种regime（无用、类oracle、有偏但信息）自适应。这一框架将已有工作（PPI系列、矫正Lasso、迁移学习）融合成一个在“在线性模型下严格优于PPI”的统一解决方案。
什么明显该被引却没出现？：整个引言没有提及任何与低度多项式（low-degree）或SQ复杂性（SQ complexity）相关的统计-计算权衡的讨论。对于一个拥有大量无标签数据的外部估计器，无标签样本的增加会导致更强的假设（如bias条件(i)收紧），这隐含一个计算-统计权衡：使用更大的无标签样本需要外部估计器有更小的偏置。虽然文章（Section 4.5）通过数据驱动选择N来解决，但这个问题本质上是与“计算受限的统计问题”擦肩而过的。对于这位研究者（对statistical-computational tradeoff感兴趣），这是一个明确的有待填写的空白。

张力¶

未见明显对立引用。文章的结构是清晰的：批评PPI的弱点（Proposition 1）→ 提出新机制（DEAL）→ 新机制在理论上和实验中（Simulations, Real-data analysis）优于PPI。这更多是一个“差距填补”（gap-filling）而非“分歧调解”（resolving tension）。但一个潜在的张力在于：PPI的通用性（适用于任意M-estimator）与DEAL的特异性（专门为高维线性回归设计）之间的权衡。作者在Discussions中承认了这一框架的边界：“这些估计量是通用的估计方程方法...它们在DEAL定义的范围之外是正确的工具；在里面，DEAL是更锐利的工具。”这是对方法适用范围的诚实说明，也暗示了一种互补关系。

二、最小内核与最简例子¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
n₀: 目标域标记样本量。
p: 协变量维度（高维，p >> n₀）。
s: 真实回归系数β*的稀疏度（非零元素个数）。
N: 目标域无标签协变量的数量（通常可远大于n₀）。
X₀ ∈ ℝ^{n₀ × p}: 目标域标记数据中的协变量矩阵。
y₀ ∈ ℝ^{n₀}: 目标域标记数据中的响应变量向量。
X̃ ∈ ℝ^{N × p}: 目标域无标签协变量矩阵。
β* ∈ ℝ^{p}: 未知的真实稀疏回归系数向量（感兴趣的参数）。
ε₀ ∈ ℝ^{n₀}: 标记样本的随机误差，假设均值为0，方差为σ²。
β̂ᵉˣᵗ ∈ ℝ^{p}: 外部模型/估计器输出的估计量。
Σ: 总体协方差矩阵 Σ = E[XᵢXᵢᵀ]。
Σ̂₀, Σ̂∼, Σ̂ˢᵗᵏ: 对应样本协方差矩阵。
M₁, M₂ ∈ ℝ^{p×p}: Javanmard-Montanari (JM) 近似逆协方差（精度）矩阵。
∆ := β̂ᵉˣᵗ - β*: 外部估计器的误差。
C := n₀⁻¹ M₁ X₀ᵀ (y₀ - X₀ β̂ᵉˣᵗ): 一个step校正项。
t̂ ∈ [0,1]: 数据驱动的shrinkage量，用于在Stage 1调整对C的信任程度。
ξ: 伪标签噪音。
模型：目标域的响应y₀服从标准的稀疏高维线性模型： y₀ = X₀β* + ε₀，其中β*是稀疏的，E[ε₀ | X₀] = 0，Var(ε₀ | X₀) = σ²I_{n₀}。外部估计器β̂ᵉˣᵗ可以是任何东西，只需要满足一个高概率速率边界（Assumption 4），但它不能使用用于最终推断的目标标记响应（Assumption 5）。
可观测数据：
研究者能观测到：少量目标标记数据 (X₀, y₀)；大量目标无标签协变量 X̃；以及一个外部估计量 β̂ᵉˣᵗ（其训练数据不可知）。
研究者想要但观测不到：真实回归系数 β*，目标无标签数据的响应 ỹ，以及外部估计器的误差结构 ∆ 的具体值。

第二步：最小内核（最简特例）¶

最简特例：一维情形，p=1，忽略所有额外的一般性设定

设定：假设我们只有一个协变量（p=1），β* 是一个标量。我们没有无标签数据（N=0）。外部分量β̂ᵉˣᵗ是一个标量。我们得到少量标记数据 (x₀ᵢ, y₀ᵢ)，i=1,...,n₀。此时整个高维框架退化为一个最简单的OLS问题。
PPI的失败：
按照PPI公式(1)（简化为一维标量），PPI估计量为： β̂ᴾᴾᴵ = (Σ x̃ᵢ²)⁻¹ Σ x̃ᵢ β̂ᵉˣᵗ − [(Σ x₀ᵢ²)⁻¹ Σ x₀ᵢ (β̂ᵉˣᵗ x₀ᵢ − y₀ᵢ)] = β̂ᵉˣᵗ − [β̂ᵉˣᵗ − (Σ x₀ᵢ²)⁻¹ Σ x₀ᵢ y₀ᵢ] = (Σ x₀ᵢ²)⁻¹ Σ x₀ᵢ y₀ᵢ = β̂ᴼᴸˢ。这就是Proposition 1的精确结果。外部模型的β̂ᵉˣᵗ完全被抵消，PPI就只是标记数据的OLS估计。即使我们发现β̂ᵉˣᵗ就是真实β*，注入噪声的PPI的方差也比标记数据OLS的方差大。
DEAL的解决方案：
Stage 1 (Bias-Aware Initializer)：计算校正项 C = n₀⁻¹ (Σ x₀ᵢ²)⁻¹ Σ x₀ᵢ (y₀ᵢ - x₀ᵢ β̂ᵉˣᵗ)。 (简化: C = (Σ x₀ᵢ²)⁻¹ Σ x₀ᵢ ε₀ᵢ + b)。选择一个shrinkage t̂ ∈ [0,1]，构造初始器 β̃ᶦⁿⁱᵗ = β̂ᵉˣᵗ + t̂ C。如果β̂ᵉˣᵗ很糟糕（b大），则t̂会接近1。如果β̂ᵉˣᵗ是oracle（b=0），则t̂会接近0，从而避免注入噪声。这个t̂是通过交叉验证的proxy-risk规则（Lemma 2 & 3）从独立的tuning sample中估计的。
Stage 2 (Pseudo-label Imputation)：利用初始器为无标签数据生成伪标签 ξ̃ = x̃ β̃ᶦⁿⁱᵗ。
Stage 3 (Stacked Lasso)：堆叠标记和伪标记数据，求解一个Lasso回归，得到一个初始的稀疏估计 β̂。这个Lasso利用了N个伪标记数据，增加了新信息。
Stage 4 (Final Debiasing)：进行Javanmard-Montanari去偏。以类似的方式得到最终的无偏估计量 β̃。
结果：DEAL最终得到的是 β̃，其方差远小于仅用标记数据的OLS方差，这是因为伪标记数据增加了“有效样本量”。数学上（Corollary 2的简化），方差正比于 σ² / n₀，而DEAL的有效样本量 neff 大于 n₀，从而CI长度缩短，且有效性通过控制t̂保持。

这个小例子揭示了整篇论文的数学核心： 最基本的思路是将外部估计器作为初始点，通过shrinkage控制其影响，用一个大规模但可能有噪的伪标签数据集来“扩充”设计矩阵，从而在去偏步骤中获得更低的方差。PPI之所以无效，是因为它只是试图“修正均值”，而在线性模型下修正没有提供额外信息；DEAL则是通过“扩充设计矩阵”直接“压低了方差”。

三、这篇论文做了什么¶

三句话¶

研究问题：在高维半监督线性回归中，如何利用一个外部黑箱估计器 β̂ᵉˣᵗ 和大量无标签协变量 X̃，构造出比单纯使用标记数据的debiased Lasso更短、但仍保持名义覆盖率的置信区间。
核心工具/方法：提出了DEAL（Debiased External-model-Assisted Lasso） 算法，一个包含四个阶段的流程：通过交叉拟合的偏差感知收缩（bias-aware shrinkage，Stage 1） 来自适应地（在无用/有用/近乎完美的外部估计器间自动调节）初始化一个初始器；利用这个初始器为无标签协变量生成伪标签（Stage 2）；然后在一个堆叠的有标签和伪标签数据集上进行Lasso回归，从而获得一个利用外部信息和无标签样本的初始稀疏拟合（Stage 3）；最后通过Javanmard-Montanari类型的去偏（Stage 4）获得坐标方向的正态性。
主要结论：在标准条件下，DEAL构造的置信区间严格优于（更短）仅用标记数据的debiased Lasso，在线性模型下也严格优于PPI和PPI++（后两者退化为标记数据的debiased Lasso）。其方差是自适应的，可以匹配外部估计器质量（Theorem 2, Corollary 1）。该结果在模型误设定、非线性标签函数和协变量偏移等复杂设定下仍然成立（Section 6）。真实数据的6个应用（天文、材料、蛋白组学、肿瘤学）验证了其CI长度是debiased Lasso的0.23到0.53倍。

关键设定与假设¶

Assumptions 1-3 (高维稀疏线性模型基础)：
设计矩阵行是i.i.d. sub-Gaussian的（允许高维），其协方差矩阵Σ特征值有界，满足限制性特征值（RE）条件。噪声sub-Gaussian。这种sparsity scaling条件（s log p / n₀ → 0）是标准的。
Assumption 4 (外部估计器率)：
假设外部估计器β̂ᵉˣᵗ的误差Δ在ℓ₁范数下有界（∥Δ∥₁ ≤ a₁），在Σ̂₀的预测范数下有界（∥Σ̂₀^{1/2}Δ∥₂ ≤ a₂）。相比现有文献，这是一个通用的速率假设，不要求外部估计器是某个特定方法（如TransLasso），只要该假设成立即可。这使得DEAL非常灵活。
Assumption 5 (外部独立性)：
外部估计器β̂ᵉˣᵗ与执行最终推断的标记数据的噪声ε₀条件独立。这是一个合理的假设，保证了推断的有效性。
Assumption 6 (JM精度矩阵性质)：
Javanmard-Montanari矩阵（M₁, M₂）满足∥M̂Σ̂ - I∥{max} = O(µ)，并在ℓ₋∞范数下保持有界。这是debiased Lasso分析中的标准条件，保证去偏步骤的可靠性。相比已有文献，这里没有特别放宽或加强，而是严格遵循了Javanmard & Montanari [2014]的框架。
Assumption 7 (调优块偏差平衡)：
用于选择t̂的调优样本的两个交叉块之间，其偏差不能差异过大。这是一个技术性假设，使得t̂能够一致地估计tuning-scale下的代理最优t*。它不是slack，而是完成论证的必要环节。

主要结果¶

Proposition 1 (PPI在校正失效)：
陈述：在线性模型下，PPI估计量与OLS估计量恒等（Proposition 1公式）。
直觉：预测器的残差位于X的线性跨度内，被标记数据完全决定了，PPI的校验器没有提供任何额外信息。
技术难点：它是全文的出发点，本身很简单，但极其关键，它完美论证了为什么“必须寻找新的机制”。
Theorem 1 (Stacked Lasso 率)：
陈述：在适当的λ下，Stacked Lasso估计量β̂的ℓ₁误差以4sλ/φ为界，in-sample预测误差以9sλ²/φ为界（Theorem 1）。
直觉：这个速度分解为三个部分：标准Lasso率σ√((log p)/(n₀+N))；来自初始噪声的项(N/(n₀+N)) t̂√(log p/n₀)；来自初始偏差的项(N/(n₀+N)) bₙ。只要后两项是低阶的，率就能恢复到样本量为n₀+N的Lasso率，实现了效率提升。
必要条件：堆叠设计的RE条件成立，以及两个伪标签项的低阶性。通过使用bias-aware shrinkage（t̂）和可容许的无标签大小选择（Section 4.5），满足了低阶条件。
Theorem 2 (最终去偏估计的中心极限定理)：
陈述：在特定条件下，√(n₀+N) (β̃ⱼ - β*ⱼ) ⇒ N(0, τ²ⱼₙ)，其中τ²ⱼₙ是自适应的方差（Theorem 2）。
直觉：最终的β̃ₓ可以被线性化为√(n₀+N) (β̃ⱼ - β*ⱼ) = (1/√(n₀+N)) Σᵢ (x₀ᵢᵀ Aₙ⁻ᵀ M₂ᵀ eⱼ) ε₀ᵢ + oₚ(1)，其中Aₙ包含了N、t̂和X̃的信息。
技术难点：证明这个线性化表达式，难点在于处理伪标记噪音\(\xi\)的不同组成部分（g_{pl,G}和g_{pl,R}），并证明它们在乘以√(n₀+N)后是渐近可忽略的。条件(i) √(n₀+N) ∥r(t̂)∥∞ → 0和(ii) √(n₀+N) µ₂ sλ → 0就是为了控制这些误差项。
与已有文献对比：它的方差形式τ²ⱼₙ非常特别。在已知精度矩阵的基准下，方差之比 G(κ, t₀) 能显式地展示DEAL的效率增益：
- Corollary 1：Var(β̃ⱼ)/Var(̂βⱼ) = ((1 + t₀κ)/(1+κ))²，其中κ = N/n₀。这是一个非常清晰的界面：当t₀ < 1时，增益是严格的；当t₀ = 0（外部估计器是完美的）时，增益达到最大（1/(1+κ)²）。这个公式将外部估计器质量和无标签数据量直接映射到效率提升上。

证明路线与技术技巧¶

整体路线（4步）：
Stage 1 (Bias-Aware Initialization)：从外部估计器β̂ᵉˣᵗ出发，计算其与目标数据的偏差项C，并通过独立的调优样本估计shrinkage t̂。核心引理(Lemma 1-3)证明C = b + Z₁，并且t̂收敛到与其对应的最优代理t*，实现对偏差的aware处理。
Stage 2 & 3 (Pseudo-label Generation & Stacked Lasso)：使用β̃ᶦⁿⁱᵗ为X̃生成伪标签 ξ̃。然后构造堆叠数据(Xˢᵗᵏ, yˢᵗᵏ)，并求解一个Lasso，得到β̂。证明这部分的核心是the effective score bound (Lemma 5)，它证明∥g∥₊₊∞有界，且其界包含了标记数据噪声、伪标签噪声和初始偏差。Theorem 1统一了这些项。
Stage 4 (Final Debiasing & CLT)：利用另一个JM矩阵M₂进行去偏，得到β̃。decompose the score into g = g_{lab} + g_{pl,G} + g_{pl,R}。Theorem 2证明，在线性化表达式中，剩下的唯一主导项是标记数据中的噪声Σᵢ (x₀ᵢᵀ Aₙ⁻⁻ᵀ M₂ᵀ eⱼ) ε₀ᵢ，且该项在整个√(n₀+N)尺度下是渐近的，验证其服从CLT。
自适应N选择：Section 4.5 提供如何不把N选择为无限大、而是通过一个可容许cap和数据驱动的方差平衡点来选择一个有限N，以保证√(n₀+N) ∥r(t̂)∥∞ → 0仍然成立。这对整条证明路线至关重要。
关键跳跃点：
Lemma 5 (Effective Score Bound)：这是堆叠Lasso理论分析的入口。难点在于将三个不同来源的噪声（标记噪声、外部估计器初始化和伪标记噪音）纳入一个统一的∥g∥∞界中。作者使用sub-Gaussian tail bounds和JM矩阵的最大元控制，成功地将这三个来源分离出来。
Theorem 2 (CLT for Final Debiased Estimator)：最大的跳跃在于将√(n₀+N) (β̃ⱼ - β*ⱼ)表示为“标记数据噪声项的加权和 + 可忽略的余项”。关键在于识别出Aₙ因子，它包含了I_p + (t̂ N / n₀) (Σ̂∼ M₁)的信息，这在统计上允许外部数据通过方差渠道影响结论。条件(ii)和条件(i)就是用来压制余项。
技术技巧点名：
Javanmard-Montanari (JM) 精度矩阵：用于高维形变矫正(debiased Lasso)。这使得高维坐标推断在p ≫ n₀时成为可能。M₁, M₂的构造和性质（Assumption 6）是整个证明的基础。
Cross-fitted Shrinkage：通过交叉验证（两个独立的tuning blocks）来估计shrinkage量t̂，保证了t̂独立于最终的推断步骤，避免数据泄漏。文中使用“proxy risk”来解释问题（Proposition 2）。
Empirical Process / Concentration Inequalities：用于证明Lemma 5、Theorem 1和论文中各种范数收敛。
U-Statistics-like Expansion：将其核心的线性化表达式（例如√(n₀+N)(β̃ - β*)）与U-statistics的高阶展开有类似之处。尤其是当β̂ᵉˣᵗ本身是估计量时，对g_{pl,G}（X̃和Z₁组成的项）的分析需要处理这种双二次型，类似于两个独立样本的U-统计量。

真实例子与实证¶

数据与场景：论文包括6个真实的、跨学科的例子：天文（Galaxy Zoo，识别螺旋星系）、无机材料（带隙预测）、蛋白组学（心血管风险评分）、乳腺癌化疗应答、患者源异种移植研究（PDXE）和基于大模型驱动的肿瘤药物反应预测。
如何应用：在每个例子中，都有一套少许标记的黄金标准响应（n₀在105到3347之间），大量未标记协变量（N在259到10,000之间），以及一个外部预测器（从fine-tuned模型、DFT计算到LLM）。
结果：表6总结了结果。DEAL在所有6个案例中都产生了更短的CI，其CI长度在debiased Lasso长度的0.23到0.53之间。PPI++的CI几乎没有收缩。通过bootstrap选择稳定性测试（bootstarp selection stability），DEAL发现的可信特征更稳定。在材料例子中，DEAL的发现是唯一在hold-out样本上具有泛化能力（R²=0.47）的，而PPI++和debiased Lasso的发现是负泛化（R²为负）。
想说明什么：
DEAL的效率提升不依赖于外部估计器的准确性。例子中的预测器相关性从0.09（蛋白组学，几乎没用）到0.87（材料，接近完美），DEAL都产生大幅收缩。这表明效率确实来自未标记设计（variance channel）而非预测。
控制实验（Table 7）证实了这一点：如果打乱预测器输出（破坏其预测能力），DEAL的CI几乎退回到DL（除了一个案例），证明了效率增益是真实的（goodsignal），而非人为伪像。
DEAL可以处理“不可审计”的外部来源（如LLM）。

📎 结论是否比证明窄¶

结论更窄的维度：最突出的例子是Corollary 1（第一性原理效率基准）。其中描述的精致方差公式G(κ, t₀)=((1+t₀κ)/(1+κ))²是在“已知M₂=Σ⁻¹和M₁=Σ⁻¹”的理想化基准（oracle-precision benchmark）下才成立的。作者在Remark 5中清晰地指出：“Assumption 6并不提供这一结果。它是oracle regime下的一个基准极限，而非实际估计器的性质。”因此，严格来说，Theorem 2才是实际工作定理，它保留了依赖于样本的Sandwich形式；实际方差可能偏离这个简洁的公式。用户（研究者）必须注意到这个差距。理论证明了一个相对稳健的Sandwich CLT，但对于一个更广的用户来说，他们可能会错误地认为在实际中总是得到那个优美简单的公式。
结论被宽松推广的维度：在Section 6中，作者声称模型误设定和非线性标签器下的有效性“维持”。确实，Theorem 3和Corollaries 8和9证明了在修改后的假设下，CLT是成立的。然而，所需要的额外假设（如Assumptions 11-14，关于子指数尾部，线性化的Lasso收敛率和特定的ℓ₂速率M₂ᵀeⱼ - Σ⁻¹eⱼ）是相当精细且不易检查的。实践者可能会将此解读为“DEAL对模型误设定完全鲁棒”，但实际上，它要求外部标签器的线性投影误差是可忽略的（Assumption 13，δ_{lin}[μ̂]很小），这对一个通过LLM之类的东西升级的通用黑箱预测器来说并不自动成立。结论比证明窄，但比一个无限的claim要窄。

四、开放问题（扎根论文具体语句）¶

其他目标泛函（非坐标推断）的类似机制：论文的框架非常具体地移植到了高维线性模型的逐坐标推断（βⱼ）。本文的Theorem 2和CLT形式都指向个体坐标。一个自然的问题是：能否为更复杂的低维泛函（如预测风险、平均处理效应、或更一般的线性/二次泛函）发展类似的“方差渠道”辅助机制？这植根于论文的局限性讨论：Section 9, "Two features of the construction bound its scope... The second concerns the machinery. The interval-length dominance (Corollary 10) is purchased with the apparatus of the high-dimensional sparse-linear regime"。
非稀疏（dense）高维设定下的DEAL：论文的核心假设是β*是稀疏的（Assumption 3: s log p / n₀ → 0）。很大一部分高维现代问题是非稀疏的（例如信号分布是幂律或厚尾）。在这样的设定下，Lasso是无效的，押注于ℓ₁惩罚的DEAL也会失效。如何为密集或弱信号的高维回归构建一个“方差驱动的”外部模型辅助推断框架？这植根于亮线假设Assumption 3和2关于sparsity的要求。
在非线性潜在结果模型（如因果推断中的广义线性模型）中的DEAL：本文的模型是线性的（y = Xβ + ε）。虽然在Section 6扩展到非线性链接函数，但投影到“最佳线性预测器”上。对于概率模型（如logistic 回归）是正确的模型（即真正的S形链接），PPI的rectifier可能不会完全失败（因为残差不再在X的线性跨度中）。DEAL能否适应这一更广泛且真正混乱的真实设定，还是PPI会成为合理的选择，尚待探究。这直接来自论文引言："...DEAL is the sharper one inside [the regime DEAL is defined]; outside it, PPI remains the right tool."。这构成一个明确的“当PPI在非线性模型中有效、而DEAL尚未被验证时”的张力和研究点。
统计计算权衡的提升：当N非常大时（Section 4.5讨论的），即使t̂很小，bias项√(n₀+N)∥r(t̂)∥∞也可能变大，从而要求使用更小的N或更好的外部估计器。这是在“更低计算成本（无限大无标签数据）”和“统计效率”之间的一个权衡。这是一个被本文作为一个实际问题来处理（通过数据选择N），但还没有作为“统计-计算”理论（例如，对低度多项式/SQ硬度的证明）而探索的问题。它提供了一个过渡：从“技术选择N”，到探索“在给定计算预算N下的最小信息bootstrapping率的严格下界”。这定位在 Section 4.5, "the accuracy requirement... tightens as the unlabeled count N grows" 以及 Remark 2，其中提到ℓ₂的控制与高维设置不兼容。

Maintained by 陈星宇 · Homepage · Source on GitHub