Uniform Confidence Bands for Infinite-Dimensional Partially Identified Parameters¶

作者: Shunsuke Imai, Yuta Okamoto
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.21224

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在部分识别（partial identification）的设定下，如何对参数构造有效的统计推断（置信集）。所谓部分识别，即目标参数的真值无法被观测数据唯一确定，而只能被限制在一个已知的识别集（identified set）内。其核心统计挑战在于：最终置信集不仅要覆盖观测采样不确定性，还要恰当处理识别集本身的宽度带来的推断问题——识别集越大，对临界值的要求就越接近单侧推断，反之则更接近经典双侧推断。目前，针对有限维（scalar 或 vector）部分识别参数的置信区间方法已经成熟（以 Imbens-Manski (2004) 为代表性工具），但推广到无限维（函数、分布）部分识别参数的同时推断（uniform confidence band）仍是开放问题。

发展脉络¶

奠基工作：针对标量部分识别参数的精确置信区间
- Imbens and Manski (2004)：提出了一种关键洞察：置信区间覆盖的计算依赖于识别集长度的大小。若识别集几乎退化（接近点识别），则适用双侧临界值；若识别集宽度远大于抽样不确定性，则覆盖概率主要由识别集端点处的一侧偏差决定。该区间避免了使用传统双侧临界值带来的过度保守性，成为后续研究的基础。作者指出：“The key insight underlying their construction is that the length of the identified interval affects the relevant coverage calculation.”（第 2 页）
- Stoye (2009)：进一步澄清了 Imbens-Manski 置信区间的覆盖性质，并对其原始程序进行了改进和细化。作者引用其为：“More recently, Stoye (2009) further clarifies the coverage properties of the Imbens–Manski confidence interval and develops refinements of the original procedure.”（第 2-3 页）
主要进展：向低维向量参数的推广
- Frandsen and Pond (2025)：将 Imbens-Manski-Stoye 类型的置信区间从标量参数推广到了向量值参数。作者表述为：“More recently, Frandsen and Pond (2025) extends the Imbens–Manski–Stoye confidence interval to vector-valued partially identified parameters.”（第 3 页）这是从一维到有限多维度的重要桥梁。
当前 Frontier 与并行的主脉络：基于矩不等式的推断
- 这是一个平行的、更宏大的文献脉络，通常也处理部分识别，但核心关注点是从一组矩不等式（moment inequalities）推断出一个参数集。
- Andrews and Soares (2010) 和 Rosen (2008)：针对有限个矩不等式，提出了基于广义矩选择和统计检验的推断方法。
- Chernozhukov, Chetverikov and Kato (2016)：建立了非中心经验过程（non-centered empirical process）上确界的高斯近似和乘子自助法的理论基础。这是本文的核心技术基石，它允许函数类可能不属于 Donsker 类，从而能处理更加复杂的、依赖于样本大小的索引集和可能非光滑的设定。
- Chernozhukov, Chetverikov and Kato (2019)：将推断程序扩展到大量（远多于样本量）的矩不等式，且能涵盖在额外假设下的无限维参数。作者指出其是“complementary to our approach”，但强调本文方法“exploits the same endpoint structure that underlies the Imbens–Manski confidence interval”，因此更锐利（sharper），代价是更高的计算量（第 3 页）。
本文的位置
- 本文填补了文献中的一个明确缺口：将已被广泛应用的 Imbens-Manski-Stoye 类型推断，从有限维参数空间提升到无限维参数空间（如函数或分布）。它并未创造全新的推断逻辑，而是在两个成熟框架（Imbens-Manski 端点结构调整 + Chernozhukov et al. (2016) 非Donsker类经验过程近似）之间架起了一座精确的桥梁。其核心贡献在于证明了：基于端点结构的不等式，可以在无限维且非 Donsker 类的设定下，通过乘子自助法构建一致有效的统一置信带。

子线索聚类¶

线索 1：Imbens-Manski-Stoye 类型的端点法（Endpoint-based approach）。这条线直接处理“识别区间”的两端。核心洞见是，根据识别区间的长短，自适应地在单侧和双侧临界值之间切换。代表作：Imbens & Manski (2004), Stoye (2009), Frandsen & Pond (2025)，以及本文。它们的共同特点是：锐利（sharp），即置信区间或带的宽度会因识别集的局部结构而自适应。
线索 2：矩不等式方法（Moment inequality approach）。这条线将部分识别问题转化为一组（通常是大量的）不等式约束。代表作：Andrews & Soares (2010), Rosen (2008), Andrews & Shi (2014), Menzel (2014), Chernozhukov et al. (2019)。其特点是：通用（general），可以处理复杂的模型，但推断方法可能不如端点法锐利（更保守）。
线索 3：半参数/非参数效率理论。Lee et al. (2017) 和 Imai et al. (2026) 处理 CATE 函数的双重稳健统一置信带，但他们假设的是点识别（unconfoundedness）。这些工作为本文提供了目标参数（如 CATE）的背景，但识别假设不同。Fan & Park (2010) 和 Firpo & Ridder (2019) 等直接讨论处理效应分布的部分识别，但惯于进行点wise而非 uniform 推断。

这个方向在追问的核心问题¶

如何自动平衡识别不确定性（bounds width）与采样不确定性？这是“端点法”的核心。
如何将有限维的端点推断思路，在保持锐利性的前提下，推广到无限维函数空间？（本文回答：利用经验过程理论在非Donsker类下的高斯近似）。
如何将乘子自助法或解析近似法应用于无限维识别集，并证明其 uniform validity？（本文主要回答了乘子自助法）。
如何在无限维设定下，有效处理端点识别区域宽度（Δ_n(x)）的不一致？例如，某些x处的Δ_n很大，某些x处接近于0（点识别边缘）。该问题会剧烈改变局部推断的性质。

⚠️ 作者的 Framing（必须明确标注成“这是作者的说法”）¶

作者认为的“显然的下一步”：作者在 Introduction 中明确说：“In the absence of a general inference procedure for infinite-dimensional partially identified objects, applied work has often relied on pointwise inference. This paper is intended to fill this gap.” （第 3 页）他们将本文定位为填补“无限维端点法”缺失的关键拼图。
作者淡化了什么：作者坦白地指出，他们的乘子自助法实现方式计算成本高，因为需要求解一个关于 \(v \in \{0,1\}^\mathcal{X}\) 的复杂上确界（公式 1，即 \(\hat{c}^{\text{fIM}}_n := \sup_{v \in \{0,1\}^\mathcal{X}} \hat{q}^*_n(v)\)），并展示了未来关于轻量级计算方法（解析临界值、网格细化）的 ongoing work（第 3 页 Remark on ongoing work）。他们也将自己的方法与 Chernozhukov et al. (2019) 的矩不等式方法做了对比，强调自己的方法是互补且更锐利，但代价是更高的计算量。
什么明显该被引/该存在、却没出现在 intro 里：Intro 中没有提及任何关于 数值积分或张量网络 来评估其 bootstrap supremum 的相关文献，尽管该 supremum 本身是一个复杂的高维优化问题。然而，有一个潜在的关键建构性 gap：该文目前未讨论如何具体计算 \(\sup_{v \in \{0,1\}^\mathcal{X}}\)。对于一个连续（或大网格）的 \(\mathcal{X}\)，这是一个指数搜索空间。作者承认这是个问题（Remark on ongoing work），但并未引用背包问题、分支定界或者像 tensor-network 用于表示 high-order statistics 那样的组合优化文献。

张力¶

未见明显对立引用。Chernozhukov et al. (2019) 的矩不等式方法和本文的端点法是互补关系，而非竞争关系。张力存在于这两条路线的方法论哲学上：前者更通用（覆盖范围广），但可能保守；后者更锐利，但计算复杂度高且必须结构化成识别区间。本文尽管在处理无限维，仍然属于锐利但昂贵的端点法这一侧。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

在展开本文的全部技术细节之前，先给出所有核心符号的定义。

符号:
- \(x \in \mathcal{X}\): 某个索引变量（例如，协变量值、时间点、处理水平），属于一个集合 \(\mathcal{X}\)（可能连续，无限大）。
- \(\theta(x)\): 目标参数，是一个关于 \(x\) 的函数（例如，\(x\) 为协变量时的 CATE 函数）。这是无限维的。
- \(\theta_{l,n}(x;F)\) 和 \(\theta_{u,n}(x;F)\): 识别集的下界和上界函数（理论上在总体分布 \(F\) 下）。对于每个 \(x\)，真值 \(\theta(x)\) 被保证落入 \([\theta_{l,n}(x), \theta_{u,n}(x)]\)。下标 n 表示识别集的宽度依赖于样本量的（通常因为假设 \(\sqrt{n}\Delta_n(x) \rightarrow \Delta^*(x) \in [0, \infty]\)）。
- \(\Theta_n(x) := [\theta_{l,n}(x), \theta_{u,n}(x)]\): 单个点 \(x\) 的识别区间。
- \(\Delta_n(x) := \theta_{u,n}(x) - \theta_{l,n}(x)\): 识别区间在点 \(x\) 处的宽度。
- \(\hat{\theta}_{t,n}(x)\) (\(t \in \{l,u\}\)): 识别集端点 \(\theta_t(x)\) 的估计量（基于样本量 \(n\)）。
- \(\sigma_{t,n}(x) := \sqrt{n \cdot \text{Var}[\hat{\theta}_{t,n}(x)]}\): 假设估计量的方差以 \(O(1/n)\) 的速度衰减，\(\sigma_{t,n}(x)\) 是与点 \(x\) 处标准误相关的量。
- \(r_n\): 估计量的收敛速率（通常 \(r_n = n\) 或 \(n\) 的幂次）。
- \(v(x) \in \{0,1\}\): 一个关键的“方向”指示变量。当 \(\theta(x)\) 充分接近下界 \(\theta_{l,n}\) 时，\(v(x)=0\)；充分接近上界 \(\theta_{u,n}\) 时，\(v(x)=1\)。这部分区隔了单侧与双侧推断。
- \(G_n(t, x)\), \(B_n(t, x)\): 经验过程量，将覆盖条件转化为一个非中心的经验过程上确界。
- \(c^{\text{fIM}}_n\): 理论临界值（population critical value），定义为“在所有可能的 \(v\) 函数的 worst-case 覆盖下，保证覆盖率 \(1-\alpha\) 的那个分位数”。
- \(\hat{c}^{\text{fIM}}_n\): 基于乘子自助法计算出的 经验临界值（empirical critical value）。
模型: 数据生成过程：我们观测到 i.i.d. 样本 \(\{X_i\}_{i=1}^n\)，来自某个总体分布 \(F \in \mathcal{F}\)。核心模型是识别集模型：存在已知（或可一致估计）的界函数 \(\theta_{l,n}\) 和 \(\theta_{u,n}\)，使得对任意 \(F \in \mathcal{F}\)，真值 \(\theta(x)\) 落入 \([\theta_{l,n}(x;F), \theta_{u,n}(x;F)]\)。我们通过样本 \(X\) 来估计这些界。CATE 部分识别可以作为一个典型的例子：不假设 unconfoundedness，但在一些弱假设下（比如条件性工具变量或分位数限制）我们可以对上界和下界推导出一组 moment inequalities。
可观测数据：我们能观测到的是样本数据。基于这些数据，我们可以构造：
- 可观测估计量：\(\hat{\theta}_{l,n}(x)\)， \(\hat{\theta}_{u,n}(x)\)（即端点估计量）。
- 可观测方差估计：\(\hat{\sigma}_{t,n}(x)\)。
- 最终，想要得到的是 \(\hat{CI}^{\text{fIM}}_n(x) := [\hat{\theta}_{l,n}(x) - \hat{c}^{\text{fIM}}_n \hat{SE}_{l,n}(x), \hat{\theta}_{u,n}(x) + \hat{c}^{\text{fIM}}_n \hat{SE}_{u,n}(x)]\)。“想要但观测不到”的量是识别集的结构：我们不知道 \(\Delta_n(x)\) 相对于 \(\sqrt{n}\) 是否趋于无穷（即点识别）、趋于常数（宽识别）还是 0（点识别边界）。最后，\(v(x)\) 的真值也观测不到。

第二步：讲最小内核¶

核心问题：如何从 Imbens & Manski (2004) 的一维标量推断推广到无限维？

最简特例：只在 \(x=1\) 这一个点做推断。 如果 \(\mathcal{X}\) 只包含一个点，比如 \(\mathcal{X} = \{1\}\)，就被视作仅有一个标量参数。此时，模型退化为： * Target: \(\theta \in [\theta_l, \theta_u]\). * Width: \(\Delta\). * Estimators: \(\hat{\theta}_l\), \(\hat{\theta}_u\).

在这个特例下，Imbens & Manski (2004) 一文的结论直接适用。但是，如果 \(\mathcal{X}\) 有2个点，比如说 \(x=1\) 和 \(x=2\)，那么它就是 Frandsen & Pond (2025) 的情形。此时，Frandsen & Pond 提出要做同时推断（joint inference），并且这个 joint 推断的 v （即由 \(v(1), v(2) \in \{0,1\}\) 产生的 4 种情况）给出了一个显式的临界值。

将这一思想扩展到无限维 \(\mathcal{X}\) 上的最小内核是什么？ 去掉一切高阶技术假设后，本文核心要解决的数学难题是：如何将“由 Imbens-Manski 端点法导出的对覆盖概率进行自动调整”的逻辑转化为一个统一的 Gaussian process supremum 结构，并仅通过乘子 bootstrap 来逼近这个 supremum 分布的 \(1-\alpha\) 分位数。

具体地，覆盖条件可以改写为以下形式（见论文 Lemma 1 的证明开头）：

要使 \(\theta(x)\) 落在置信带 \(\hat{CI}^{\text{fIM}}_n(x)\) 中，对每一个 \(x\)，需要同时满足两个不等式，它们分别惩罚上界和下界的误差。通过论文中的变换（将 \(\theta(x)\) 写成 \(\theta_{l}(x) + v(x)\Delta(x)\)），这两个约束可以写成：

\[\max\left\{ \frac{\sqrt{r_n} (\hat{\theta}_{u}(x) - \theta_u(x))}{\sigma_u(x)} - \frac{\sqrt{r_n} (1 - v(x)) \Delta(x)}{\sigma_u(x)} \;,\; \frac{\sqrt{r_n} (\hat{\theta}_{l}(x) - \theta_l(x))}{\sigma_l(x)} - \frac{\sqrt{r_n} v(x) \Delta(x)}{\sigma_l(x)} \right\} \leq c.\]

然后对 \(x\) 取上确界 \(sup_{x \in \mathcal{X}}\)。此时，不等号左边变成了一个由检验函数 \(\tilde{\psi}_{t,x}\) 索引的 非中心 经验过程，其中心偏移项为 \(B_n(t,x) \propto \sqrt{r_n} \cdot \Delta(x)\)。此处的困难有两点： 1. 这个非中心项 \(B_n(t,x)\) 依赖于 \(v(x)\)，且如果 \(\sqrt{r_n} \Delta(x)\) 是一个未知的常数（有界），则这一项会显著影响推断；如果 \(\sqrt{r_n} \Delta(x) \to \infty\)，则该项退化导致纯粹的单侧推断。本文需要推导出对任意可能的 \(v\) 函数的 worst-case 覆盖。 2. 由 \(\tilde{\psi}_{t,x}\) 索引的函数类不是 Donsker 类的可能性，这导致传统基于 Donsker 定理的经验过程 bootstrap 失败。Chernozhukov et al. (2016) 的框架彼时登场，它允许非中心项和大而可能非 Donsker 的函数类。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：如何为无限维部分识别参数（一个函数）构造统一置信带（uniform confidence band）。
核心工具/方法：使用 乘子自助法，显著利用 Chernozhukov et al. (2016) 关于非中心经验过程上确界的高斯近似理论（适用于可能非 Donsker 的函数类），并将其与 Imbens-Manski-Stoye 的端点推断结构相结合。
主要结论：论文证明了，在包括 VC-type 类、高信噪比等合理假设下，所提出的基于乘子自助法的置信带在均匀渐近有效性意义上成立，其有限样本近似误差以定理形式（通过 \(K_n(F)\)， \(r_1(F)\)）被量化。

关键设定与假设¶

在第二节最小记号基础上补全完整设定：

设定：目标参数 \(\theta(x)\) 落在已知区间 \([\theta_{l,n}(x), \theta_{u,n}(x)]\)，这两个界函数均有 \(n^{1/2}\) 相合估计量和渐近线性表示（Assumption 1(i)）。
Assumption 1: 对应 Stoye (2009) 的无限维推广： (i) 估计量 \(\hat{\theta}_{t,n}\) 拥有一致尺寸的渐近线性表示（influence function），uniformly over \(x \in \mathcal{X}\) 和 \(F \in \mathcal{F}\)。 (ii) 标准误 \(\sigma_{t,n}(x)\) 一致有界远离 0 和 \(\infty\)，且 \(\hat{\sigma}_{t,n}(x)\) 是 \(\sigma_{t,n}(x)\) 的一致相合估计。 (iii)排序条件：以概率 1，对所有 \(x\) 我们有 \(\hat{\theta}_{u,n}(x) \ge \hat{\theta}_{l,n}(x)\)。这是端点法的重要前提（下界不可能超过上界）。
Assumption 2: 对应 Stoye (2009) 对 \(\Delta_n(x)\) 行为的要求。它引入一个序列 \(k_n\) 使得 \(k_n\to 0\) 但 \(\sqrt{n}k_n \to \infty\)，并划分 \(\mathcal{X}\)：
- 窄识别区：\(x\) 满足 \(\Delta_n(x) \le k_n\)（在该区域，采样不确定性几乎与识别宽度可比，需要用完整的两侧结构决定 critical value）。
- 宽识别区：\(x\) 满足 \(\Delta_n(x) > k_n\)（该区域，局部双侧推断退化）。
Assumption 4 (Chernozhukov et al. (2016) 框架)：关键的“非 Donsker 类”条件： (i) 函数类 \(\tilde{\Psi}\) 可分。 (ii) 指示函数类是 VC-type，且其包络（envelope）满足矩条件。 (iii) 对 \(\tilde{\psi}_{t,x}\) 的矩条件假设（2-4阶矩、\(q\) 阶矩，类似于用较大的 \(b(F)\) 控制尾行为）。 (iv) 复杂度条件：\(K_n(F)^3 \le n\)，其中 \(K_n(F)\) 是类 \(\tilde{\Psi}\) 的对数熵（log entropy），保证 \(n\) 充分大以克服高维熵。
Assumption 5: 对 Gaussian approximation 的有效性给出进一步的正则性条件，要求 \(K_n(F)\) 的增长速率能通过 \(n\) 被“控制到综合误差 \(o(1)\)”。
Assumption 6: 对 bootstrap 的实现同样适用 Chernozhukov 框架，要求比 Assumption 5 稍强的收敛条件以保证 multiplier bootstrap 的一致相合性。

主要结果¶

定理 1 (Uniform Validity of Confidence Band): 在 Assumption 1-5 下，本文构造的置信带满足全局的渐近覆盖性质：
\[\liminf_{n\to\infty} \inf_{F\in\mathcal{F}} \inf_{\theta \in \Theta_n(F)} P_F\big( \theta(x) \in \hat{CI}^{\text{fIM}}_n(x) \; \forall x \in \mathcal{X} \big) = 1-\alpha.\]
这是本文的核心理论结果：不仅保证了 coverage，且是均匀的（uniform） over \(F\) 和 \(\theta\)，即 worst-case 下也是渐近正确的。
定理 2 (Validity of Multiplier Bootstrap Critical Value): 在 Assumption 1, 4, 5, 6 下，通过乘子自助法构造的临界值 \(\hat{c}^{\text{fIM}}_n\) 是理论临界值 \(c^{\text{fIM}}_n\) 的一致估计量，从而可用于实际推断。

直觉：定理 1 的证明将 coverage 转化为一个非中心经验过程上确界的 cdf。Chernozhukov et al. (2016) 的结果保证：即使 \(\sqrt{n}\) 阶的函数类（如由 \(\tilde{\psi}_{t,x}\) 构成的类）是非 Donsker 的，只要其对数值熵满足 \(K_n(F)^3 \le n\) 等条件，该过程的 supremum 分布就被在一个 \(O(r_1(F))\) 的近似误差内由 Gaussian 过程逼近。进一步地，对任意的 \(v\)，\(c^{\text{fIM}}_n\) 的本质是 Gaussian process supremum 的 \(1-\alpha\) 分位数。由于所有结果 uniform over \(F\), 所以整体 worst-case coverage 趋近 \(1-\alpha\)。

证明路线与技术技巧¶

整体路线：证明路径分为下面几条线，它们并行支撑了 Theorems 1 & 2:
1. Coverage 转化为经验过程形式（Lemma 1 及其证明开头）：将 \(\theta(x) \in \hat{CI}\) 的约束条件重写为以 \(\tilde{\psi}_{t,x}\) 索引的非中心经验过程 \(G_n(\tilde{\psi}_{t,x})\) 的上确界小于某个巴氏距离的函数。关键跳跃：他们引入了一个二值函数 \(v(x) \in \{0,1\}\)，如果 \(\theta\) 远离某个端点，相应的 \(B_n\) 就变常数。这完整地捕捉了 Imbens-Manski 的调整公式。
2. Gaussian Approximation（Lemma 1 后半）：利用 Chernozhukov et al. (2016) 的定理 2.1，证明了 an empirical process \(G_n(\tilde{\psi}_{t,x}) - B(\tilde{\psi}_{t,x})\) 的 supremum 能被对应的 Gaussian process \(G(\tilde{\psi}_{t,x})\) supremum（经偏移 \(B\) 后的）在 \(L_1\) 或 Kolmogorov 距离下近似。这需要 Assumption 4 和 5。近似误差为 \(O(r_1(F)) \to 0\)。
3. Worst-case over \(v\)（证明的后半部分）：根据 \(\Delta_n(x)\) 的尺寸（\(\le k_n\) 或 \(> k_n\)，由 Assumption 2 定义的两个区域，Case 1 & 2），分别论证了最劣的 \(v\) 必然对应于 \(v(x) \in \{0,1\}\) （极值情况），而不是 \([0,1]\) 区间内的值（利用 Gaussian 密度的 log-concavity）。这体现了为什么 worst-case 置信度是由端点（即 \(\{0,1\}^\mathcal{X}\)）主导的。
4. Bootstrap consistency（定理 2）：证明 Multiplier bootstrap 给出的 \(\hat{c}^{\text{fIM}}_n\) 一致地逼近 \(c^{\text{fIM}}_n\)。这借鉴了 Chernozhukov et al. (2016) 的定理 2.2，证明了 bootstrap supremum 和原始 Gaussian supremum 的分布接近。所有最后的核心结论写成了两种过程之间 supremum 计算误差的高概率 bound。
关键跳跃点：
- 如何把“推断的识别区间”转换成一个由 \(\tilde{\psi}_{t,x}\) (influence functions) 索引的非中心经验过程，是整个分析建模中最吃劲的一步。
- 如何在“猜想中”证明当识别宽度巨大（\(\Delta_n(x) > k_n\)， Case 2）时，劣化的 \(\theta\) （极点效应）依然可以被 Imbens-Manski 临界值有效控制，而不必依赖于高阶 Bootstrap 量。
- 最值得注目的技巧是引入了定义 \(\Theta_n(F)\) 和最关键的不等式：
  \[\inf_{v \in [0,1]^\mathcal{X}} P_F [stuff] = \inf_{v \in \{0,1\}^\mathcal{X}} P_F [stuff]\]
  这个等式和 Gaussian 过程的 log-concavity 特性是 Infinite-dimensional 情境下最重要的技术抓手。
技术技巧点名：
- Empirical process / Chaining / 对数熵：处理 \(\mathcal{X}\) 上无限多个点带来的均匀覆盖问题，利用 VC-type 类和对数熵 \(K_n(F)\) 控制复杂性和近似误差。
- Chernozhukov et al. (2016) 的 Gaussian Coupling 框架：核心技巧，允许非 Donsker 类、非中心项下的经验过程被 Gaussian 过程以明确的界逼近。
- 高斯过程的 log-concavity：关键的推导步骤，证明 \(\inf_{v\in[0,1]^\mathcal{X}}\) 退化到 \(\inf_{v\in \{0,1\}^\mathcal{X}}\)。
- Multiplier Bootstrap：构造 critical value 的方法。
- Berry-Esseen / Uniform CLT（在 Lemma 2 被暗示用于证明 \(\sqrt{n}\hat{\Delta}_n \to \Delta^\star\) 的一致性质）。

真实例子与应用¶

本文为纯理论论文，无任何实证例子（real data application / 模拟实验）。提及其正在进行模拟研究（Remark on ongoing work：“Future revisions will establish the theoretical validity of these approaches and compare their finite-sample accuracy … through simulations”）。

🔎 结论是否比证明窄¶

是的，必须指出以下几点明显被弱化或加额外假设的地方： 1. 计算实施没有在理论上被完成。论文的定理2证明的是：一个“理想化的” bootstrap 分布与理论 Gaussian supremum 接近。但实际计算 \(\hat{c}^{\text{fIM}}_n = \sup_{v \in \{0,1\}^\mathcal{X}} \hat{q}^*_n(v)\) 所需的最优化过程完全没有得到理论上的保证。对于任何实际令 \(\mathcal{X}\) 较大（例如数百个点）的情况，搜索 \(\{0,1\}^\mathcal{X}\) 空间是不可行的。作者仅将其作为 future work 提及，这相当于将应用的核心计算挑战留给了后续。 2. 理论分析被假设“v的维数有界”或不显著所回避。在 Assumption 2(i)，他们定义一个 \(k_n\) 使得 \(\sqrt{n} k_n \to \infty\)；在“宽度大”的区域（Case 2 的 \(D_m(F)\)），Bootstrap 近似在某些“不影响渐进分布”的端点被降低。这一分析大量利用了“宽度趋于无穷”这一性质（让其单侧推断有效），但对 “\(\sqrt{n}\Delta(x)\) 有界但不为0” 这种最难处理的边缘情况没有给出显式的定量 bound，只是表明它被覆盖在了 \(k_n\) 的区间定义下。 3. 函数类 \(\tilde{\Psi}\) 的假设非常强。Assumption 4(ii) 要求该类是 VC-type。对于一些复杂的部分识别场景（例如基于多个矩函数的 CATE 边界评估），这一条件能否满足可能需要额外的一层论证，但作者未就此给出实例判断。 4. “uniform consistency” 的层层相套。定理1的目标是对“所有 \(F\)、所有 \(\theta\)”均匀成立。为了达到这一点，它需要关于估计量的、关于标准误的、关于 bias 的、关于 bootstrap 的多种 uniformity，且所有 \(o_p(1)\) 项都必须是 uniform 的！一旦中间某一步（如 Assumption 1(ii) 要求的标准误估计 uniform 一致性）在非常复杂的数据结构下失效，整个架构就会崩塌。

四、开放问题（点到为止）¶

计算可行性：目前算法需要在维度为 \(|\mathcal{X}|\) 的二值空间 \(\{0,1\}^\mathcal{X}\) 上进行穷举搜索以得到临界值。对于连续的 \(\mathcal{X}\)（即 \(\sup_{v}\) 操作在无数个点上），如何构造一个计算上可行的算法（例如，将该上确界问题重新表述为混合整数规划、或构建解析形式的高斯过程分位数函数），是目前理论最大的缺口（见原文 Remark on ongoing work 的 Grid Approximation plan）。
最劣 vs 所有：论文依赖 \(\inf_{v\in[0,1]^\mathcal{X}} = \inf_{v\in\{0,1\}^\mathcal{X}}\) 这一来自 log-concavity 的简化。若考虑有限样本或非高斯过程，这一点是否依然可以严格证明，还是仅仅只是渐近的近似？（扎根：该等是证明中使关键的一步，见第12页）。
点识别边界的理论质量：当识别宽度 \(\Delta_n(x)\) 的渐进极限 \(0 < \Delta^*(x) < \infty\) 时，提议的置信带在最坏情况下（考虑算法的精度）是否会过度保守或欠覆盖，目前没有任何有限样本 bound。论文的 Case 2 急剧依赖 \(k_n \sqrt{n} \to \infty\) 来保障“单侧 width 可忽略”，但未对 \(c = \sqrt{n} \Delta_n\) 有界的非平凡平滑过程给出明确处理（扎根：Assumption 2(i) 的 \(k_n\) 划定了窄/宽阈值，但 [0, k_n] 内的行为如何在算法层面被精确计算未被讨论）。
不依赖强估计量假设的 Weak Signal 场景：Assumption 1(i) 要求的渐近线性 uniform 表示是推测的起点。在高维或非正则设定中这个假设被放松后，本文置信带的 uniform 性完全丧失，如何向“高维/弱估计量”情形扩展是一个开放挑战。（扎根：定理1本身是对这个线性表示假设的继承）

Maintained by 陈星宇 · Homepage · Source on GitHub