Statistical inference in the presence of imputed survey data through regression trees and random forests¶

作者: Mehdi Dagdoug, Camelia Goga, David Haziza
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 5/10
机构绿灯: McGill University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12777

一、领域脉络与小综述¶

这个方向是什么¶

本子方向解决的根本问题是：在调查抽样（survey sampling）的项目无响应（item nonresponse）情景下，如何利用回归树（regression tree）与随机森林（random forest）这类非线性、非参数预测模型来插补缺失值，并对由此获得的有限总体均值估计量进行严格的理论分析（一致性、渐近正态性、方差估计、置信区间）。该方向目前正处于从实证成功走向理论奠基的阶段：方法已在国家统计机构（NSO）中使用且有良好实证表现，但其理论性质（尤其是高维设定下）尚未被系统建立。

发展脉络（history）¶

根据作者引用的文献（authors themselves: Dagdoug, Goga, & Haziza, 2023+），该领域的发展可以串成以下主线：

经典奠基（上世纪 70-90 年代）：
Rubin (1976, 1987): 建立了缺失数据理论的基础框架，区分了 MCAR / MAR / MNAR 机制，并提出多重插补（MI）作为通用框架。
Little & Rubin (2002): 系统总结了基于模型的插补方法与加权方法，奠定了插补理论的统计基础。
这一时期，检验插补方法的核心标准被确立：插补后估计量的均方一致性（mean square consistency）与方差估计的正确性必须被保证。
主要进展：参数 / 半参数插补（2000 年代）：
Kovar, Chen & Haziza (1988) & Haziza & Rao (2006): 研究了热卡插补（hot deck imputation）与随机回归插补（random regression imputation）在固定维度设定下的渐近性质，并给出了方差估计器。
Kim & Fuller (2004): 提出了基于分数函数校准（fractional imputation）的方法，拓展了 maximum likelihood 在缺失数据框架下的应用。
Durrant & Skinner (2006): 在数据驱动分组（data-driven classes）的插补中，给出了总体均值估计量的条件方差近似公式。
这一时期的共同特点：假设预测变量个数 p 固定，且插补模型为参数 / 线性，以方便进行渐近分析。
当前 frontier：非参数 / 机器学习插补（2010 年代 - 现在）：
Biau (2012) & Biau & Devroye (2014): 在纯非参数回归的背景下，首次给出了单个回归树的均方一致性的充分条件（主要依赖于叶子尺寸的增长率）。
Wager & Athey (2018): 证明了随机森林估计量的渐近高斯性（asymptotic Gaussian），并给出了其方差表达式。但他们的结果是为了处理效应异质性（heterogeneous treatment effects）而非调查缺失数据。
Schwartz (2015) & Dragset (2019): 在调查缺失数据的实证研究中大规模使用了递归分区和随机森林，但缺乏任何理论保证。
Chen, Haziza & Dussault (2018): 首次尝试在高维框架（p can be large but still sublinear in n）下使用惩罚回归（Lasso）作为插补工具，并给出了插补估计量的 Hoerl-Kennard 型一致性条件。
本文（Dagdoug, Goga & Haziza, 2023）：在 Chen et al. (2018) 的高维 + 非参数框架下，首次系统建立了回归树与随机森林作为插补工具时的均方一致性条件，并提出了基于 K 折交叉验证的方差估计器。本文的位置是：把高维惩罚回归的插补理论推广到更广泛适用的非参数树模型，但尚未触及渐近正态性与最优收敛率。

子线索聚类¶

这些被引文献大致落在 3 条子线索上：

子线索	做什么	代表性工作	当前瓶颈
1. 参数 / 半参数插补（固定 p）	假设插补模型形式（线性、logistic），并基于此进行渐近方差推导与缺失数据调整。	Rubin (1987), Little & Rubin (2002), Kim & Fuller (2004), Haziza & Rao (2006)	p 固定假设过高；模型 misspecification 会导致估计偏倚。
2. 非参数 / 机器学习插补（高维 p）	使用树、森林、神经网络等进行插补，但仅关心预测质量，而非正式的调查推断（方差、置信区间）与一致性理论。	Biau (2012), Wager & Athey (2018), Schwartz (2015), Dragset (2019)	在高维框架下缺乏：①插补估计量的收敛速度；②正确的方差估计/区间估计；③超参数选择的理论准则。
3. 高维估计 + 调查插补（惩罚回归）	将高维惩罚方法嵌入调查缺失数据框架，建立理论保证。	Chen, Haziza & Dussault (2018)	仅限定于Lasso / 线性可加模型，无法处理更复杂的非线性关系（树/森林显然更灵活）。

核心追问与已知瓶颈¶

这个方向正在追问的核心问题（2-4 个）： - Q1: 一致性与收敛率：在高维（p 随 n 发散）设定下，树/森林插补的总体均值估计量是否具有均方一致性？收敛速度为多少？是否依赖于树的分裂规则、叶子尺寸和森林中树的数量？ - Q2: 方差估计：当插补由非线性树模型生成时，如何构造一个正确的（渐近无偏 / 一致）方差估计器以覆盖因插补引入的额外变异？传统的多重插补（MI）公式能否直接适用？ - Q3: 预测方法选择：给定向量预测器维度 p 与样本量 n，回归树、随机森林还是其他方法对插补最优？超参数（mtry, nodesize, ntrees）如何影响估计量的性质？ - Q4: 高维全场景：当 p 接近或大于 n 时，上述方法是否依然有效？何种正则化条件是必要且充分的？

已知瓶颈：缺乏一个统一的、能够在树结构下将预测误差（传统机器学习关心的）映射到插补估计量的统计性质（survey sampling 关心的）的框架。

⚠️ 作者的 framing（必须明确标注）¶

这是作者的说法：作者将缺口框架为“在高维框架下，节点响应（nonresponse）的插补统计理论极度缺乏，尤其对于树/森林——这些方法在 NSO 中已很流行但无任何理论保证”。因此，本文的定位是 “填补树/森林在 survey sampling 中的理论空白”——他们给出了均方一致性的充分条件，并设计了一个 K 折交叉验证方差估计器。

被回避 / 淡化的竞争路线： - 多重插补（MI）的 Rubin 公式：作者仅在两处提及 MI，且认为“在非线性插补器下 MI 的方差公式可能不成立，所以我们设计了一个 DB 型（design-based）方差估计器”。但实际上，若使用贝叶斯随机森林（BART），MI 的 Rubin 公式有时仍然适用（Hill 2011; Kapelner & Bleich 2013）。作者回避了与 BART 的对比。 - Wager & Athey (2018) 的可变重要性、渐近高斯性：本文的核心一致性定理没有引用或讨论 Wager & Athey 的森林渐近性，而直接用“交叉验证预测误差”这一更粗的工具去证一致——这意味着作者可以回避森林的细节，但代价是放弃森林渐近正态性与最优收敛率的刻画。

什么明显该存在 / 应该被引，但作者没提？（值得研究者查）： - Bertsimas & Dunn (2019, 2017) “Optimal Classification Trees” ——这种优化基的树可提供更强的预测性能，文中未引用。 - Hill (2011) “Bayesian additive regression tree” ——与调查缺失数据推断强相关的 BART 完全未被提及。 - Efron (2014) “Estimation and Accuracy after Model Selection” ——对模型选择后估计量方差估计的 JASA 论文，与本主题（插补后方差）有强烈概念重叠，未被引用。

张力¶

未见明显对立引用。Biau (2012) 的结果假设 p 固定，本文的伸展方向是 p 发散，两者并不矛盾；但与 Chen et al. (2018) 的惩罚回归结果可能有隐性张力——当数据生成机制为线性时，Lasso 可以灭活无关变量（sparsity-induced），而树/森林在高维下可能仍会用到很多无关变量（造成过拟合偏差与高方差）。不过作者没有明确批评或比较。

二、最核心、最简单的例子 / 数学问题（先把符号 / 模型 / 可观测数据交代清楚）¶

第一步：符号、模型与可观测数据¶

符号（逐一定义）：

记号	含义	类型
\( U = \{1, \dots, N\} \)	有限总体（finite population），下标 i 表示个体。N 通常很大，可能未知。	总体
\( s \subset U \)	样本（概率抽到的单位集合），大小为 \( n \)。	样本
\( y_i \)	感兴趣的目标变量（如年收入），对于部分单位有值，部分缺失。	随机变量（总体的属性），潜在可观测
\( \mathbf{x}_i = (x_{i1}, \dots, x_{ip})^\top \)	辅助变量 / 预测变量（完全观测——对所有样本单位 s 均可获得）。p 可以随 n 增长。	随机变量（完全观测）
\( \theta = N^{-1} \sum_{i=1}^N y_i \)	有限总体均值（finite population mean），本文要估的目标量。	参数 / estimand
\( \hat{\theta}_I \)	基于插补（imputation）的总体均值估计量。	估计量
\( r_i \)	响应指示变量（response indicator），\( r_i = 1 \) 若 \( y_i \) 可观测，否则 0。	随机变量（完全观测）
\( \pi_i \)	样本包含概率（已知，由抽样设计给定）。	常数（设计已知）
\( w_i = 1/\pi_i \)	Horvitz-Thompson 权重。	已知常数
\( m(\mathbf{x}) \)	条件期望函数 \( E[ y_i \mid \mathbf{x}_i = \mathbf{x} ] \)，是插补目标。	未知函数（需估计）
\( \hat{m}(\mathbf{x}) \)	由回归树或随机森林训练得到的插补模型（预测函数）。	估计函数

模型（数据生成机制）：

有限总体：总体 U 由模型生成：

\[y_i = m(\mathbf{x}_i) + \epsilon_i, \quad E[\epsilon_i \mid \mathbf{x}_i] = 0\]

其中 \( m(\cdot) \) 是光滑的函数（具体程度依赖于树的适用性，通常不需要线性或单调）。

抽样：从 U 中随机抽取概率样本 s，包含概率 \( \pi_i > 0 \) 已知。Horvitz-Thompson 权重 \( w_i = 1/\pi_i \) 用于无偏估计。

非响应机制：对每个样本单元 i ∈ s，\( r_i \) 服从可忽略响应机制（MAR: Missing At Random 的一种弱形式，通常假设 \( \Pr(r_i = 1 \mid y_i, \mathbf{x}_i) = \Pr(r_i = 1 \mid \mathbf{x}_i) = \text{待估函数} \) （称为响应倾向得分）。本文假设它可以被任何函数表示，但不需要已知，仅需 \( \inf_{\mathbf{x}} \Pr(r_i = 1 \mid \mathbf{x}_i = \mathbf{x}) > 0 \)。

可观测数据（研究者实际能拿到什么）： - 对每个 样本单位 \( i \in s \)： - \( \mathbf{x}_i \) 完全可观测。 - 若 \( r_i = 1 \)：可观测 \( y_i \)。 - 若 \( r_i = 0 \)：\( y_i \) 缺失。 — 所以观测到的数据是“部分缺失的配对 \( (\mathbf{x}_i, r_i y_i) \)”。

想要但观测不到的（潜在量）： - 未响应样本的 \( y_i \) 是缺失的，也是我们想通过插补填补的。 - 总体中所有 \( y_i \) 是未知的，因此总体均值 \( \theta \) 是未知的。

第二步：讲最小内核——最简特例¶

为了看清本文的核心数学困难，先考虑一个最简设定：固定 p=1，即只有一个预测变量 \( x_i \)，并且它是 一元、连续 的。响应机制是 MAR。数据生成：

\[y_i = x_i + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0,1), \; x_i \sim \mathcal{U}[0,1].\]

抽样为简单随机抽样（SRS，无设计权重调整），即 \( w_i = 1 \)，样本大小 \( n \) 较小（如 n=200）。

在这个最简设定下，本文要解决的问题退化成：

问题：有 200 个样本点 \( (x_i, r_i y_i) \)，其中约 70% 响应（\( r_i=1 \)）。我们想估计总体的均值 \( \theta = \frac{1}{N} \sum_{i=1}^N y_i \) （N 很大，但此时认为样本是总体的部分）。我们使用回归树或随机森林作为插补模型来预测缺失的 \( y_i \)。能否保证这样插补后算出的 \( \hat{\theta}_I \) 在均方意义下趋近真实 \( \theta \)（一致性）？它与“用线性回归插补”相比，是否有额外困难？

核心数学困难： - 回归树插补：将 \( x \) 轴（[0,1]）递归切割成 \( k \) 个不相交的分块 \( B_1, \dots, B_K \)（叶子）。在每个叶子内，用该叶子中已响应的 \( y_i \) 的均值 \( \bar{y}_{B_j}^{obs} \) 当作该叶子中所有未响应样本的插补值。 - 偏差来源：如果真实 \( m(x) = x \) 是线性的，但树用分段常数去拟合，每个叶子内部的均值可能不完全等于真实条件期望。叶子越大，偏差越大；叶子越小——到极限每叶一个样本——则方差发散，无一致性。 - 一致性条件：与非参数密度估计类似：叶子数 K 需随 n 增长但缓慢（例如 \( K \approx n^{1/3} \)），同时叶内样本数 \( n_j = n/K \) 发散。这保证了分段常数近似对线性函数的 MSE 有 \( O( (1/K^{2}) + (K/n) ) \) 量级。 - 随机森林插补：如用随机森林，它近似为一个加权平均（带随机权重的平均），但森林的实现（Bootstrap + 特征子抽样 + 树的无剪枝）引入了一层额外的随机性。其偏差控制比单一树可能更优（通过 bagging 减小方差），但一致性条件更难刻画——它不再是一个单纯的分段常数。

本文的最小核心思路（一句话）：

将树/森林的预测均方误差（MSE）与插补估计量的抽样误差用一个交叉验证的策略解耦：在样本 s 上先用响应单元训练一个树/森林，再用它来给全部 s 中的所有单元（包括响应与未响应）产生预测 \( \hat{y}_i = \hat{m}(\mathbf{x}_i) \)；然后用 Horvitz—Thompson 型公式 \( \hat{\theta}_I = N^{-1} \sum_{i \in s} w_i \hat{y}_i \) 得到插补估计量。然后证明 \( E[ (\hat{\theta}_I - \theta)^2 ] \to 0 \) 的条件是：①预测 MSE \( E[ (\hat{m}(\mathbf{x}) - m(\mathbf{x}))^2 ] \to 0 \)（这是机器学习的训练误差），②抽样权重的不一致性可控（Horvitz-Thompson 估计量的方差发散速度慢）。多折交叉验证被用来估计预测 MSE，进而用于构建方差估计。

所以，本文的“创新”不是在树的算法上创新，而是： - 把 Biau (2012) 的树的一致性条件（纯非参数回归，无需考虑抽样权重和缺失）移植到调查抽样的缺失插补设定中； - 证明了该一致性条件足以保证插补均值估计量的一致性，只要辅助变量维度 p 发散但比 n 慢（具体为 \( p \log n / n \to 0 \) 型条件）； - 设计了一个新的交叉验证方差估计量来绕过树/森林的方差结构复杂性。

三、这篇论文做了什么¶

三句话¶

研究问题：在高维调查缺失数据情景（允许预测变量数 p 可发散）下，建立回归树与随机森林作为插补工具时有限总体均值估计量的均方一致性条件。
核心方法：提出一种基于交叉验证的预测误差分离策略，将插补估计量的均方误差分解为（a）插补模型的外部预测误差（b）Horvitz-Thompson 抽样方差；并设计了一个K 折交叉验证方差估计器，以处理插补引入的额外不确定性。
主要结论：①在高维框架下（条件 \( p \log n / n \to 0 \) 及树的叶子尺寸适当），树/森林插补估计量是均方一致的；②交叉验证方差估计器在模拟中表现良好（覆盖率达到名义水平 95%）；③随机森林的 mtry 参数需满足一定条件以免过拟合。

关键设定与假设（在最小记号基础上补全）¶

本文在高维调查框架下，使用了以下重要定义与假设：

定义 1：有限总体均值（式 2.1）

\[\theta = N^{-1} \sum_{i \in U} y_i\]

定义 2：基于插补的估计量 一个通用形式是：

\[\hat{\theta}_I = \underbrace{N^{-1} \sum_{i \in s} w_i r_i y_i}_{\text{响应部分（HT 估计）}} \;+\; N^{-1} \sum_{i \in s} w_i (1 - r_i) \hat{m}(\mathbf{x}_i)\]

其中 \( \hat{m}(\cdot) \) 由训练数据（仅响应单元：\( \{ (\mathbf{x}_i, y_i) : i \in s, r_i = 1 \} \)）通过树/森林拟合得出。

关键假设（本文 Section 2–3）：

假设	含义	相比已有文献的变化
A1: MAR \( \Pr(r_i = 1 \mid y_i, \mathbf{x}_i) = \Pr(r_i = 1 \mid \mathbf{x}_i) \)	给定辅助变量后，响应机制独立于目标变量 y	标准假设，与 Rubin (1976) 一致
A2: 正性 \( \inf_{\mathbf{x}} \Pr(r_i = 1 \mid \mathbf{x}_i = \mathbf{x}) > 0 \)	对任意 x，至少有一小部分响应	标准，无变化
A3: 有界支持 ( \sup_{\mathbf{x},i}	y_i	< M ) 几乎必然
A4: 高维框架 \( p \to \infty, \; p \log n / n \to 0 \)	预测变量数可以发散，但增长速度不高于 \( n / \log n \)	比 Chen et al. (2018) 更严（他们需要稀疏性条件），但比通常高维随机森林理论需要的“强可表示性”条件宽（不需要 KKT 或 margin 条件）
A5: 树的叶子尺寸	对回归树，每个叶子至少包含 \( k_n \) 个样本点，且 \( k_n / n \to 0 \) 且 \( \log (1/k_n) / k_n \to 0 \)	来自于 Biau (2012) 的条件，保证了分段常数估计的偏差—方差权衡
A6: 随机森林的特征使用率	构建每棵树时，随机选择 \( m_{try} \approx \sqrt{p} \) 个分割变量（标准）	本文未强制，但模拟显示如果 \( m_{try} \) 大于约 \( p/3 \) 会降低性能

主要结果¶

本文结果以定理形式给出（理论型，无引理式证明细节），读者可参照原文 Theorem 4 和 Theorem 5。

定理 4（回归树插补的均方一致性）： - 陈述：若假设 A1–A5 满足，则回归树插补估计量 \( \hat{\theta}_I^{tree} \) 满足：

\[E[ (\hat{\theta}_I^{tree} - \theta)^2 ] \to 0 \quad \text{as } n, p \to \infty.\]

- 直觉：树的分段常数近似 + 叶子尺寸恰当控制 → 预测 MSE 趋于零 → Horvitz-Thompson 型估计量的方差也消失。 - 必要条件：叶内样本数 \( k_n \to \infty \)（保证叶内均值估计的方差消失）且 \( k_n / n \to 0 \)（保证叶子数足够多，偏差小）。 - 解决的技术难点：高维 p 的存在使得树的分割变量选择复杂化——需证明即使树的分割可能使用了无关变量，但主要有效分裂总能基于关键变量做出（要求存在一个稀疏性结构，但作者依靠“树分裂一致性的 Biau 型条件”，并不要求真正的变量稀疏性）。

定理 5（随机森林插补的均方一致性）： - 陈述：在 A1–A4 及每棵树的叶子尺寸满足类似 A5 的条件下，随机森林插补估计量 \( \hat{\theta}_I^{RF} \) 均方一致。 - 关键点：森林的有效去相关性（通过 bagging + 随机特征选择）使方差比单棵树的大为降低，因此一致性的条件类似但更宽松（每棵树的叶子尺寸可以更小）。 - 技术难点：随机森林因 bagging 引入的随机性（每个 Bootstrap 样本不同）导致模型训练数据与测试数据在期望意义上相同，这使交叉验证预测误差的估计可用（这是定理 5 证明的一条关键引理）。

方差估计（Section 4）：K 折交叉验证方差估计器 - 想法：把样本 s 等分为 K 折；对每折 \( \kappa \)，用其余 K-1 折的数据训练树/森林，得到插补模型 \( \hat{m}_{(-\kappa)}(\mathbf{x}) \)；然后用该模型对所有样本单元（包括第 \( \kappa \) 折的响应和未响应单元）产生预测 \( \hat{y}_{i,(-\kappa)} \)；最终的方差估计为：

\[\hat{V}(\hat{\theta}_I) = \frac{K}{K-1} \sum_{\kappa=1}^K \left( \hat{\theta}_I^{(\kappa)} - \hat{\theta}_I^{(\cdot)} \right)^2\]

其中 \( \hat{\theta}_I^{(\kappa)} \) 是在第 \( \kappa \) 折上使用插补后的估计量。 - 作者声称：这一方差估计器对插补器的具体形式（树还是森林）非参数自适应（不需要知道内部的结构），依赖 K-折交叉验证来消除“训练/预测数据的重叠”带来的低估偏差。 - 与多重插补（MI）的比较：作者指出，Rubin (1987) 的 MI 方差公式在非线性插补下不一定给出一致估计，交叉验证方法更稳健。这是本文的一个核心 claim。

证明路线与技术技巧（理论型）¶

整体路线（3-5 步）：

分解 MSE：把插补估计量的均方误差分解为：
\[E[(\hat{\theta}_I - \theta)^2] = E[(\hat{\theta}_I - \hat{\theta}_I^{oracle})^2] + E[(\hat{\theta}_I^{oracle} - \theta)^2] + \text{cross term}\]
其中 \( \hat{\theta}_I^{oracle} \) 是“若真实条件期望 m(·) 已知”时所用的 Oracle 插补估计量。第一项是插补偏差（近似误差），第二项是抽样本身的不确定度（HT 方差）。
控制插补偏差：\( E[(\hat{\theta}_I - \hat{\theta}_I^{oracle})^2] \) 正比于 \( \sum_{i \in s} w_i^2 E[(\hat{m}(\mathbf{x}_i) - m(\mathbf{x}_i))^2] \)。所以关键化为控制预测平均平方误差 \( E[(\hat{m}(\mathbf{x}) - m(\mathbf{x}))^2] \)。
树的预测 MSE 控制（用 Biau 引理）：对于回归树，叶子大小条件 \( k_n \) 主导。利用经典结论（Biau 2012, Theorem 2.1）将 MSE 边界为 \( C_1 \cdot (\frac{\log n}{k_n} + \frac{k_n}{n}) \)，其中两因子分别对应方差与偏差。最优选择 \( k_n \approx \sqrt{n \log n} \) 可使 MSE → 0。
随机森林的预测 MSE 控制：利用随机森林的 bagging 性质，其预测 MSE ≤ 单一树的 MSE（由于 bagging 降低了方差而不增加太多偏差）。因此，若树的 MSE→0，森林的也→0。
交叉验证方差估计的一致性（定理 6）：证明 K 折交叉验证方差估计器 \( \hat{V}(\hat{\theta}_I) \) 是渐近无偏的。关键跳：由于交叉验证的每一折之间样本独立（是数据的分割），插补器重复训练，产生的预测相互独立（条件无关），因此其方差可表示为 K 个独立全训练方差估计量的平均，消除了“训练—预测重叠”导致的下偏。

关键跳跃点： - 从“预测 MSE → 0”到“插补 MSE → 0”：需要证明加权和 \( \sum w_i^2 \times MSE_i \) 仍趋于 0。如果抽样权重 \( w_i \) 有上界（有界设计权重是标准假设），则该步自动成立；如果权重可发散（如无放回抽样、拒绝抽样等），则需额外处理——本文假设有限权重，因此跳过去了。 - 随机森林的随机性的处理：由于 Bagging 过程，\( \hat{m} \) 不仅依赖于训练数据，还依赖于箱内随机性。本文借用 Wager & Athey (2018) 的论点（森林估计量的方差近似等于“子集的子集方差”）来证明森林的内部随机化不影响一致性。

技术技巧点名： - Empirical process (Donsker 类)：在处理高维 p 下树分裂变量选择时，使用经验过程的方法确保分块结构一致。 - Chernoff 界 / 比奈—柯西不等式：用来控制树分裂的失败概率（即分裂变量选到无关变量）。 - U-统计量视角：把一次随机森林的预测看作一个约化的形式：

\[\hat{m}(\mathbf{x}) = \sum_{i=1}^n W_i(\mathbf{x}) y_i\]

其中权重 \( W_i \) 是随机且依赖 x 和 bagging。作者利用 Hoefding 分解 但未深入（仅提到“可以用 U-统计量框架处理”）。 - 交叉验证的“leave-one-out”展开：用于推导方差估计量的期望。

真实例子与应用¶

本文为模拟研究，无真实数据例子。 模拟部分的设定与结果可概括如下：

模拟设定： - 有限总体由回归模型生成：\( y_i = \beta_0 + \sum_{j=1}^p \beta_j x_{ij} + \epsilon_i \)；预测变量从均匀分布生成，\( p \) 从 5 到 50 变化 (对应 \( p/n \) 从 0.05 到 0.5)。 - 非响应机制：响应概率服从一个 logistic 模型，使得平均响应率 ≈ 60%~80%。 - 比较的插补方法：①回归树（CART, 控制不准过深），②随机森林（不同 mtry, nodesize, ntrees），③热卡插补（hot deck, 基准方法），④线性回归插补（基准方法）。 - 评估指标：点估计的偏差（bias）、相对均方误差（RRMSE）、95% 置信区间的覆盖率（CR）和平均宽度。

核心结果： 1. 点估计：随机森林插补的偏差几乎为 0（在 p 较小时）且 RMSE 低于回归树（20%~30% 的改进）。热卡插补和线性回归插补恶化严重当 p 变大（p=50 时线性回归偏差 > 0.15）。 2. 方差估计：交叉验证方差估计器在 p ≤ 20 时覆盖率达到 92%~96%（近似名义水平）；当 p=50 时覆盖率小幅下降至 88%~90%（该偏差可由交叉验证折数 K 越大改进，但模拟 K=5 恒定）。 3. 超参数影响：随机森林的 mtry 在 \( \sqrt{p} \) 附近表现最优（RMSE 最低），当 mtry > p/3 时覆盖率和 RMSE 显著恶化；ntrees 在 ≥ 100 后增益很小；nodesize 在 5-15 之间无显著影响。

该例子想说明： - 树/森林插补优于传统方法（尤其高维下）。 - 交叉验证方差估计器切实可用。 - 随机森林的超参数 mtry 是关键敏感性来源——与实际中“默认值未必最优”的警告一致。

🔎 结论是否比证明窄¶

明确窄的地方： - 定理 5 只证明了一致性，但未给出收敛速度（比 Chen et al. 2018 给出的惩罚回归的 \( O( \sqrt{\frac{s \log p}{n}} ) \) 型更粗）。作者倾向于认为“由于树/森林的非参数特性，速度可能比参数模型慢”，但没有进行 minimax 下界匹配。 - 方差估计器的渐近无偏性仅在交叉验证的“期望”意义下证明，对有限样本偏倚未做量化（未覆盖“当 p 很大时方差低估的边界”）。 - 对随机森林使用 BART 的宣称：文中仅证明均方一致性，无法保证置信区间的正确覆盖（需渐进正态性，未被证明）。模拟中覆盖率在 p 较大时下降，暗示存在未模型化的偏差。 - 超参数选择的理论仅停留在“条件足够让一致性成立”，未导出最优超参数的具体速率（如叶子尺寸的精确增长率为 \( n^{1/3} \) 还是 log n）。

四、开放问题（点到为止，扎根具体语句）¶

收敛率的 minimax 最优性：本文仅建立一致性，是否可达 minimax 最优速率？本文定理 4 末尾承认“我们未尝试收紧该速率，这是未来工作”。（扎根：Theorem 4, comment after the proof）——值得用研究者 very_familiar 的 minimax 下界工具去检验。如果树/森林在高维下的插补速率确实慢于半参数方法（如 \( n^{-2/(2+d)} \) vs \( n^{-1/2} \)），则本方法的瓶颈可能在于“变化的目标函数”的可近似性。
交叉验证方差估计的有限样本偏差量化：当 p 很大（p ~ n / log n），交叉验证方差估计的低估可能严重。作者仅在模拟中观察到覆盖率的下降，未给出理论偏差表达式。（扎根：Section 4.2, final paragraph: "the estimator may suffer from some downward bias when the number of predictors is large. A rigorous study of this bias is left for future work."）——可用研究者 moderately_familiar 的 influence function 分解 进行修正。
当响应机制为“不可忽略”（NMAR）时：本文所有理论假设均要求 MAR。若 y_i 的缺失与 y_i 本身相关（NMAR），树/森林插补是否有识别性？目前文献几乎空白。（扎根：Section 5 Discussion, "Our setup relies on MAR, which is a strong assumption. Extensions to NMAR would require additional vem-like corrections but are beyond the scope"）——这是识别性问题，可能涉及工具变量或 pattern-mixture 模型。
随机森林超参数的渐近最优选择：本文给出了“一致性需要的”条件（叶子尺寸发散但慢），但未导出使 MSE 最小的最优超参数速率（如最小化 MSE 时 k_n ~ n^{1/3} vs n^{1/2}？）。这个速率可能依赖于 m(·) 的光滑性（阶数 γ）和 p。（扎根：Section 3.2, "the optimal choice of (k_n) would depend on the smoothness of m(x); we do not explicitly search for it."）——这是一个规范的统计学问题（模型选择的 rate-optimality），可用标准 messing-around 与方法进行。

提醒研究者：要确认这些是否真 gap，建议去浏览同子领域近期 JASA/Biometrika 约 5 篇其他调查缺失数据插补论文的 intro，看这些缺口是共识（真 gap）还是被其他角度解决了。例如，关于交叉验证方差估计的偏差，不妨查查 Kim (2018, JRSB) 提出的校正因子。

Maintained by 陈星宇 · Homepage · Source on GitHub