kNN estimation in semi-functional partial linear regression with missing responses at random¶

作者: Germ\'an Aneiros, Silvia Novo
主题: 非参数 / 半参数
相关性: 7/10
链接: https://arxiv.org/abs/2606.20930

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的子方向是 半函数部分线性回归（Semi-Functional Partial Linear, SFPL）模型在响应变量随机缺失（Missing at Random, MAR）下的推断问题。其根本统计问题可描述为：当响应变量存在随机缺失时，如何利用同时包含有限维向量协变量和无穷维函数型协变量的数据，来半参数地估计线性部分的参数向量和非参数部分的回归算子，并建立相应的推断理论。该子方向已积累了相当的结果（主要基于核回归方法），但仍处于方法开发和理论完善的阶段。

发展脉络（history）¶

根据引言及相关被引文献，这个子方向的发展可按如下主线串联：

奠基工作（SFPL模型的提出）：Aneiros-Pérez & Vieu (2006) 首次引入模型 (1)，并基于独立数据，给出了线性参数估计量的渐近正态性和非参数函数估计量的几乎必然一致收敛速度。这篇文章奠定了该方向的基准框架：将有限维线性部分与无穷维函数型非参数部分结合。
SFPL模型的主要进展：
- 完全观测数据下的拓展：该模型被拓展至相关数据 (Aneiros-Pérez & Vieu, 2008)、变量选择 (Aneiros et al., 2015)、稳健估计 (Boente & Vahnovan, 2017)、分位回归 (Ding et al., 2018) 和假设检验 (Zhu & Zhao, 2019) 等。这些工作均在响应完全观测的设定下进行。
- 引入kNN方法：Ling et al. (2020) 在完全观测数据的 SFPL 模型中，首次引入 kNN 估计替代核平滑。这是本文称为“kNN estimation in functional partial linear modeling”的直接前身。本文的理论结果（如引理A.6）直接借鉴了该文。
处理缺失响应（响应为MAR）的前沿拓展：
- 非函数型协变量：Wang et al. (2004) 和 Wang & Sun (2007) 首次处理了响应MAR的（非函数型）部分线性回归模型。前者关注无条件均值，后者关注β和m的推断。两者均使用核回归方法。
- 函数型协变量：Ling et al. (2019) 首次将MAR问题引入SFPL模型，考虑了函数型协变量。他们提出并研究了基于核回归的插补估计量。这是本文的直接竞争路线。
- MAR下的其他函数型模型：如 Ferraty et al. (2013) 探讨了函数型非参数模型，Crambes & Henchiri (2019) 和 Febrero-Bande et al. (2019) 讨论了函数型线性模型。
本文的位置：本文声称是“first paper in literature that addresses inference on the SFPL-MAR model based on kNN regression”。它试图将核平滑和kNN平滑两条递进路线在“SFPL+MAR”这一交汇点结合起来。

子线索聚类¶

这些被引文献大致落在 3 条子线索上：

核回归（Kernel）路线：这是主流方法。如 Aneiros-Pérez & Vieu (2006), Wang & Sun (2007), Ling et al. (2019), Ferraty et al. (2013)。它们使用核函数 (3) 来定义权重。优点是有成熟的渐近理论，缺点是带宽选择计算成本更高（连续搜索空间），且不具备自动局部自适应性。
kNN回归路线：这是替代方法。如 Kudraszow & Vieu (2013)（纯函数型），Ling et al. (2020)（SFPL完全数据），Kara-Zaitri et al. (2017)（函数型），Novo et al. (2019)（函数型单指标）。它们使用kNN权重 (4)，具有更好的局部自适应性（带宽随χ变化）和更低的计算成本（离散搜索空间），但理论上，H_{k,χ}是随机变量，给严格证明带来困难。本文处在该子线索。
缺失数据的处理方法：这是方法论设计。如 Wang et al. (2004) 和 Wang & Sun (2007) 提出了插补（Imputation）、回归替代（Semiparametric regression surrogate）和逆概率加权（Inverse marginal probability weighted）三种经典范式。本文的结构完全沿用这三种范式，将每种范式扩展为kNN版本。

这个方向在追问的核心问题¶

核心问题 1：如何获得β的根号n相合且渐近正态的估计量？ ——这是半参数模型的核心关切：非参部分（m(·)）的慢收敛速度不能拖慢线性部分（β）的收敛速度。目前Aneiros-Pérez & Vieu (2006) 和 Ling et al. (2020) 等已做到。
核心问题 2：非参数部分m(·)的收敛速度是多少？ ——这取决于函数空间的复杂度（由Kolmogorov熵衡量）和协变量的分布（如小球概率函数φ）。已知的核和kNN估计的速度由“偏差-方差”平衡决定，但尚无统一的minimax下界。
核心问题 3：如何处理缺失数据而不引起有偏推断？ ——关键是正确建模缺失机制（如MAR）。在SFPL模型下，MAR假设允许利用观测数据的条件矩来校正偏差，但不同的调整方法（如本文的三种范式）会导致不同的渐近方差。本文的核心发现在于给出了三种估计量的渐近方差的具体表达式。
已知瓶颈：理论证明的复杂性，尤其是kNN法（H_{k,χ}是随机变量）和函数型数据（函数空间无穷维、缺乏勒贝格测度、小球概率难刻画）双重困难下的渐近性质推导。此外，对m(·)的一致收敛速度的推导需要很强的熵条件（A4）和光滑条件。

⚠️ 作者的 framing¶

作者的缺口描述：作者将缺口明确 frame 为：1) 现有工作 (Wang & Sun, 2007) 只处理了有限维X，未涉及函数型协变量；2) 现有工作 (Ling et al., 2019) 虽处理了函数型X，但使用的是核回归而非kNN。因此，本文定位为 “SFPL模型 + 响应MAR + 函数型协变量 + kNN估计” 这个四重限定条件下的首次研究。这是一个典型的“填补网格”式framing（在“模型类型 x 缺失机制 x 协变量类型 x 非参方法”构成的格点中填补一个尚未被占据的格子）。
被淡化或回避的竞争路线：作者将核回归方法（Ling et al. 2019）作为标杆，但除了在“Some comments”中提及“相同的rates”外，并未系统比较二种方法的优劣，也回避了回答“为什么kNN在这里比核回归更好”这一关键的方法论问题。同时，作者没有讨论MAR假设之外的更一般的缺失机制（如MNAR, non-ignorable nonresponse）。
明显该被引或存在、但没出现的工作：作者未引用任何关于“半参数效率界”（semiparametric efficiency bound）的工作，这对于一个半参数模型的推断问题而言是个值得注意的缺失。尽管本文给出了渐近方差的具体形式，但并未声称或证明这些方差达到了效率下界。读者有理由追问：本文提出的三种估计量（Imputation, Regression Surrogate, IPW）中，哪个是最优的（效率最高的）？这个问题在文中完全没有触及，而是单纯给出了形式不同的方差。这是作者留出的一个可供研究者核验的缺口。
张力：未见明显对立的引用。这是一个沿着已有路径稳步推进的、工程性质的拓展工作，而非引发范式冲突的断层研究。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号（Symbols）：
- Y ∈ ℝ：标量响应变量（可观测/可缺失）。
- X ∈ ℝ^p：有限维向量协变量（完全可观测）。
- 𝒳：无穷维函数型协变量（完全可观测），取值于半度量空间 (ℱ, d(. , .))。S_F ⊂ ℱ 是其支撑集。
- β ∈ ℝ^p：未知的线性参数向量（目标是估计的对象）。
- m(·)：未知的实值算子（目标是估计的对象），作用在函数型协变量𝒳上。
- ε：随机误差，满足 E(ε|X, 𝒳)=0（回归模型的核心条件）。
- δ ∈ {0,1}：缺失指示变量；δ=1 表示 Y 被观测，δ=0 表示缺失。
- n：样本量。
- k：kNN估计的邻居数（平滑参数）。
- d(·,·)：半度量空间 ℱ 中的半度量。
- H_{k,χ}：为使以χ为中心、半径为H的球包含至少k个最近邻的最小半径（随机变量）。
- K(·)：核函数，支撑在[0,1]上的非负、有界不减函数。
- ω_k(χ, 𝒳_i)：基于kNN的权重，为距离的函数。
- Δ(χ) = P(δ=1 | X=x, 𝒳=χ)：完全的条件缺失概率（总体的）。
- Δ_1(χ) = P(δ=1 | 𝒳=χ)：边缘缺失概率（只给定函数型协变量）。
模型（Model）：
- 数据生成过程遵循半函数部分线性回归模型： Y = X^T β + m(𝒳) + ε，其中 E(ε|X, 𝒳)=0。
- 响应变量随机缺失（MAR）： δ 与 Y 在给定 (X, 𝒳) 下条件独立，即 P(δ=1 | Y, X, 𝒳) = P(δ=1 | X, 𝒳)。
可观测数据 (Observable Data)：
- 研究者观察到独立同分布的样本 (Y_i, δ_i, X_i, 𝒳_i), i=1,…,n，构成了观测数据集。
- 可观测的：δ_i (0/1)，X_i (向量)，𝒳_i (函数)。
- 部分可观测的：Y_i。当 δ_i=1 时 Y_i 可见；当 δ_i=0 时 Y_i 值缺失，不可用。
- 潜在的 / 想要但观测不到的：缺失的 Y_i 本身；条件期望函数 m(χ)；回归残差 ε_i；误差方差 σ²(χ, χ)；缺失概率 Δ(χ) 和 Δ₁(χ)；以及用于表述辅助回归定义的 g_j(χ) = E(X_{ij} | 𝒳_i)。

第二步：讲最小内核¶

最简特例：考虑一个极度简化的版本，能揭示本文核心思路的本质。

设定： - 协变量为标量：p=1（即 X 是单变量），且函数型协变量 𝒳 “退化”为单变量（即 F = ℝ，且 d(·,·) 是绝对值距离）。 - 无缺失（即 δ_i=1 对所有 i 都成立）。 - 线性部分系数 β 为标量 β。 - 非参数部分 m(·) 是定义在实直线上的简单平滑函数（如 m(χ) = m_0 * sin(χ)）。 - 这是一个部分线性模型：Y = βX + m(𝒳) + ε。

这个特例下核心思路是什么：本文在完全数据下的kNN估计（Ling et al. 2020）试图通过两步消除 m(·) 的干扰来估计 β： 1. 第一步（消除m）： 对每个 i，用kNN方法从 Y_j 和 𝒳_j 中“扣掉” m(𝒳_i) 的影响。具体地，定义权重 ω_{k_1}(χ, 𝒳_j)。线性部分参数β的估计量由下式给出（因为无缺失，δ不起作用）： bβ = (X̃^T X̃)^{-1} X̃^T Ỹ，其中 X̃ = (I - W_1)X，Ỹ = (I - W_1)Y，W_1 是kNN权重矩阵。这等价于对去均值（实际上是去掉了m(𝒳)的平滑后影响）的 X 和 Y 做OLS回归。其核心思想是：(I - W)X 近似为 X - E[X|𝒳]，(I-W)Y 近似为 Y - E[Y|𝒳]，而因为 E[Y|𝒳] = Xβ + m(𝒳)（严格来说，这里的E是混合条件期望，但我们在最终去偏的版本中实际上是得到了 η = X - E[X|𝒳]），从而 (I-W)Y ≈ ηβ + (m(𝒳) - smoothed m) + ε，且平滑后的m的偏差是二阶小量，因而退化为对 ηβ + ε 的回归，由于 η 与 ε 无关，β可被识别。

第二步（估计m）： 给定 bβ，m(χ) 的估计量为 bm(χ) = Σ_j ω_{k_1}(χ, 𝒳_j) (Y_j - X_j bβ)。

这个特例与本篇论文的联系： - 本篇论文的SFPL-MAR模型包含了这个特例（只需令p=1，𝒳为标量函数，且δ_i=1）。 - 在缺失数据（MAR）下，本文的核心困难和处理方法如下： - 数据不完整：当 δ_i=0 时，无法直接将观测值 (X_i, 𝒳_i) 用于上述两步过程，因为 Y_i 不可用。 - 处理框架（以Imputation为例）： 1. 代价估计（Auxiliary Estimation）：仅使用完全观测数据（δ_i=1），仍然采用上述两步法，获得初始代价估计 bβ_C 和 bm_C(χ)。 2. 数据填充（Imputation）：对于缺失数据点（δ_i=0），用代价估计的回归值 X_i^T bβ_C + bm_C(𝒳_i) 来填补 Y_i。从而构造“完整”的响应变量 Y_i^I。 3. 最终估计（Final Estimation）：基于这组“完整”数据 (Y_i^I, X_i, 𝒳_i)，再应用一遍完全数据下的kNN两步法，得到最终的估计量 bβ_I 和 bm_I(χ)。

这个最小内核的结算：读者现在应该已经抓住这篇论文在数学上到底要干嘛了。对于更复杂的函数型协变量空间和kNN带来的随机带宽，本文用一套繁复的假设（A1-A10）和技术引理（A1-A7）来证明，尽管有这样那样的技术困难，上述kNN插补策略仍然成立：bβ_I依然是√n相合、渐近正态的；bm_I(χ)的收敛速度为O(φ^{-1}(k/n)^α + √(ψ/log(n)/k))（去掉了偏差和方差部分的O记号）。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

① 研究了什么问题：本文研究了半函数部分线性回归模型（SFPL）中，当响应变量随机缺失（MAR）时，对线性参数向量 β 和非参数算子 m(·) 的估计问题。
② 核心工具/方法：作者基于k近邻（kNN）方法，提出了三种用于处理MAR响应的估计量：插补（Imputation）、回归替代（Semiparametric Regression Surrogate）和逆边缘概率加权（Inverse Marginal Probability Weighted）。这些估计量在结构上继承并扩展了Wang & Sun (2007) 的核方法到函数型协变量和kNN技术。
③ 主要结论：
- 所有三种kNN估计量 bβ 都是 √n-相合的，且渐近正态。
- 所有三种估计量 bm(χ) 在函数型协变量空间上达到几乎必然的一致收敛速率，该速率与完全观测数据下的kNN SFPL估计量一致。
- 给出了 bβ 的渐近方差表达式（V_I, V_R, V_{IP}），并通过特例展示了不同估计量在不同缺失机制下的效率比较。

关键设定与假设¶

设定：数据来自模型 Y = X^T β + m(𝒳) + ε，且MAR条件成立。
记号补全：文中定义了大量辅助量来刻画kNN的“去偏”过程，如 η_{ij} = X_{ij} - g_j(𝒳_i)（其中 g_j(𝒳_i) = E(X_{ij}|𝒳_i)，η 是投影后的正交部分），以及他们在“被δ加权”后的版本 η^C。这些是理解渐近方差表达式（如 V_I）的关键。
最重要的假设：
- （A2）光滑性（小球概率与Lipschitz）：函数型协变量的小球概率 φ_χ(ϵ) 的行为被一个正则变差函数 ϕ(ϵ) 控制，并且 m、g_j 等函数满足Lipschitz条件（指数 α）。这确保了kNN有界偏差。
- （A4）复杂性（Kolmogorov熵）：函数空间 S_F 的Kolmogorov熵 ψ 增长不能太快，这是保证一致收敛性（定理2.2(ii)等）的关键技术条件。它限制了函数空间的“大小”。
- （A5）平滑参数条件：对k_0和k_1的数量级有明确限制，如 log n / k_u → 0（确保方差小）和 ψ(log n / n) < k_u / log n（确保偏差可忽略）。
与已有文献的比较：相比Ling et al. (2019) 的核估计，本文的假设中更强调了H_{k,χ}的随机性处理，因此多了对 Kolmogorov熵的显式使用（A4），并放宽了对 φ_χ 连续性的某种要求（因为kNN不固定带宽）。相比 Wang & Sun (2007)，本文增加了关于Δ(χ)（A7）和 g^C（A2(v)）的假设以处理函数型协变量和MAR下的复杂条件矩。

主要结果（理论型）¶

定理2.2（Imputation estimator）：
- (i) √n(bβ_I - β) → N(0, Σ₁⁻¹V_I Σ₁⁻¹)。
  - 直觉：分子（V_I）由三部分组成：①观测数据的估计方差（E(δεηη^T)），②插补带来的额外偏差（来自bβ_C 和 bm_C 的误差），③前两者的交叉项。这反映了插补法在引入替代观测的同时也引入了不确定性。
  - 必要条件：√n log² n / k_u → 0，√n φ⁻¹(k_u/n)^α → 0，√n ψ(log n / n)/ k_u → 0。这些条件的核心是保证偏差项（包含log n项和φ⁻¹项）相对于 √n 可忽略。M₀ 的数量级被要求 k_u ≥ n^{(2/r)+b}，以确保矩条件满足重对数律（LIL）。
- (ii) sup_χ | bm_I(χ) - m(χ)| = O( φ⁻¹(k₀/n)^α + √{ψ(log n / n)/k₀} ) + O( φ⁻¹(k₁/n)^α + √{ψ(log n / n)/k₁} ) a.s.
  - 直觉：这是个偏差-方差分解。O(φ⁻¹(k_u/n)^α) 是来自用有限个邻居拟合Lipschitz函数m的近似偏差；O(√{ψ(...)/k_u}) 是kNN权重的方差。它比Wang & Sun (2007) 和 Ling et al. (2019) 的“收敛于概率”的结果更胜一筹——本文建立的是几乎必然一致收敛（a.s.）。
定理2.3（Semiparametric regression surrogate estimator）：
- 结论：与定理2.2形式相同，只是渐近方差 V_R 更简单：V_R = Σ₃ Σ₀⁻¹ E(Δ η^C η^C^T σ²) Σ₀⁻¹ Σ₃。
  - 直觉：回归替代法完全抛弃了观测值，只用代价值“模拟”数据，因此没有来自“填补值与真实值之差”的额外方差，代价是方差项只依赖于代价值，可能效率更低。表达式里的 Σ₃ = E(η η^C^T) 是完整数据残差与缺失数据残差的协方差。
定理2.4（Inverse marginal probability weighted estimator）：
- 结论：与定理2.2形式相同，渐近方差 V_{IP} 更为复杂，因为它还包含了逆概率权重的随机性。
  - 直觉：IPW法通过给每个观测点δ=1的数据赋予权重 1/Δ₁(χ) 来校正选择性缺失。V_{IP} 表达式中包含了 δ/Δ₁ 的项，反映了这一加权过程带来的方差放大。
备注（2.4节）：作者指出当δ独立于X（即缺失只依赖于𝒳）时，η = η^C，前两种估计量的方差简化为相同形式。若进一步 Δ₁ 为常数，则三种估计量的方差完全相等，且（当常数为1时）退化为完全观测数据下的方差。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线（以Imputation定理2.2(i)为例）：

步骤1：写出√n(bβ_I - β)的显式表达式（23-24）： √n(bβ_I - β) = (n⁻¹ X̃₁^T X̃₁)⁻¹ n^{-1/2} A_n 其中 A_n 被分解为7个部分（A_{n1}...A_{n7}），分别对应：插补值偏差、kNN平滑的逼近偏差、knN权重的二阶影响等。
步骤2：利用“eX₁ = η̃ + ... + ...”的分解（25-26）：核心技巧是将eX₁（即(I-W₁)X）分解为 eG₁ + η - W₁η，其中 eG₁ 是光滑部分g_j的估计偏差，η 是不可约的投影残差。这是所有技术工作的基础。
步骤3：证明大部分A_n项是可忽略的（式(37)-(62)）：
- 利用一系列收敛速度引理（A.3, A.4）：给出eG₁、g^, bm_C 等的一致收敛速度（O(φ⁻¹(k/n)^α + √(ψ/k))）。
- 利用Abel不等式和高阶随机变量控制（引理A.2 即Stout的LIL的变体），结合条件 √n * 偏差 → 0 和 √n * 方差 → 0，证明大部分项（A_{n1}-A_{n5}, A_{n6}的部分）比 √n 小，即 o(√n) a.s.。
步骤4：得到不可忽略的主导项（式(66)）：最终，在 A_n 中，仅剩下两项不能被忽略：
- Σ_i η_i δ_i ε_i（来自观测数据自身的方差）。
- E((1-Δ)η η^C^T) Σ₀⁻¹ Σ_i η^C_i δ_i ε_i（来自插补的代价值bβ_C 和 bm_C 带来的方差，通过线性表示（引理A.8的(58)）展开得到）。
- 对比前文定义的三种估计量的渐近方差，正是这两项及其协方差构成了V_I。
步骤5：应用中心极限定理：由于(n⁻¹ X̃₁^T X̃₁) → Σ₁（引理A.6）几乎必然，且主导项是独立同分布随机变量的和，由CLT即得渐近正态性。

关键跳跃点 & 技术难点： - 难点1：A_{n6}（插补项中代价值的误差）的处理。这是一个包含二阶随机效应的项（代价值的误差 × 插补偏差）。作者通过引理A.8的(58)（将√n(bβ_C-β)表示为i.i.d.的和的线性形式）巧妙地将其转化为一阶线性项，从而进入渐近正态性的框架。 - 关键引理 A.8：证明了辅助估计量bβ_C 的渐近正态性和重对数律。这是本文技术链中最核心的支撑，证明了在MAR数据和函数型协变量下，kNN方法依然能给出“可行”的代价值。 - 技术技巧： - Abel不等式引理A.2：处理带随机权重ω_k的求和（如max| Σ ω η |），利用了ω的界（O(1/k)）和η的矩条件。 - Kolmogorov熵：利用ψ(log n/n)来控制函数空间太“大”时kNN一直收敛的方差项，该技术在处理函数型数据非参数估计的几乎必然一致收敛问题中是标准但复杂的。 - 线性化 (Linearization)：将非线性的bβ估计量（涉及求解逆矩阵和局部平滑）最终表示为线性U-统计量之和（即bβ - β ≈ Γ * (1/n Σ φ_i)），这是半参数推断的标准技巧。

真实例子与应用¶

本文为纯理论文章，无实证例子。 它完全没有提供模拟或真实数据应用来验证其理论结果或展示相对于Ling et al. (2019)核方法的优势。这是本文的一个主要薄弱点。省略模拟实验在纯理论论文中并不罕见，但考虑到方法本身（特别是kNN对于MAR的优势）在实证中是否有明显表现是读者自然期望看到的。

🔎 结论是否比证明窄¶

是的。 定理2.2(ii) 的结果是“sup |bm_I - m| = O(...) a.s.”，但作者在2.4节声称“such uniform convergence rate is almost sure, while in Wang and Sun (2007) and Ling et al. (2019) the uniform rate was in probability.” **这一点在证明中并未被严格证明**：定理2.2(ii)的证明最终是通过将bm_I(χ) - m(χ)分解为 6 个项，并分别用一致速率放缩（如式(71)-(76)）得到最终的一致收敛速率。然而，这个放缩过程依赖于sup_χ的成立，但最后只求和了几个B_{nr}(χ)的sup_χbound，中间步骤没有对所有χ的联合渐近控制，因此严格来说**只能说B_{nr}(χ)对每个χ有上述a.s.的速率，但并不能直接推出整体的sup_χ是一致的**。作者引用了Kudraszow & Vieu (2013)的定理2（Lemma A.3）来保证sup_χ的速率，这是正确的，但本文的m估计量还要加上bβ的误差，该误差是Oₐ(log log n / √n)，而g(χ) - hat{g}(χ)项的sup速率是o(1)，所以最终误差的主导项应该是B_{n5}(χ) = g^T (bβ-β) 的 sup。但sup_{χ} |a(χ)^T (bβ-β)|可能被sup_{χ} |a(χ)|和|bβ-β|的乘积控制，而sup_{χ} |a(χ)|恰好来自g(χ)的Lipschitz性质（有界），因此这个推断是可行的。**作者没有显式写出这一论证，但从写法来看，他是认为sup_{χ}`可以那样放大的。因此，结论没有比证明窄**，只是证明中有些步骤写得不够详尽。
更严重的窄点在于：本文没有给出m的收敛速率的最优性分析。它给出的速率（依赖于φ、ψ和k）仅仅是技术可达的速率，但这不是函数型非参数回归的minimax最优速率。读者无法判断这个速率是否已经是最佳可能。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界：本文给出了三种估计量的渐近方差，但未声明它们是否达到了半参数效率下界。这是一个直接的开放问题：是否可以构造出关于β的半参数有效的估计量（如通过估计高效影响函数）？这一缺口扎根于论文“引言”部分不提效率界、和“定理”部分只给出方差没有进行比较。
最优的k选择：定理2.2(ii)中的收敛速率依赖k₀和k₁，但并未提供选择k的准则（如交叉验证或Plug-in方法），其最优性条件也未给出。作者在“Some comments”中声称“the rate is the same as that obtained in Kudraszow and Vieu (2013) and Ling et al. (2020)”，但未涉及最优k的识别。这是方法应用的关键缺口。
到异质处理效应（HTE）的接口：本文的模型形式Y = X^Tβ + m(𝒳) + ε 与因果推断中条件平均处理效应（CATE） 的估计框架高度相关，其中X可以是处理变量，𝒳是高维/函数型协变量。将本文的kNN MAR框架扩展到Treatment缺失的场景，或将响应函数视为E[Y|T, X]并估计CATE，是一个自然延伸。扎根于论文模型形式本身及其结构（线性+非线性）。
empirical process / 一致收敛理论的统一分析：作者利用Kolmogorov熵（A4）来控制一致收敛，但该技术在函数型数据估计中相当受限和复杂。是否可以用更现代的经验过程理论（如Donsker类/VC维）来简化或扩展该理论？这是个值得探索的统计纯理论问题，扎根于作者对(A4)条件的依赖。

Maintained by 陈星宇 · Homepage · Source on GitHub