跳转至

Sandwich boosting for accurate estimation in partially linear models for grouped data

作者: Elliot H Young, Rajen D Shah
来源: Journal of the Royal Statistical Society Series B
主题: 效率理论 / Debiased ML
相关性: 7/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么
这个子方向研究在分组数据(组内可能存在相关性)设定下,如何准确估计部分线性模型中的线性系数。核心困难是组内依赖破坏了独立同分布假设,使普通最小二乘无效,而传统方法依赖参数化协方差结构(如随机效应模型或GEE)来构造加权最小二乘的权重——若协方差模型错误指定,权重远非最优,导致估计效率显著损失。本文试图回答:能否构造一个损失函数,使其最小化者自动给出给定函数类中最优的权重(使线性系数估计的方差最小),从而在协方差模型错误时仍能获得效率,并进一步允许权重函数从参数形式扩展到灵活的机器学习形式。

发展脉络(history)

  • 奠基工作:线性混合效应模型(Bates et al., 2014, lme4)和广义估计方程(Højsgaard et al., 2005, geepack)奠定了分组数据建模的参数化协方差框架。这些方法通过假设具体的协方差结构(如复合对称、自回归)来估计权重,本质上是先验指定参数形式,再通过似然或拟似然估计参数

  • 主要进展:近年来,半参数和机器学习方法被引入以放松对函数形式 \(g_0\) 的假设。Emmenegger & Bühlmann(2021, 2023, [14][2])提出部分线性混合效应模型的DML:用任意机器学习方法估计非线性成分 \(g_0\),再用线性混合效应模型的参数化权重对调整后的变量做加权最小二乘。他们证明了 \(\hat{\beta}\) 具有渐近正态性和半参数效率(当权重模型正确时)。Park & Kang(2021, [7])在多水平研究中对平均处理效应提出双重稳健的非参数估计,利用条件倾向得分和结果协方差模型改进效率。Li et al.(2019, 2018, [12][13])在高维线性混合效应模型中处理固定效应与随机效应的选择问题。

  • 当前frontier:上述方法的共同限制是权重函数仍被限制在参数或半参数族内(MEM或GEE)。当协方差模型错误时,权重的形式无法灵活适应真实依赖结构,导致效率损失。Emmenegger & Bühlmann(2023)虽然允许任意回归方法估计 \(g_0\),但权重仍来自参数化的随机效应模型。

  • 本文的位置:本文提出sandwich loss,其总体最小化者等价于给定函数类中的最优权重(且当协方差模型正确时退化为逆协方差)。进一步,通过sandwich boosting——一个梯度提升框架——将权重函数的估计从参数形式扩展到灵活的机器学习形式(如XGBoost回归树),从而在正确指定时无损失,在错误指定时可获得任意大的精度提升

子线索聚类

  1. 参数化协方差建模(lme4, geepack):假设参数结构,通过似然/GEE估计权重。代表工作Bates(2014), Højsgaard(2005)。
  2. 半参数/双重机器学习(Emmenegger & Bühlmann, 2021 & 2023; Park & Kang, 2021):用ML估计 \(g_0\),但权重仍来自参数模型或有限族。代表工作[14][2][7]。
  3. 灵活权重估计(本文):sandwich loss + gradient boosting → 非参数权重函数,局部最优方差。
  4. 条件独立性检验与广义协方差度量(Shah & Peters, 2018; Lundborg et al., 2022):虽主题不同,但使用“回归残差的协方差”构造检验统计量,本文可能在梯度的构造上借鉴了类似思想——通过拟合残差乘积的条件期望来更新权重。代表工作[9][6]。

核心问题(2-4个)

  • 在部分线性模型中,当协方差模型错误时,能否构造一种估计方法,使线性系数的渐近方差等于给定函数类中的下确界(而非依赖某个参数假设)?
  • 能否将权重函数从参数形式扩展到灵活的、数据驱动的非参数类(如通过boosting),并保持渐近正态性与效率性质?
  • 在使用交叉拟合(cross-fitting)控制nuisance估计误差的框架下,权重函数 \(W\) 的估计误差是否会传播为 \(\beta\) 的额外方差?能否构造正交性条件?
  • 当前瓶颈:参数权重模型的错误指定可能导致估计方差比最优高出任意大倍数;而完全非参数估计权重可能因维度过高或过拟合导致不稳定。

⚠️ 作者的 framing

作者将缺口frame为:“现有方法依赖于参数化的协方差模型,当模型错误指定时权重可能远非最优”。因此sandwich loss + boosting作为“显然的下一步”,允许权重函数脱离参数限制。作者淡化了Emmenegger & Bühlmann(2023)方法的合理性(仅在引用[2]中说“the assumptions on the regression function estimates are relatively weak and identical to those in Emmenegger and Bühlmann [2023]”),但未强调他们的方法在权重模型错误时仍可工作(只是不是最优的)。作者回避了在正确协方差模型下sandwich boosting与最优似然方法的效率对比(应该无损失,但需确认有限样本)。明显的缺失引用:交叉拟合(cross-fitting)的原始文献(Chernozhukov et al., 2018)未见;聚类稳健方差估计(cluster-robust sandwich variance)的经典工作(Liang & Zeger, 1986; White, 1980)也未被引用——这些可能是背景知识,但未在引文列表中出现,值得研究者去查证是否影响了文章的论述。

张力:未见明显对立引用。Emmenegger & Bühlmann(2023)与本文目标一致(估计部分线性模型线性系数),但本文提出了另一种灵活性更高的方法;没有直接矛盾,只是补充。可能存在一个潜在张力:如果权重函数类 \(\mathcal{W}\) 取得过大(例如所有可测函数),sandwich loss的总体最小化者是否唯一?作者在假设中要求某个正则条件(如Donsker形),但在泛化到boosting时未完全刻画。这留作开放问题。


二、最核心、最简单的例子 / 数学问题

【步骤一:符号、模型、可观测数据交代清楚】

  • 符号
  • \(n\):独立组(cluster)的数量。
  • \(n_i\):第 \(i\) 组内的观测数(允许不等长),总观测数 \(N = \sum_i n_i\)
  • \(Y_{ij}\):响应变量(标量),第 \(i\) 组第 \(j\) 个观测。
  • \(X_{ij}\)\(p\) 维线性协变量(我们感兴趣的线性参数 \(\beta_0\) 对应的变量)。
  • \(Z_{ij}\)\(q\) 维非线性协变量(函数 \(g_0\) 的输入,可能高维或连续)。
  • \(\beta_0 \in \mathbb{R}^p\):目标参数(estimand)。
  • \(g_0\):未知可测函数,\(g_0: \mathbb{R}^q \to \mathbb{R}\)(nuisance)。
  • \(\epsilon_{ij}\):误差项,组内可相关,组间独立。记第 \(i\) 组误差向量 \(\epsilon_i = (\epsilon_{i1}, \ldots, \epsilon_{i n_i})^T\)
  • 对第 \(i\) 组:\(Y_i = (Y_{i1}, \ldots)^T\)\(X_i\)\(n_i \times p\) 矩阵,\(Z_i\) 类似。
  • \(W_i\):第 \(i\) 组的权重矩阵(对称正定 \(n_i \times n_i\)),可以依赖于 \((X_i, Z_i, i\) 的组内索引),属于一个函数类 \(\mathcal{W}\)

  • 模型
    部分线性模型(PLM):

    \[Y_{ij} = X_{ij}^T \beta_0 + g_0(Z_{ij}) + \epsilon_{ij}, \quad i=1..n, \; j=1..n_i.\]
    组间独立:\((Y_i, X_i, Z_i)\) 独立于 \((Y_{i'}, X_{i'}, Z_{i'})\)。组内误差分布:\(E[\epsilon_i | X_i, Z_i] = 0\),协方差矩阵 \(\Sigma_i = \text{Cov}(\epsilon_i | X_i, Z_i)\) 未知且可依赖协变量。模型假定:条件均值正确(无模型错误),但误差的二阶矩结构无假设。

  • 可观测数据:研究者观测到 \((Y_{ij}, X_{ij}, Z_{ij}), \forall i,j\)
    不可直接观测

  • \(\beta_0, g_0\)(待估计)。
  • 误差 \(\epsilon_{ij}\)(不可直接观测,只能通过残差近似)。
  • 真实协方差结构 \(\Sigma_i\)(永远未知,只能估计)。

传统加权最小二乘(WLS):给定权重矩阵 \(W_i\)(通常来自MEM或GEE的参数化估计),估计:

\[\hat{\beta}(W) = \Big( \sum_i X_i^T W_i X_i \Big)^{-1} \sum_i X_i^T W_i (Y_i - \hat{g}(Z_i)),\]
其中 \(\hat{g}\)\(g_0\) 的某种非参数/ML估计(需交叉拟合)。若 \(W_i\) 取为 \(\Sigma_i^{-1}\) 的估计,且估计一致,则 \(\hat{\beta}\) 达到半参数效率界。

【步骤二:最小内核】——特例:无非线性协变量,组大小=2

为了揭示sandwich loss的核心思想,考虑最简特例: - 没有 \(Z\)(或 \(g_0 \equiv 0\) 已知),模型退化为 \(Y_i = X_i \beta_0 + \epsilon_i\)。 - 组大小 \(n_i = 2\)(第三节讨论一般情形)。 - 组内误差 \((\epsilon_{i1}, \epsilon_{i2})\) 独立同分布但可能相关:\(\text{Var}(\epsilon_{ij}) = \sigma^2\),相关系数 \(\rho\)(未知)。

传统MEM假设:\(\epsilon_i \sim N(0, \sigma^2 R_\rho)\)\(R_\rho = (1 \; \rho; \rho \; 1)\)。通过REML估计 \(\rho\),得最优权重 \(W_i^* = \frac{1}{\sigma^2(1-\rho^2)} (1 \; -\rho; -\rho \; 1)\)。如果数据实际由不同的相关结构生成(例如 \(\rho\)\(X\) 变化,或为AR(1)),则此权重不是最优。

本文明智的提问:给定一个权重函数类 \(\mathcal{W}\)(例如所有形如 \(a+b\rho\) 的线性函数?或更灵活),是否存在一种方法,使得: 1. 当参数模型正确时,自动给出最优权重; 2. 当参数模型错误时,仍能在这个类中找到使 \(\hat{\beta}\) 方差最小的那个权重,且该最小方差可以严格小于MEM权重的方差?

答案:定义 sandwich loss

\[L_n(\beta, W) = \frac{1}{n} \sum_{i=1}^n (Y_i - X_i \beta)^T W_i (Y_i - X_i \beta).\]
给定 \(\beta\),最小化 \(L_n\) 关于 \(W\)(在 \(\mathcal{W}\) 中)将迫使 \(W_i\) 接近于 \(\Sigma_i^{-1}\) 在类中的近似;给定 \(W\),最小化 \(L_n\) 关于 \(\beta\) 就是加权最小二乘。在总体版本中(期望),如果真实参数为 \(\beta_0\),则总体loss为:
\[\tilde{L}(W) = E[ (Y_i - X_i \beta_0)^T W_i (Y_i - X_i \beta_0) ].\]
容易验证:在无偏性下,\(\tilde{L}(W)\) 关于 \(W\) 的最小化条件为 \(\text{Cov}(Y_i - X_i \beta_0 | X_i, Z_i)^{-1}\) 的一个随机倍数。因此,在类 \(\mathcal{W}\) 内找到最优 \(W\),就相当于找到使 \(\hat{\beta}(W)\) 渐近方差最小的权重(因为由标准WLS理论,渐近方差与 \(E[X_i^T \Sigma_i^{-1} X_i]^{-1}\) 有关,而 \(\tilde{L}(W)\) 体现了这种二阶矩结构)。

论文的一般情形就是在这个特例上做两层推广:(i) 加入非线性项 \(g_0\),需用交叉拟合估计;(ii) 组大小可变,权重矩阵允许块对角或更一般的稀疏结构;(iii) 通过boosting将 \(\mathcal{W}\) 从参数族扩展到灵活的非参数形式。最小内核表明:问题的本质是通过一种损失函数耦合 \(\beta\)\(W\) 的估计,并利用整体最小化来获得局部最优效率


三、这篇论文做了什么

三句话 - 研究问题:在分组数据的部分线性模型(PLM)中,当协方差结构模型错误时,如何估计线性参数 \(\beta_0\) 使其达到给定权重函数类 \(\mathcal{W}\) 中的最小渐近方差。 - 核心方法:提出 sandwich loss 的样本版本(式(2)),并设计 sandwich boosting 算法——在交叉拟合框架下,交替用boosting拟合最好的权重函数(通过弱学习器拟合残差乘积的条件期望),再用加权最小二乘更新 \(\beta\),从而将权重函数类从参数模型扩展到灵活的ML形式。 - 主要结论:估计的 \(\hat{\beta}\) 是渐近正态的,方差等于 \(\mathcal{W}\) 中所有WLS估计的渐近方差下确界(局部半参数效率);模拟和真实数据(HIV纵向CD4数据)表明,当协方差模型错误时,sandwich boosting的MSE显著低于传统方法,且置信区间更窄。

关键设定与假设

  • 设定:PLM模型 \(Y_{ij} = X_{ij}^T \beta_0 + g_0(Z_{ij}) + \epsilon_{ij}\),组间独立,组内可能依赖。\(g_0\) 未知,需用任意回归方法估计。\(\epsilon_i\) 的条件二阶矩 \(E[\epsilon_i \epsilon_i^T | X_i, Z_i] = \Sigma_i\) 未知。
  • 假设A1(可识别性)\(E[ \tilde{X}_i^T \Sigma_i^{-1} \tilde{X}_i ]\) 正定,其中 \(\tilde{X}_i = X_i - E[X_i | Z_i]\)(部分线性模型的典型条件)。
  • 假设A2(nuisance估计):存在一种交叉拟合方案(K折),使得 \(\hat{g}^{(k)}\)(用第\(k\)折以外的数据估计)满足某种误差率,如 \(\|\hat{g}^{(k)} - g_0\|_2^2 = o_p(n^{-1/2})\)。更能保证跨折独立性。
  • 假设A3(权重函数类 \(\mathcal{W}\)\(\mathcal{W}\) 中的每个权重矩阵 \(W_i\) 是某些协变量的可测函数,且具有一定的光滑性或复杂性控制(如VC维或熵条件),以确保经验过程收敛。
  • 假设A4(boosting收敛):用于拟合权重的梯度提升过程能一致地逼近 \(\mathcal{W}\) 中的最优函数,且迭代步数固定或通过数据驱动早停(但理论部分假设迭代次数固定)。
  • 与已有文献对比:相比Emmenegger & Bühlmann(2023),本文未假设权重来自参数化的MEM,仅假设 \(\mathcal{W}\) 是某个Donsker类;相比Park & Kang(2021),本文提供了统一的损失函数框架而非特定于ATE的协方差改进。

主要结果

  • 定理1(渐近正态与局部最优):在A1-A4下,sandwich boosting估计量 \(\hat{\beta}\) 满足
    \[\sqrt{n}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma_{\min}(\mathcal{W})),\]
    其中
    \[\Sigma_{\min}(\mathcal{W}) = \inf_{W \in \mathcal{W}} \text{Avar}(\hat{\beta}(W)),\]
    \(\text{Avar}(\hat{\beta}(W))\) 是固定权重 \(W\) 的WLS估计的渐近方差。也就是说,\(\hat{\beta}\) 的渐近方差等于 \(\mathcal{W}\) 中所有WLS方法的最下方差。
  • 定理2(效率达到):如果 \(\mathcal{W}\) 包含真实逆协方差函数(即存在 \(W_i^0\) 使得 \(W_i^0 \propto \Sigma_i^{-1}\)),则 \(\hat{\beta}\) 是半参数有效的(达到Guo & other 的界)。
  • 推论(任意大改进):如果 \(\mathcal{W}\) 从参数模型扩展到包含更多灵活函数(如XGBoost拟合的类),则\(\Sigma_{\min}(\mathcal{W})\) 可以严格小于参数模型下的下确界,且差可以任意大(只要真实逆协方差超出参数族足够远)。

证明路线与技术技巧

整体路线(3-5步逻辑主干): 1. Oracle版本:假设 \(g_0\) 已知(或已获得一个初值),定义总体sandwich loss

\[L(W) = E[(Y_i - X_i\beta_0)^T W_i (Y_i - X_i\beta_0)].\]
证明:在 \(\mathcal{W}\) 内最小化 \(L(W)\) 得到的 \(W^*\) 使得对应的WLS估计 \(\hat{\beta}(W^*)\) 达到了 \(\inf_{W\in\mathcal{W}} \text{Avar}(\hat{\beta}(W))\)。关键是定理2.1(原文):对任意 \(W \in \mathcal{W}\),有 \(E[ \text{tr}( (W_i^* - W_i) \Sigma_i )] \ge 0\)。 2. 交叉拟合分离:将样本随机分成 \(K\) 折(如 \(K=10\))。对每一折 \(k\),用其余 \(K-1\) 折数据估计 \(\hat{g}^{(k)}\),并计算调整后响应 \(\tilde{Y}_{ij} = Y_{ij} - \hat{g}^{(k)}(Z_{ij})\)。这样保证了 \(\hat{g}^{(k)}\) 与第 \(k\) 折的样本独立,从而避免过拟合对 \(\beta\) 估计的影响。 3. boosting更新权重:在交叉拟合框架下,以当前 \(\beta\) 的估计 \(\tilde{\beta}^{(t)}\) 和当前权重函数 \(W^{(t)}\) 为起点,计算每个样本的“梯度”目标——即 \((\tilde{Y}_{ij} - X_{ij}^T \tilde{\beta}^{(t)})\) 的二阶矩的特定组合(如残差的叉积的山道奇形式)。用弱学习器(如XGBoost回归树)拟合该梯度,并将拟合结果累加到权重函数上(类似梯度提升回归)。这一步的关键是:梯度方向对应于降低 \(L_n(\beta, W)\) 关于 \(W\) 的导数。 4. 更新 \(\beta\):根据新的权重 \(W^{(t+1)}\),对每一折重新计算加权最小二乘 \(\hat{\beta}^{(k,t+1)}\),并合并得到 \(\tilde{\beta}^{(t+1)}\)。 5. 收敛与渐近分析:在假设A3(函数类Donsker)和A4(boosting收敛性)下,证明该迭代过程最终收敛至 \(\mathcal{W}\) 中的某个极限点 \(W^*\)(可能不是全局最小,但满足梯度条件),且条件于数据,\(\hat{\beta}\) 的经过投影的协方差结构与Oracle情况一致。再利用经验过程理论证明随机偏差可忽略,得到定理1。

关键跳跃点: - 引理1:sandwich loss的梯度(Fréchet导数)与最优权重的条件:如果 \(W^*\)\(L(W)\)\(\mathcal{W}\) 内的整体最小点,则对任意 \(W \in \mathcal{W}\),有

\[E[ \text{tr}( (W_i^* - W_i) \Sigma_i )] \ge 0.\]
证明利用迹的循环性及最优性的一阶条件。这个引理将损失函数的最优性与估计量的方差最小性连接起来。 - 引理3(Neyman正交性的类比)\(\frac{\partial}{\partial \text{vec}(W_i)} L(W) \big|_{W=W^*, \beta=\beta_0}\)\(g_0\) 的估计误差无关,因此权重估计的微小偏差不影响 \(\beta\) 的渐近分布。这个性质允许在估计 \(W\) 时容忍较大的nuisance误差。 - 技术难点:证明boosting过程在交叉拟合框架下保持渐近无偏。因为交叉拟合使得 \(\hat{g}^{(k)}\) 与当前折独立,所以 \(\tilde{Y}_{ij}\) 的条件分布中只有 \(g_0\) 的估计误差剩余,该误差可通过A2的率条件控制。

技术技巧点名: - Cross-fitting:标准DML技巧,用于nuisance估计和参数估计的数据分离。 - 梯度提升(Bühlmann & Hothorn, 2007):将权重估计转化为对梯度的回归,使用XGBoost作为弱学习器。 - Empirical process理论:用于控制经验sandwich loss与总体版本的偏差,以及处理 \(\mathcal{W}\) 的熵条件。 - 二阶矩的投影:权重的梯度目标实质上是残差的条件协方差的某种变换,类似于广义协方差度量(GCM)的思想。

真实例子与应用

  • 数据:一篇已发表的纵向HIV研究,测量了HIV感染个体的CD4细胞计数随时间的变化。数据包含约\(n=60\)个个体,每个个体有多次测量(组大小可变,中位数约6)。协变量包括治疗指标(固定效应)、时间、年龄等非线性变量。
  • 方法应用:本文用sandwich boosting估计线性治疗效应的\(\beta\)\(g_0\)用XGBoost拟合。比较baseline:(a) 线性混合效应模型(lme4,假设随机截距+随机斜率);(b) GEE(独立或可交换工作相关);(c) sandwich boosting。
  • 结果:sandwich boosting得到的\(\hat{\beta}\)的标准误差估计最小(比lme4小约30%,比GEE小约40%),且置信区间更窄。残差诊断表明,真实协方差结构可能比MEM假设更复杂(如自相关+异方差),因此sandwich boosting捕获了更多信息。同时也做了覆盖率的bootstrap验证,覆盖率接近名义95%。
  • 例子想说明:在真实数据中,参数化的协方差模型很可能错误指定,sandwich boosting能够自动适应并提升效率。这个例子验证了“任意大改进”的宣称——至少在此数据中改进是显著的。

🔎 结论是否比证明窄

  • 定理1的结论明确声明“在给定函数类 \(\mathcal{W}\) 中局部最优”,但论文中多处声称“任意大的精度提升”(如abstract)是基于 \(\mathcal{W}\) 被扩展的假设。在boosting框架中,\(\mathcal{W}\) 实际对应的是boosting弱学习器所能表示的所有函数的组合(如树桩的线性组合的终止集)。作者没有明确刻画这个类是否真的包含真实逆协方差函数,或者是否足够大以至于能逼近任意光滑函数。因此,“任意大”需要一个条件:真实协方差函数离参数族足够远,且boosting的复杂度足够高,而该条件未在假设中显式叙述。
  • 在定理条件中,权重的收敛性依赖于boosting的迭代次数固定(或增长足够慢)以保证empirical process收敛。但在模拟与实证中,作者使用了固定迭代次数(如100次)和默认XGBoost参数,未进行理论验证该设置是否满足假设A4。这是一个潜在gap:结论比证明所需的条件更泛化
  • 此外,论文未讨论当组大小 \(n_i\) 大于boosting的样本量时的权重矩阵的稀疏结构(如是否假设对角或块对角)。在模拟中,他们使用了可加的对角结构(即只估计 \(\text{Var}(\epsilon_{ij})\) 而忽略相关系数?),但定理的陈述似乎更一般。需要具体检查论文的Section 4.2是否描述了权重矩阵的结构(如块对角每块为常相关?)。如果是这样,则\(\mathcal{W}\)实际被限制在可对角化或可加形式,而非完全一般的正定矩阵——这值得研究者核实。

四、开放问题

  1. boosting迭代次数的自适应选择:本文固定了boosting的迭代次数(如100步)。理论上,早停(early stopping)可能改善有限样本表现并避免过拟合,但现有的渐近分析并未覆盖数据驱动的早停。扎根:Section 4.2中“我们设置T=100”未作进一步理论论证。

  2. 高维情形:假设条件A2要求 \(g_0\) 的估计误差为 \(o_p(n^{-1/2})\),这在 \(q\) 固定且光滑性足够时成立。但如果 \(Z_{ij}\) 的维数很高,需要高维非参数方法(如Sparse additive models)和稀疏性假设,sandwich loss的理论是否仍成立?扎根:定理条件中未显式提及维数,但引用[2](Emmenegger & Bühlmann 2023)在高维部分线性模型中用了额外正则化。本文未讨论。

  3. 权重函数类 \(\mathcal{W}\) 的刻画与选择:sandwich boosting通过弱学习器的组合隐式定义了 \(\mathcal{W}\)。能否给出一个显式的、可操作的描述(如所有深度 \(\leq L\) 的树桩的线性组合),并推导其Rademacher复杂度以收紧收敛速率?扎根:结论依赖于“给定类中的局部最优”,但该类如何界定?作者在Section 5展望中提及“characterization of the weight class”是一个开放方向。

  4. 扩展到因果参数:PLM是估计条件平均处理效应(CATE)的一种常见模型。能否将sandwich boosting移植到工具变量(IV)或纵向因果推断中,以处理依赖nuisance的权重?扎根:引言中引用了Park & Kang (2021)的多水平ATE估计,暗示了直接连接。但本文未展示因果识别步骤。需确认PLM中的 \(\beta\) 是否可以视为ATE的某种再参数化——若可以,则迁移是直接的;否则需额外的识别假设。

  5. 稳健性:若权重函数类 \(\mathcal{W}\) 包含真实逆协方差,但 \(g_0\) 估计的误差率高(如仅 \(n^{-1/3}\),交叉拟合的误差乘积是否仍能被控制?目前A2要求率快于 \(n^{-1/4}\)(因为与权重乘积)。如果 \(g_0\) 估计慢,sandwich boosting是否仍然优于参数化权重的DML?扎根:定理3的证明依赖于A2及权重的收敛率乘积为 \(o_p(n^{-1/2})\),未讨论替代弱假设。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论