跳转至

Kernel-Profile Efficient Estimation in Generalized Partially Linear Models with Missing Outcomes in Longitudinal Studies

作者: Zhongzhe Ouyang, Chang Wang, Lu Wang
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202024.0380


一、领域脉络与小综述

这个方向是什么

这个子方向关注的是纵向研究中,当结果变量存在缺失时,如何对条件均值进行有效且稳健的半参数推断。具体来说,数据来自多个个体的重复测量(面板数据),我们希望估计一个“广义部分线性模型”(GPLM),该模型将条件均值分解为一个线性参数部分 \( X^\top\beta \) 和一个非参数光滑部分 \( \eta(Z) \)。这里的核心统计问题有两个:一是如何处理由缺失机制导致的偏差(即非随机缺失或缺失机制需要被正确建模);二是在半参数框架下,如何构造既对模型误设稳健(双稳健,double robustness)又能达到半参数效率界的参数估计量。该方向当前成熟度较高,已有大量关于交叉验证、核方法和逆概率加权(IPW)结合的工作,但将其系统地推广至纵向缺失数据并严格证明达到效率界的工作,仍属前沿。

发展脉络 (history)

作者在引言中构建了一条清晰的演化链条(以下每一点都引用作者自己的判断,而非我代评):

  1. 奠基工作:纵向数据分析与广义线性模型 (GLM)。Liang 和 Zeger (1986) 的广义估计方程(GEE)是纵贯数据标准工具,但其假设缺失完全随机(MCAR),且未利用缺失数据的分布信息。Diggle 等 (2002) 的专著系统总结了纵向数据建模框架。作者认为这些工作是基础,但留下了“如何系统处理非随机缺失”的核心缺口

  2. 主要进展:广义部分线性模型与缺失数据处理

    • 在模型层面:Severini 和 Staniswalis (1994) 提出了剖面似然(profile likelihood)方法,而 Lin 和 Carroll (2006) 将其推广到纵向广义半参数模型(使用核估计方程)。作者认为,这些工作设定了核心模型,但它们的处理缺失机制方法较弱,通常只考虑完全案例分析。
    • 在缺失机制层面:Robins 等 (1995) 引入了逆概率加权(IPW)和增强逆概率加权(AIPW)方法,并确立了 “双稳健”(double robustness)的概念:只要缺失机制模型或条件均值模型二者之一正确,估计就是一致的。作者对这条线的评述是 “双稳健是处理缺失问题的强大范式,但将其从独立同分布数据迁移至纵向数据时,技术难度陡增,且往往只是简单加权,没有同时刻画参数与非参数部分的双稳健性质”
    • 在效率理论层面:Newey (1990) 和 Bickel 等 (1993) 建立了半参数效率界的系统理论;而 Chamberlain (1987) 给出了纵向面板数据模型的半参数界。作者认为,这些理论成果为形如GPLM的模型提供了效率基准,但缺失数据下的可操作构建(即找到达到该界的估计量)仍是个开放问题。
  3. 当前 frontier (作者工作的直接前身)。作者特别引用 Wang 等 (2010) 和 Chen 等 (2015) 关于纵向缺失数据下非参数与参数估计的工作,以及 Tsiatis (2006) 在缺失数据上的系统理论。作者明确指出:“现有最有效的方法(如 Wang et al. (2010) 只处理了完全参数模型;而 Chen et al. (2015) 针对的是简单的非参数模型,没有参数部分。因此,在纵向缺失数据的广义部分线性模型这一交叉点,同时实现双稳健性和效率最优的估计器,是一个自然的、未被填补的空白。”

  4. 本文的位置:基于上述分析,作者将自己定位为第一个同时实现以下三点的纵向GPLM估计方法:(i) 处理缺失结果,(ii) 参数与非参数部分均双稳健,(iii) 在多元正态假设下达到半参数效率界。

子线索聚类

  • 线索 A:纵向数据下的半参数建模(GPLM)。核心文献:Severini & Staniswalis (1994), Lin & Carroll (2006)。他们在构建核-剖面估计方程时,主要处理完整数据或 MCAR 缺失。本文修正了他们的核-剖面框架。
  • 线索 B:缺失数据下的双稳健估计(AIPW)。核心文献:Robins et al. (1995), Tsiatis (2006)。这些文献详细讨论了独立同分布数据下的双稳健性质。本文是将其推广到纵向框架。
  • 线索 C:效率理论与半参数界。核心文献:Newey (1990), Bickel et al. (1993), Chamberlain (1987)。本文参考了 Bee Leng Lee (2004) 对部分线性模型效率界的具体推导,并在多元正态假设下验证了自己估计量达到该界。

这个方向在追问的核心问题

  1. Q1 (识别与一致性):在纵向缺失数据下,如何对 GPLM 的参数部分 \( \beta \) 和非参数部分 \( \eta(\cdot) \) 构造一致估计?当缺失机制是 MAR (Missing at Random) 但非 MCAR 时,哪些假设是必需的?
  2. Q2 (双稳健性):估计方程是否能对两类模型(缺失机制模型和条件均值模型)的误设具有稳健性?即只要其中一类正确,估计就是一致的。
  3. Q3 (效率最优):在给定半参数模型下,参数部分 \( \beta \) 的估计量能否达到各半参数效率界?在什么时候达到(需要什么附加假设,如多元正态)?
  4. Q4 (纵向相关性处理):如何在核估计和剖面估计中正确处理同一主体内的相关性(即“工作相关结构”的选择和影响)?

⚠️ 作者的 framing (必须明确标注)

  • 这是作者的说法:作者把缺口 frame 成“现有纵向缺失方法要么只处理完全参数模型,要么只处理简单非参数模型,或只考虑了MCAR,而本文提供了第一个同时解决参数/非参数部分双稳健性以及效率最优的估计量”。换句话说,本文的核心 claim 是首次同时解决了Q1+Q2+Q3三个问题于纵贯GPLM设定下
  • 被作者淡化/回避的竞争路线:(i) 完全基于似然或贝叶斯的方法(如 PMM 方法)被完全跳过;作者只聚焦于半参数(矩条件 + 核平滑)方法,没有解释为什么似然方法不能或不值得使用于类似设定。(ii) 一些使用机器学习的非参数方法(如广义可加模型 (GAM) 在缺失下的变体)也被略去。作者没有回应这些方法可能具有的“自动平滑选择”优势,而是坚持核-剖面(kernel-profile)框架。
  • 什么明显该被引/该存在、却没出现在 intro 里? 作者未引任何关于“非参数U-统计量与核估计的深层关联”(比如高阶U-统计量的去中心化引理)的文献,也未见任何关于“计算复杂度”或“算法开销”(严格来说是您的研究兴趣)的讨论。这表明该论文关注统计性质而非计算权衡。

张力

未见明显对立引用。所有被引工作趋向一致:Robins 的双稳健范式、核-剖面方法、效率界理论。作者站在这些工作的延长线上,没有出现明显矛盾的工作。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

  • 下标
    • \( i = 1, \dots, m \): 个体索引。
    • \( t = 1, \dots, n_i \): 个体 \( i \)\( t \) 次测量时间点(纵向面板,\( m \) 个个体,每个最多 \( n_i \) 个时间点)。
  • 可观测数据(研究者拿到手的数据):
    • \( Y_{it} \): 响应变量(实数标量),但可能有缺失。真正可观测的是 \( \tilde{Y}_{it} = R_{it} Y_{it} \),其中 \( R_{it} \) 是缺失指示变量。假设缺失机制是 MAR (Missing at Random)。
    • \( X_{it} \): \( p \)-维协变量向量(参数部分,线性)。
    • \( Z_{it} \): \( q \)-维协变量向量(非参数部分,光滑)。
    • 另外还可以观察 \( V_{it} \): 一组辅助变量(可能包括历史协变量或缺失相关的变量),用于建模缺失机制和条件均值。可观测数据集合\( \{ \tilde{Y}_{it}, X_{it}, Z_{it}, V_{it}, R_{it} \} \)。注意,当 \( R_{it} = 0 \) 时,真正的 \( Y_{it} \) 未被观测到,只知其缺失。
  • 待估计量
    • \( \beta_0 \): \( p \)-维参数,是真正条件均值中的线性部分系数。
    • \( \eta_0(\cdot) \): 从 \( \mathbb{R}^q \)\( \mathbb{R} \)光滑非参数函数
  • 模型 (广义部分线性模型, GPLM)
    • 条件均值假设:\( E[Y_{it} \mid X_{it}, Z_{it}] = g( X_{it}^\top \beta_0 + \eta_0(Z_{it}) ) \),其中 \( g(\cdot) \)已知连接函数(如 logit 或 log)。
    • 方差假设(工作方差结构):\( \text{Var}(Y_{it} \mid X_{it}, Z_{it}) = \nu( X_{it}^\top \beta_0 + \eta_0(Z_{it}) ) \),其中 \( \nu(\cdot) \)已知方差函数(如对于泊松,\( \nu(\mu) = \mu \))。
    • 相关性假设:同一主体 i 内各时间点 t 的测量相关,但结构未知,论文使用“工作相关结构”(working correlation)来处理(作者用独立结构,并参考文献表明对参数估计影响有限)。
  • 缺失机制模型
    • 假设 MAR 成立:\( P(R_{it}=1 \mid Y_i, X_i, Z_i, V_i) = P(R_{it}=1 \mid X_i, Z_i, V_i, R_{i, t-1}, Y_{i, t-1}^{obs}) \),即缺失只依赖于观测到的历史。
    • 倾向得分 (propensity score): \( \pi_{it}(X_i, Z_i, V_i) = P(R_{it}=1 \mid \text{obs. history}) \)。论文用一个参数模型(如 logistic)来估计 \( \pi_{it} \)
  • “想观测但观测不到”的量
    • \( R_{it}=0 \) 时,\( Y_{it} \) 是潜在(counterfactual)的。识别依赖于 MAR 假设(即已观测的 \( X, Z, V \) 可以完全解释缺失)。
  • 记号小结\( \beta \) 是参数,\( \eta(\cdot) \) 是非参。可观测数据是 \( (R_{it}Y_{it}, X_{it}, Z_{it}, V_{it}, R_{it}) \)。乘号 \( R_{it}Y_{it} \) 已经编码了缺失。

第二步:讲最小内核

最简特例:假设面板是平衡的(\( n_i = T = 2 \) 仅两个时间点,笔记:原文更为一般但此特例不失本质),且非参数部分是一维连续协变量(\( q=1 \))。再假设连接函数 \( g \) 是恒等链接(即模型简化为部分线性模型 \( Y_{it} = X_{it}^\top\beta_0 + \eta_0(Z_{it}) + \epsilon_{it} \))。

为了估计 \( \beta_0 \),剖面估计的核心思想是:先用核估计消去非参数部分 \( \eta_0 \),然后处理缺失部分。具体如下(用原文符号):

  1. 已知 \( \beta \) 下估计 \( \eta \)(使用非缺失样本)

    • 对每个时间点 \( t \) 和每个聚焦点 \( z_0 \),我们要估计 \( \eta(z_0) \)。这是一个标准一维核回归问题。不了解缺失时,标准核估计量是:

      \[\hat{\eta}_{\beta}(z_0) = \frac{\sum_{i=1}^m R_{it} K_h(Z_{it} - z_0) (Y_{it} - X_{it}^\top\beta)}{\sum_{i=1}^m R_{it} K_h(Z_{it} - z_0)}.\]
      这里 \( R_{it} \) 确保只使用结果被观测到的数据。\( K_h \) 是一个以带宽 \( h \) 缩放的核函数。这个式子本质上是局部常数回归。

    • 核心简化:在最小内核里,我们假设时间点 t 是独立的,且个体间独立。上面就是一个简单的核加权平均。此处没有任何加权(如 AIPW 加权)直接使用缺失指示。所以,第一步是最简单的核估计,仅处理缺失造成的选择偏差。

  2. 逐步求解 \( \beta \)

    • \( \hat{\eta}_{\beta}(z) \) 替代真实的 \( \eta(z) \),建立求解 \( \beta \) 的得分方程。标准剖面估计方程为:
      \[\sum_{i=1}^m \sum_{t=1}^T R_{it} \tilde{X}_{it}(\beta)^\top \frac{Y_{it} - X_{it}^\top\beta - \hat{\eta}_{\beta}(Z_{it}) }{ \nu(\mu_{it}) } = 0,\]
      其中 \( \tilde{X}_{it}(\beta) = X_{it} - \frac{\partial \hat{\eta}_{\beta}(Z_{it})}{\partial \beta} \) 是修正后的“影响函数”中的残差。这个方程的解即为 \( \hat{\beta} \)(最朴素剖面)。
  3. 缺失偏差:上面第 (1) 和第 (2) 步在 MAR 下只能通过完全案例分析(只保留 \( R_{it}=1 \) 的数据),但这不一定是无偏的,因为任何轨迹 \( R_{it} \) 的选择可能与 \( Y \)\( (X, Z) \) 相关(即使控制了 \( Z \))。普通 IPS 权重 \( w_{it} = 1 / \hat{\pi}_{it} \) 可以修正该偏差。但 IPW 在倾向得分模型误设时失败。

  4. 核心思路:AIPW 核-剖面估计方程

    • 本文的核心创新是在上述剖面方程中应用 AIPW 技巧,使得即使倾向得分模型被错误设定,只要条件均值模型正确,估计依然一致。
    • 对于每个个体 i 和时间 t,其贡献不仅包括被观测样本 \( R_{it}=1 \) 的加权 \( Y_{it} \),还加入一个“增强项”来修正:
      \[\frac{R_{it}}{\hat{\pi}_{it}} \tilde{X}_{it} \left( Y_{it} - X_{it}^\top\beta - \hat{\eta}_{\beta}(Z_{it}) \right) - \frac{R_{it} - \hat{\pi}_{it}}{\hat{\pi}_{it}} \tilde{X}_{it} \left( m_{it}^\beta(X_i, Z_i, V_i) \right) = 0 \quad \text{(对 i, t 求和)}.\]
      其中 \( m_{it}^\beta(X_i, Z_i, V_i) = E[Y_{it} \mid X_i, Z_i, V_i] - X_{it}^\top\beta - \eta(Z_{it}) \) 是用辅助变量对缺失样本的条件均值残差的模型预测值。如果这个模型正确,即使倾向得分模型误设,第二项可以消除第一项中的偏差(因为预期值为 0)。若两个模型有一个正确,整个方程的无偏性成立(双稳健)。

最小内核总结:把纵向面板按时间点拆开,化成多个独立的横截面 GPLM 缺失问题 + 利用 AIPW 修正剖面方程的偏差。这个内核(从线性模型中分解,利用 AIPW 增强)就是论文完整框架的数学本质。

三、这篇论文做了什么

三句话

  1. 研究了什么问题:在纵向(重复测量)数据中,当结果变量 \( Y_{it} \) 缺失时,如何对广义部分线性模型 \( g^{-1}(E[Y|X, Z]) = X^\top\beta + \eta(Z) \) 进行有效和双稳健的参数(\(\beta\))和非参数(\(\eta(\cdot)\))估计。
  2. 核心工具/方法:提出纵向增广逆概率加权核-剖面估计方程,该方法将 AIPW 技巧融入核估计方程(估计 \( \eta \))和剖面估计方程(估计 \( \beta \)),并利用辅助变量 \( V \) 来同时建模缺失机制和条件均值。
  3. 主要结论:所提出的参数估计量 \( \hat{\beta} \) 和非参数估计量 \( \hat{\eta}(\cdot) \) 均具有双稳健性质。进一步,在数据满足多元正态假设的条件下,\( \hat{\beta} \) 达到了半参数效率界(即其渐近方差等于 Chamberlain 提出的 bound)。通过数值模拟和 CD4 计数数据分析,验证了其有限样本下的优秀表现。

关键设定与假设

  • 设定:纵向数据,m 个独立个体,每个 i 在 \( t=1...n_i \) 个时间点被观察。结果可缺失。模型为广义部分线性模型(GPLM,连接函数 g,已知)。
  • 假设
    • H1 (缺失机制):MAR 成立(文章第2节,式3)。缺失机制用参数模型 \( \pi_{it}(\theta) \) 刻画(如logistic回归)。
    • H2 (核函数 & 模型光滑度):核函数 \( K(\cdot) \) 为对称、有界、Lipshitz 连续的二阶核函数。非参数函数 \( \eta(z) \) 二次连续可微。
    • H3 (相关结构):同一主体内各次测量的相关性结构是静态的(但与 t 相关),但估计时可使用工作独立结构。文章声明对于参数部分,独立结构不影响无偏性。
    • H4 (多元正态假设):对于效率界达到的证明,作者假设协变量 \( (X, Z, V) \) 服从联合正态分布(文章 Sec 6, Theorem 2)。这是最强的额外假设,只在效率界的证明中出现,不是一致性的必要条件。这是一条核心技术限制。
    • H5 (正则假设):典型的正则条件(如带宽 h 满足 \( m h^q \to \infty \), \( m h^{q+4} \to 0 \)),以保证核估计的一致性与渐近正态性。

主要结果

  • 定理 1 (一致性与渐近正态性)
    • 声明:在正则条件和双稳健假设下,参数估计量 \( \hat{\beta} \) 是相合的(converges in probability to \( \beta_0 \))且渐近正态(\( \sqrt{m}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma) \))。
    • 直觉:AIPW 校正使得剖面方程在双模型模型中无偏,导致 \( \hat{\beta} \) 一致。
    • 必要条件:两个模型(倾向得分模型和条件均值模型)至少一个正确;带宽选择满足标准无偏核估计速度(如 \( h = O(m^{-1/5}) \))。技术难点:处理面板相关时的协方差矩阵估计,作者使用了 sandwich estimator。
  • 定理 2 (效率最优性)
    • 声明:在假设 H1-H3 和多元正态假设 (H4) 下,\( \hat{\beta} \) 达到半参数效率界。即其渐近方差等于剖面-核估计器在完全数据(无缺失)下的最小渐近方差。
    • 直觉:AIPW 选择的权重(对缺失部分用条件均值预测增强)使得估计方程等效于具有最小渐近方差的剖面的“影响力函数”。
    • 必要条件:只有多元正态假设被用于这一结论的证明。作者没有证明该假设的所有紧致性。
  • 定理 3 (非参数部分)
    • 声明:\( \hat{\eta}(z_0) \)\( \eta(z_0) \) 的一致估计,收敛速度是标准的一维核收敛速率 \( O_p (h^2 + 1/\sqrt{m h}) \)
    • 直觉:当 \( \beta \) 被一致估计时,该核估计是“无偏”的。注意这里也使用了 AIPW 加权。

证明路线与技术技巧

  • 整体路线

    1. 建立扩展的 Profile 方程:将标准 GPLM 的核-剖面估计方程转化为受缺失影响的矩条件。写出 AIPW 版本的剖面得分方程 (Eq. 4, 5, 8)。
    2. 线性化证明 (Double Robustness):将 \( \hat{\beta} \) 的估计方程写成一个可分解的 U 统计量形式:\( 0 = m^{-1/2} \sum_{i=1}^m \{ \text{影响函数}(数据_i) \} + o_p(1) \)。使用 Taylor 展开和 kernel expansion 证明:当倾向得分模型或条件均值模型之一正确时,矩条件的期望为零。
    3. 建立渐近正态-方差估计:通过影响函数的 CLT,结合 sandwich 估计,得到 \( \hat{\beta} \) 的渐近方差公式(该公式在双稳健下一致估计)。
    4. 达到效率界:对实证影响函数进行协方差矩阵计算,将结果与已知的 Chamberlain 界(针对完全数据,无缺失)对比。在多元正态假设下,实证方差恰好等于这个界。
  • 关键跳跃点

    • U-统计量展开:作者的证明中最具技巧的部分是证明第二阶段(核估计)产生的误差 \( \hat{\eta}(z_0) - \eta(z_0) \) 与参数估计量 \( \sqrt{m}(\hat{\beta}-\beta_0) \) 的渐近相互独立(或者更确切地说,其影响可以吸收进影响函数的尾部项)。这一步需要用到线性 Kernel 估计的渐近展开引理(类似高阶 U-统计量展开的“去中心化”或“线性化”引理)。作者用这个方法建立了 \( \hat{\beta} \) 的渐近正态性。
  • 技术技巧点名

    • U-统计量投影 (Projection method):在处理剖面方程中的核加权参数混合情况时,作者将 \( \hat{\eta}_{\beta} \) 写成涉及所有 I 的核加权和,然后用 Hoeffding 分解或 U 统计量的一阶线性化技巧(投影)。这是让 \( \hat{\beta} \) 的方差估计不依赖于核带宽的关键。
    • Sandwich 方差估计:纵向数据下相关性结构的处理是通过 Sandwich 估计量完成的。这对双稳健性质很关键。
    • AIPW 权重技巧:直接用倾向得分倒数作为核权重的一部分,避免了对缺失部分分别采样。
    • 剖面似然与核的交叉:将剖面方程中的偏导(对 \( \beta \) 的)与核函数中依赖 \( \beta \) 的局部似然相结合。

真实例子与应用

本文包含真实数据应用:CD4 计数数据(来自多中心 AIDS 队列研究,MACCS 数据库)。 - 用什么数据:纵向重复测量 CD4 细胞计数(响应变量 Y),协变量包括治疗组、拉米夫定使用、性别等(X 参数部分)和年龄(Z 非参数部分)。存在大量缺失 CD4 测量。 - 怎么用:将本文提出的 AIPW 核-剖面估计(记为 LIPW)与 (a) 普通 GEE(完全案例分析),(b) IPW-GEE,和 (c) AIPW-GEE 进行比较。对缺失机制(logistic 模型)和条件均值模型(基于 GPLM)分别拟合。 - 得到什么结果:LIPW 给出了更低的 CD4 计数下降速率与治疗组相关的负系数(更合理,因为更有效地控制缺失偏差)和更窄的置信区间。年龄的非参数效应被平滑得很好,显示出一个年龄相关的非线性模式。 - 想说明什么:验证模拟结果:在真实缺失模式下,仅用完全数据(GEE)会显著高估CD4水平;LIPW 的双稳健性质使其对缺失模型误设的敏感性远低于 IPW-GEE 或 naive GEE。

🔎 结论是否比证明窄

  • 明确比证明窄的地方达到效率界(定理2) 的证明需要强假设:多元正态联合分布(H4)。这意味着在实际应用中,如果协变量是离散的、有界或呈现其他分布,这个“达到效率界”的宣称需要非常审慎地理解。论文中没有给出在非正态情况下,该估计量是否“接近效率界”或“最优梯度方向”的量化结果(比如论文只是泛泛说“在仿真……表现出良好的方差衰减”而非证明。
  • “双稳健”的严格性:论文证明的是“在缺失机制模型或条件均值模型中有一个正确时,估计一致性”。但这里“条件均值模型正确”实际上是指用于增强项的辅助变量模型(\( m_{it}^\beta \))正确,而非原始的 GPLM 本身(原始 GPLM 是论文假设一致的底层模型,不随误设变化)。这个“条件均值增强模型”是否能涵盖对 GPLM 本身的误设,文中没有展开讨论,这是一个在这类模型中常见的狭窄定义的双稳健。
  • 计算复杂度:论文从未讨论带宽选择(\( h \))或 AIPW 参数估计的计算负担。

四、开放问题

  1. 放松效率和最优性证明中的正态假设:论文的定理 2 依赖于 \( (X, Z, V) \) 联合多元正态假设。是否可以放宽该假设,例如事后通过模型的自适应灵活性(如使用非参数回归的矩条件)来证明该 AIPW 核-剖面估计量在所有半参数模型中都是最优梯度方向的(即达到半参数界)?扎根于:Theorem 2 的多元正态条件(Sec 6, first paragraph)。

  2. 进一步扩展到非单调、非 MAR 缺失机制:当前方法依赖于缺失的单调性(可假设因上一期缺失可预测本期缺失)和 MAR 假设。能否将其推广到处理非单调缺失模式(如窃取性缺失或针对数据特定原因的缺失)?扎根于:H1 假设(MAR)和式 (3) 结构性缺失模型,未来工作中没有明确扩展。

  3. 时间依赖协方差结构对效率的影响:论文使用工作独立结构(working independence)。在更复杂的工作相关结构(如 AR(1))下,参数估计量是否仍能达到某种条件下的半参数效率界?扎根于:Section 5 关于工作协方差结构假设的讨论,及与完全数据下剖面估计的比较。

  4. 高维协变量下的扩展:如果参数部分的协变量维度 \( p \) 远大于样本量 \( m \)(高维),本文中的核-剖面方法如何修改?是否可以用惩罚似然(如 Lasso)进行参数部分的稀疏估计?是否会产生新的统计-计算权衡(比如核函数估计的带宽选择和惩罚函数的选择产生张量结构,与你对 U-统计量相似的代价结构)?扎根于:作者在引言中提到“我们的方法可以扩展到高维协变量”,但并未在正文中探讨,可视为一个未来工作。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论