Kernel-Profile Efficient Estimation in Generalized Partially Linear Models with Missing Outcomes in Longitudinal Studies¶

作者: Zhongzhe Ouyang, Chang Wang, Lu Wang
来源: Statistica Sinica
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.5705/ss.202024.0380

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向关注的是纵向研究中，当结果变量存在缺失时，如何对条件均值进行有效且稳健的半参数推断。具体来说，数据来自多个个体的重复测量（面板数据），我们希望估计一个“广义部分线性模型”（GPLM），该模型将条件均值分解为一个线性参数部分 \( X^\top\beta \) 和一个非参数光滑部分 \( \eta(Z) \)。这里的核心统计问题有两个：一是如何处理由缺失机制导致的偏差（即非随机缺失或缺失机制需要被正确建模）；二是在半参数框架下，如何构造既对模型误设稳健（双稳健，double robustness）又能达到半参数效率界的参数估计量。该方向当前成熟度较高，已有大量关于交叉验证、核方法和逆概率加权（IPW）结合的工作，但将其系统地推广至纵向缺失数据并严格证明达到效率界的工作，仍属前沿。

发展脉络 (history)¶

作者在引言中构建了一条清晰的演化链条（以下每一点都引用作者自己的判断，而非我代评）：

奠基工作：纵向数据分析与广义线性模型 (GLM)。Liang 和 Zeger (1986) 的广义估计方程（GEE）是纵贯数据标准工具，但其假设缺失完全随机（MCAR），且未利用缺失数据的分布信息。Diggle 等 (2002) 的专著系统总结了纵向数据建模框架。作者认为这些工作是基础，但留下了“如何系统处理非随机缺失”的核心缺口。
主要进展：广义部分线性模型与缺失数据处理。
- 在模型层面：Severini 和 Staniswalis (1994) 提出了剖面似然（profile likelihood）方法，而 Lin 和 Carroll (2006) 将其推广到纵向广义半参数模型（使用核估计方程）。作者认为，这些工作设定了核心模型，但它们的处理缺失机制方法较弱，通常只考虑完全案例分析。
- 在缺失机制层面：Robins 等 (1995) 引入了逆概率加权（IPW）和增强逆概率加权（AIPW）方法，并确立了 “双稳健”（double robustness）的概念：只要缺失机制模型或条件均值模型二者之一正确，估计就是一致的。作者对这条线的评述是 “双稳健是处理缺失问题的强大范式，但将其从独立同分布数据迁移至纵向数据时，技术难度陡增，且往往只是简单加权，没有同时刻画参数与非参数部分的双稳健性质”。
- 在效率理论层面：Newey (1990) 和 Bickel 等 (1993) 建立了半参数效率界的系统理论；而 Chamberlain (1987) 给出了纵向面板数据模型的半参数界。作者认为，这些理论成果为形如GPLM的模型提供了效率基准，但缺失数据下的可操作构建（即找到达到该界的估计量）仍是个开放问题。
当前 frontier (作者工作的直接前身)。作者特别引用 Wang 等 (2010) 和 Chen 等 (2015) 关于纵向缺失数据下非参数与参数估计的工作，以及 Tsiatis (2006) 在缺失数据上的系统理论。作者明确指出：“现有最有效的方法（如 Wang et al. (2010) 只处理了完全参数模型；而 Chen et al. (2015) 针对的是简单的非参数模型，没有参数部分。因此，在纵向缺失数据的广义部分线性模型这一交叉点，同时实现双稳健性和效率最优的估计器，是一个自然的、未被填补的空白。”
本文的位置：基于上述分析，作者将自己定位为第一个同时实现以下三点的纵向GPLM估计方法：(i) 处理缺失结果，(ii) 参数与非参数部分均双稳健，(iii) 在多元正态假设下达到半参数效率界。

子线索聚类¶

线索 A：纵向数据下的半参数建模（GPLM）。核心文献：Severini & Staniswalis (1994), Lin & Carroll (2006)。他们在构建核-剖面估计方程时，主要处理完整数据或 MCAR 缺失。本文修正了他们的核-剖面框架。
线索 B：缺失数据下的双稳健估计（AIPW）。核心文献：Robins et al. (1995), Tsiatis (2006)。这些文献详细讨论了独立同分布数据下的双稳健性质。本文是将其推广到纵向框架。
线索 C：效率理论与半参数界。核心文献：Newey (1990), Bickel et al. (1993), Chamberlain (1987)。本文参考了 Bee Leng Lee (2004) 对部分线性模型效率界的具体推导，并在多元正态假设下验证了自己估计量达到该界。

这个方向在追问的核心问题¶

Q1 (识别与一致性)：在纵向缺失数据下，如何对 GPLM 的参数部分 \( \beta \) 和非参数部分 \( \eta(\cdot) \) 构造一致估计？当缺失机制是 MAR (Missing at Random) 但非 MCAR 时，哪些假设是必需的？
Q2 (双稳健性)：估计方程是否能对两类模型（缺失机制模型和条件均值模型）的误设具有稳健性？即只要其中一类正确，估计就是一致的。
Q3 (效率最优)：在给定半参数模型下，参数部分 \( \beta \) 的估计量能否达到各半参数效率界？在什么时候达到（需要什么附加假设，如多元正态）？
Q4 (纵向相关性处理)：如何在核估计和剖面估计中正确处理同一主体内的相关性（即“工作相关结构”的选择和影响）？

⚠️ 作者的 framing (必须明确标注)¶

这是作者的说法：作者把缺口 frame 成“现有纵向缺失方法要么只处理完全参数模型，要么只处理简单非参数模型，或只考虑了MCAR，而本文提供了第一个同时解决参数/非参数部分双稳健性以及效率最优的估计量”。换句话说，本文的核心 claim 是首次同时解决了Q1+Q2+Q3三个问题于纵贯GPLM设定下。
被作者淡化/回避的竞争路线：(i) 完全基于似然或贝叶斯的方法（如 PMM 方法）被完全跳过；作者只聚焦于半参数（矩条件 + 核平滑）方法，没有解释为什么似然方法不能或不值得使用于类似设定。(ii) 一些使用机器学习的非参数方法（如广义可加模型 (GAM) 在缺失下的变体）也被略去。作者没有回应这些方法可能具有的“自动平滑选择”优势，而是坚持核-剖面（kernel-profile）框架。
什么明显该被引/该存在、却没出现在 intro 里？ 作者未引任何关于“非参数U-统计量与核估计的深层关联”（比如高阶U-统计量的去中心化引理）的文献，也未见任何关于“计算复杂度”或“算法开销”（严格来说是您的研究兴趣）的讨论。这表明该论文关注统计性质而非计算权衡。

张力¶

未见明显对立引用。所有被引工作趋向一致：Robins 的双稳健范式、核-剖面方法、效率界理论。作者站在这些工作的延长线上，没有出现明显矛盾的工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

下标：
- \( i = 1, \dots, m \): 个体索引。
- \( t = 1, \dots, n_i \): 个体 \( i \) 第 \( t \) 次测量时间点（纵向面板，\( m \) 个个体，每个最多 \( n_i \) 个时间点）。
可观测数据（研究者拿到手的数据）：
- \( Y_{it} \): 响应变量（实数标量），但可能有缺失。真正可观测的是 \( \tilde{Y}_{it} = R_{it} Y_{it} \)，其中 \( R_{it} \) 是缺失指示变量。假设缺失机制是 MAR (Missing at Random)。
- \( X_{it} \): \( p \)-维协变量向量（参数部分，线性）。
- \( Z_{it} \): \( q \)-维协变量向量（非参数部分，光滑）。
- 另外还可以观察 \( V_{it} \): 一组辅助变量（可能包括历史协变量或缺失相关的变量），用于建模缺失机制和条件均值。可观测数据集合为 \( \{ \tilde{Y}_{it}, X_{it}, Z_{it}, V_{it}, R_{it} \} \)。注意，当 \( R_{it} = 0 \) 时，真正的 \( Y_{it} \) 未被观测到，只知其缺失。
待估计量：
- \( \beta_0 \): \( p \)-维参数，是真正条件均值中的线性部分系数。
- \( \eta_0(\cdot) \): 从 \( \mathbb{R}^q \) 到 \( \mathbb{R} \) 的光滑非参数函数。
模型 (广义部分线性模型, GPLM)：
- 条件均值假设：\( E[Y_{it} \mid X_{it}, Z_{it}] = g( X_{it}^\top \beta_0 + \eta_0(Z_{it}) ) \)，其中 \( g(\cdot) \) 是已知连接函数（如 logit 或 log）。
- 方差假设（工作方差结构）：\( \text{Var}(Y_{it} \mid X_{it}, Z_{it}) = \nu( X_{it}^\top \beta_0 + \eta_0(Z_{it}) ) \)，其中 \( \nu(\cdot) \) 是已知方差函数（如对于泊松，\( \nu(\mu) = \mu \)）。
- 相关性假设：同一主体 i 内各时间点 t 的测量相关，但结构未知，论文使用“工作相关结构”（working correlation）来处理（作者用独立结构，并参考文献表明对参数估计影响有限）。
缺失机制模型：
- 假设 MAR 成立：\( P(R_{it}=1 \mid Y_i, X_i, Z_i, V_i) = P(R_{it}=1 \mid X_i, Z_i, V_i, R_{i, t-1}, Y_{i, t-1}^{obs}) \)，即缺失只依赖于观测到的历史。
- 倾向得分 (propensity score): \( \pi_{it}(X_i, Z_i, V_i) = P(R_{it}=1 \mid \text{obs. history}) \)。论文用一个参数模型（如 logistic）来估计 \( \pi_{it} \)。
“想观测但观测不到”的量：
- 当 \( R_{it}=0 \) 时，\( Y_{it} \) 是潜在（counterfactual）的。识别依赖于 MAR 假设（即已观测的 \( X, Z, V \) 可以完全解释缺失）。
记号小结：\( \beta \) 是参数，\( \eta(\cdot) \) 是非参。可观测数据是 \( (R_{it}Y_{it}, X_{it}, Z_{it}, V_{it}, R_{it}) \)。乘号 \( R_{it}Y_{it} \) 已经编码了缺失。

第二步：讲最小内核¶

最简特例：假设面板是平衡的（\( n_i = T = 2 \) 仅两个时间点，笔记：原文更为一般但此特例不失本质），且非参数部分是一维连续协变量（\( q=1 \)）。再假设连接函数 \( g \) 是恒等链接（即模型简化为部分线性模型 \( Y_{it} = X_{it}^\top\beta_0 + \eta_0(Z_{it}) + \epsilon_{it} \)）。

为了估计 \( \beta_0 \)，剖面估计的核心思想是：先用核估计消去非参数部分 \( \eta_0 \)，然后处理缺失部分。具体如下（用原文符号）：

已知 \( \beta \) 下估计 \( \eta \)（使用非缺失样本）：
- 对每个时间点 \( t \) 和每个聚焦点 \( z_0 \)，我们要估计 \( \eta(z_0) \)。这是一个标准一维核回归问题。不了解缺失时，标准核估计量是：
  \[\hat{\eta}_{\beta}(z_0) = \frac{\sum_{i=1}^m R_{it} K_h(Z_{it} - z_0) (Y_{it} - X_{it}^\top\beta)}{\sum_{i=1}^m R_{it} K_h(Z_{it} - z_0)}.\]
  这里 \( R_{it} \) 确保只使用结果被观测到的数据。\( K_h \) 是一个以带宽 \( h \) 缩放的核函数。这个式子本质上是局部常数回归。
- 核心简化：在最小内核里，我们假设时间点 t 是独立的，且个体间独立。上面就是一个简单的核加权平均。此处没有任何加权（如 AIPW 加权）直接使用缺失指示。所以，第一步是最简单的核估计，仅处理缺失造成的选择偏差。
逐步求解 \( \beta \)：
- 用 \( \hat{\eta}_{\beta}(z) \) 替代真实的 \( \eta(z) \)，建立求解 \( \beta \) 的得分方程。标准剖面估计方程为：
  \[\sum_{i=1}^m \sum_{t=1}^T R_{it} \tilde{X}_{it}(\beta)^\top \frac{Y_{it} - X_{it}^\top\beta - \hat{\eta}_{\beta}(Z_{it}) }{ \nu(\mu_{it}) } = 0,\]
  其中 \( \tilde{X}_{it}(\beta) = X_{it} - \frac{\partial \hat{\eta}_{\beta}(Z_{it})}{\partial \beta} \) 是修正后的“影响函数”中的残差。这个方程的解即为 \( \hat{\beta} \)（最朴素剖面）。
缺失偏差：上面第 (1) 和第 (2) 步在 MAR 下只能通过完全案例分析（只保留 \( R_{it}=1 \) 的数据），但这不一定是无偏的，因为任何轨迹 \( R_{it} \) 的选择可能与 \( Y \) 和 \( (X, Z) \) 相关（即使控制了 \( Z \)）。普通 IPS 权重 \( w_{it} = 1 / \hat{\pi}_{it} \) 可以修正该偏差。但 IPW 在倾向得分模型误设时失败。
核心思路：AIPW 核-剖面估计方程：
- 本文的核心创新是在上述剖面方程中应用 AIPW 技巧，使得即使倾向得分模型被错误设定，只要条件均值模型正确，估计依然一致。
- 对于每个个体 i 和时间 t，其贡献不仅包括被观测样本 \( R_{it}=1 \) 的加权 \( Y_{it} \)，还加入一个“增强项”来修正：
  \[\frac{R_{it}}{\hat{\pi}_{it}} \tilde{X}_{it} \left( Y_{it} - X_{it}^\top\beta - \hat{\eta}_{\beta}(Z_{it}) \right) - \frac{R_{it} - \hat{\pi}_{it}}{\hat{\pi}_{it}} \tilde{X}_{it} \left( m_{it}^\beta(X_i, Z_i, V_i) \right) = 0 \quad \text{(对 i, t 求和)}.\]
  其中 \( m_{it}^\beta(X_i, Z_i, V_i) = E[Y_{it} \mid X_i, Z_i, V_i] - X_{it}^\top\beta - \eta(Z_{it}) \) 是用辅助变量对缺失样本的条件均值残差的模型预测值。如果这个模型正确，即使倾向得分模型误设，第二项可以消除第一项中的偏差（因为预期值为 0）。若两个模型有一个正确，整个方程的无偏性成立（双稳健）。

最小内核总结：把纵向面板按时间点拆开，化成多个独立的横截面 GPLM 缺失问题 + 利用 AIPW 修正剖面方程的偏差。这个内核（从线性模型中分解，利用 AIPW 增强）就是论文完整框架的数学本质。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在纵向（重复测量）数据中，当结果变量 \( Y_{it} \) 缺失时，如何对广义部分线性模型 \( g^{-1}(E[Y|X, Z]) = X^\top\beta + \eta(Z) \) 进行有效和双稳健的参数（\(\beta\)）和非参数（\(\eta(\cdot)\)）估计。
核心工具/方法：提出纵向增广逆概率加权核-剖面估计方程，该方法将 AIPW 技巧融入核估计方程（估计 \( \eta \)）和剖面估计方程（估计 \( \beta \)），并利用辅助变量 \( V \) 来同时建模缺失机制和条件均值。
主要结论：所提出的参数估计量 \( \hat{\beta} \) 和非参数估计量 \( \hat{\eta}(\cdot) \) 均具有双稳健性质。进一步，在数据满足多元正态假设的条件下，\( \hat{\beta} \) 达到了半参数效率界（即其渐近方差等于 Chamberlain 提出的 bound）。通过数值模拟和 CD4 计数数据分析，验证了其有限样本下的优秀表现。

关键设定与假设¶

设定：纵向数据，m 个独立个体，每个 i 在 \( t=1...n_i \) 个时间点被观察。结果可缺失。模型为广义部分线性模型（GPLM，连接函数 g，已知）。
假设：
- H1 (缺失机制)：MAR 成立（文章第2节，式3）。缺失机制用参数模型 \( \pi_{it}(\theta) \) 刻画（如logistic回归）。
- H2 (核函数 & 模型光滑度)：核函数 \( K(\cdot) \) 为对称、有界、Lipshitz 连续的二阶核函数。非参数函数 \( \eta(z) \) 二次连续可微。
- H3 (相关结构)：同一主体内各次测量的相关性结构是静态的（但与 t 相关），但估计时可使用工作独立结构。文章声明对于参数部分，独立结构不影响无偏性。
- H4 (多元正态假设)：对于效率界达到的证明，作者假设协变量 \( (X, Z, V) \) 服从联合正态分布（文章 Sec 6， Theorem 2）。这是最强的额外假设，只在效率界的证明中出现，不是一致性的必要条件。这是一条核心技术限制。
- H5 (正则假设)：典型的正则条件（如带宽 h 满足 \( m h^q \to \infty \), \( m h^{q+4} \to 0 \)），以保证核估计的一致性与渐近正态性。

主要结果¶

定理 1 (一致性与渐近正态性)：
- 声明：在正则条件和双稳健假设下，参数估计量 \( \hat{\beta} \) 是相合的（converges in probability to \( \beta_0 \)）且渐近正态（\( \sqrt{m}(\hat{\beta} - \beta_0) \xrightarrow{d} N(0, \Sigma) \)）。
- 直觉：AIPW 校正使得剖面方程在双模型模型中无偏，导致 \( \hat{\beta} \) 一致。
- 必要条件：两个模型（倾向得分模型和条件均值模型）至少一个正确；带宽选择满足标准无偏核估计速度（如 \( h = O(m^{-1/5}) \)）。技术难点：处理面板相关时的协方差矩阵估计，作者使用了 sandwich estimator。
定理 2 (效率最优性)：
- 声明：在假设 H1-H3 和多元正态假设 (H4) 下，\( \hat{\beta} \) 达到半参数效率界。即其渐近方差等于剖面-核估计器在完全数据（无缺失）下的最小渐近方差。
- 直觉：AIPW 选择的权重（对缺失部分用条件均值预测增强）使得估计方程等效于具有最小渐近方差的剖面的“影响力函数”。
- 必要条件：只有多元正态假设被用于这一结论的证明。作者没有证明该假设的所有紧致性。
定理 3 (非参数部分)：
- 声明：\( \hat{\eta}(z_0) \) 是 \( \eta(z_0) \) 的一致估计，收敛速度是标准的一维核收敛速率 \( O_p (h^2 + 1/\sqrt{m h}) \)。
- 直觉：当 \( \beta \) 被一致估计时，该核估计是“无偏”的。注意这里也使用了 AIPW 加权。

证明路线与技术技巧¶

整体路线：
1. 建立扩展的 Profile 方程：将标准 GPLM 的核-剖面估计方程转化为受缺失影响的矩条件。写出 AIPW 版本的剖面得分方程 (Eq. 4, 5, 8)。
2. 线性化证明 (Double Robustness)：将 \( \hat{\beta} \) 的估计方程写成一个可分解的 U 统计量形式：\( 0 = m^{-1/2} \sum_{i=1}^m \{ \text{影响函数}(数据_i) \} + o_p(1) \)。使用 Taylor 展开和 kernel expansion 证明：当倾向得分模型或条件均值模型之一正确时，矩条件的期望为零。
3. 建立渐近正态-方差估计：通过影响函数的 CLT，结合 sandwich 估计，得到 \( \hat{\beta} \) 的渐近方差公式（该公式在双稳健下一致估计）。
4. 达到效率界：对实证影响函数进行协方差矩阵计算，将结果与已知的 Chamberlain 界（针对完全数据，无缺失）对比。在多元正态假设下，实证方差恰好等于这个界。
关键跳跃点：
- U-统计量展开：作者的证明中最具技巧的部分是证明第二阶段（核估计）产生的误差 \( \hat{\eta}(z_0) - \eta(z_0) \) 与参数估计量 \( \sqrt{m}(\hat{\beta}-\beta_0) \) 的渐近相互独立（或者更确切地说，其影响可以吸收进影响函数的尾部项）。这一步需要用到线性 Kernel 估计的渐近展开引理（类似高阶 U-统计量展开的“去中心化”或“线性化”引理）。作者用这个方法建立了 \( \hat{\beta} \) 的渐近正态性。
技术技巧点名：
- U-统计量投影 (Projection method)：在处理剖面方程中的核加权参数混合情况时，作者将 \( \hat{\eta}_{\beta} \) 写成涉及所有 I 的核加权和，然后用 Hoeffding 分解或 U 统计量的一阶线性化技巧（投影）。这是让 \( \hat{\beta} \) 的方差估计不依赖于核带宽的关键。
- Sandwich 方差估计：纵向数据下相关性结构的处理是通过 Sandwich 估计量完成的。这对双稳健性质很关键。
- AIPW 权重技巧：直接用倾向得分倒数作为核权重的一部分，避免了对缺失部分分别采样。
- 剖面似然与核的交叉：将剖面方程中的偏导（对 \( \beta \) 的）与核函数中依赖 \( \beta \) 的局部似然相结合。

真实例子与应用¶

本文包含真实数据应用：CD4 计数数据（来自多中心 AIDS 队列研究，MACCS 数据库）。 - 用什么数据：纵向重复测量 CD4 细胞计数（响应变量 Y），协变量包括治疗组、拉米夫定使用、性别等（X 参数部分）和年龄（Z 非参数部分）。存在大量缺失 CD4 测量。 - 怎么用：将本文提出的 AIPW 核-剖面估计（记为 LIPW）与 (a) 普通 GEE（完全案例分析），(b) IPW-GEE，和 (c) AIPW-GEE 进行比较。对缺失机制（logistic 模型）和条件均值模型（基于 GPLM）分别拟合。 - 得到什么结果：LIPW 给出了更低的 CD4 计数下降速率与治疗组相关的负系数（更合理，因为更有效地控制缺失偏差）和更窄的置信区间。年龄的非参数效应被平滑得很好，显示出一个年龄相关的非线性模式。 - 想说明什么：验证模拟结果：在真实缺失模式下，仅用完全数据（GEE）会显著高估CD4水平；LIPW 的双稳健性质使其对缺失模型误设的敏感性远低于 IPW-GEE 或 naive GEE。

🔎 结论是否比证明窄¶

明确比证明窄的地方：达到效率界（定理2） 的证明需要强假设：多元正态联合分布（H4）。这意味着在实际应用中，如果协变量是离散的、有界或呈现其他分布，这个“达到效率界”的宣称需要非常审慎地理解。论文中没有给出在非正态情况下，该估计量是否“接近效率界”或“最优梯度方向”的量化结果（比如论文只是泛泛说“在仿真……表现出良好的方差衰减”而非证明。
“双稳健”的严格性：论文证明的是“在缺失机制模型或条件均值模型中有一个正确时，估计一致性”。但这里“条件均值模型正确”实际上是指用于增强项的辅助变量模型（\( m_{it}^\beta \)）正确，而非原始的 GPLM 本身（原始 GPLM 是论文假设一致的底层模型，不随误设变化）。这个“条件均值增强模型”是否能涵盖对 GPLM 本身的误设，文中没有展开讨论，这是一个在这类模型中常见的狭窄定义的双稳健。
计算复杂度：论文从未讨论带宽选择（\( h \)）或 AIPW 参数估计的计算负担。

四、开放问题¶

放松效率和最优性证明中的正态假设：论文的定理 2 依赖于 \( (X, Z, V) \) 联合多元正态假设。是否可以放宽该假设，例如事后通过模型的自适应灵活性（如使用非参数回归的矩条件）来证明该 AIPW 核-剖面估计量在所有半参数模型中都是最优梯度方向的（即达到半参数界）？扎根于：Theorem 2 的多元正态条件（Sec 6, first paragraph）。
进一步扩展到非单调、非 MAR 缺失机制：当前方法依赖于缺失的单调性（可假设因上一期缺失可预测本期缺失）和 MAR 假设。能否将其推广到处理非单调缺失模式（如窃取性缺失或针对数据特定原因的缺失）？扎根于：H1 假设（MAR）和式 (3) 结构性缺失模型，未来工作中没有明确扩展。
时间依赖协方差结构对效率的影响：论文使用工作独立结构（working independence）。在更复杂的工作相关结构（如 AR(1)）下，参数估计量是否仍能达到某种条件下的半参数效率界？扎根于：Section 5 关于工作协方差结构假设的讨论，及与完全数据下剖面估计的比较。
高维协变量下的扩展：如果参数部分的协变量维度 \( p \) 远大于样本量 \( m \)（高维），本文中的核-剖面方法如何修改？是否可以用惩罚似然（如 Lasso）进行参数部分的稀疏估计？是否会产生新的统计-计算权衡（比如核函数估计的带宽选择和惩罚函数的选择产生张量结构，与你对 U-统计量相似的代价结构）？扎根于：作者在引言中提到“我们的方法可以扩展到高维协变量”，但并未在正文中探讨，可视为一个未来工作。

Maintained by 陈星宇 · Homepage · Source on GitHub