Marginal additive models for population‐averaged inference in longitudinal and cluster‐correlated data¶

作者: Glen McGee, Alex Stringer
来源: Scandinavian Journal of Statistics
主题: 非参数 / 半参数
相关性: 7/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12681

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向要解决的根本问题是：在纵向与集群相关数据中，如何在不对集群内部相关结构做参数化假设的前提下，对总体平均边际均值进行半参数估计与推断。当前该方向已相当成熟：主流方法分为 GEE 类（总体平均模型）与混合效应模型类（特定个体模型），半参数效率理论在独立数据下已完备，但在复杂相关结构下的效率界、稳健推断与惩罚估计的联合理论仍有缺口。

发展脉络¶

作者在 introduction 中梳理了一条从参数边际模型到半参数边际模型、从独立数据到集群数据的线索：

奠基工作（参数边际模型）：Liang & Zeger (1986) 提出的 GEE（广义估计方程）是该领域的起点——在边际均值模型正确设定下，即使工作相关矩阵误设，系数估计仍一致，且 sandwich variance 提供稳健推断。作者引用其核心贡献："GEE provides consistent estimation of marginal mean parameters under misspecified working correlation."
半参数扩展（可加模型）：Hastie & Tibshirani (1990) 建立了可加模型框架；Lin & Carroll (2001) 将其推广到纵向数据，提出 kernel-based GEE 方法。作者指出其局限："kernel methods suffer from boundary bias and difficulty in automatic smoothing parameter selection."
惩罚样条方法：Ruppert et al. (2003) 与 Wood (2017) 系统化了 penalized spline 方法，但主要针对独立数据。Welham (2008) 将惩罚样条引入纵向数据，但作者指出其"reliance on specific correlation structures for variance estimation."
当前 frontier 与本文位置：作者将当前 frontier 定位为"如何在惩罚样条框架下，对集群数据同时实现：(a) 边际均值的半参数估计，边际效应与集群层面变异性的联合推断，© 对惩罚参数估计的不确定性校正"。本文 MAM 即填补这一缺口。

子线索聚类¶

被引文献大致落在三条子线索上：

线索 A：边际模型与 GEE 类方法（Liang & Zeger 1986, Lin & Carroll 2001, Wang et al. 2005）：关注总体平均效应的估计与推断，核心是 robust sandwich variance，但对非线性关联的半参数建模能力有限。
线索 B：混合效应模型与特定个体推断（Ruppert et al. 2003, Wood 2017）：通过随机效应刻画集群异质性，可做集群层面预测，但边际效应的推断依赖随机效应分布假设，且总体平均效应需积分近似。
线索 C：惩罚样条与平滑参数选择（Ruppert 2002, Wood 2011）：关注计算效率与平滑参数的自动选择，但方差估计通常忽略平滑参数的不确定性。

本文试图整合这三条线索：用惩罚样条做半参数边际均值估计，用 sandwich variance 保证稳健性，同时校正惩罚参数估计对推断的影响。

这个方向在追问的核心问题¶

效率与稳健性的权衡：在工作相关结构误设时，如何保证一致性同时尽可能提高效率？已知 GEE 在正确设定工作相关时可达到效率提升，但半参数可加模型下的效率界尚未明确。
惩罚参数的不确定性传播：平滑参数由数据估计时，其不确定性如何影响系数的方差估计？现有方法多忽略此问题。
边际推断与集群层面推断的统一：能否在一个框架内同时给出总体平均效应与集群特定预测？

⚠️ 作者的 framing¶

作者将缺口 frame 为："现有方法要么专注于边际推断但忽略惩罚参数不确定性，要么专注于集群层面推断但依赖强分布假设；MAM 是首个统一框架，同时处理边际半参数估计、稳健推断与惩罚参数校正。"

被淡化的竞争路线： - 作者未深入讨论 semiparametric efficiency bound 问题——在边际模型下，efficient influence function 是什么？sandwich variance 是否达到效率界？这是因果推断与半参数理论的核心问题，但本文未触及。 - G-estimation 与 doubly robust methods 在纵向因果推断中的应用（如 Bang & Robins 2005）未被引用，这类方法同样处理边际效应，且在缺失数据与因果设定下有效率优势。 - Functional PCA / tensor decomposition 类方法在高维纵向数据中的应用未被提及。

明显该引但未出现的文献：Robins 系列工作（marginal structural models, 2000）、Rotnitzky & Robins（semiparametric efficiency in missing data, 1995）、Kosorok（semiparametric efficiency for clustered data, 2008）。这提示作者的理论框架更偏向传统统计推断，而非因果推断视角的效率理论。

张力¶

未见明显对立引用。各条线索更多是互补而非矛盾：GEE 提供稳健性框架，惩罚样条提供半参数灵活性，本文试图整合而非挑战其中任何一方。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号定义： - \(i = 1, \ldots, n\)：集群索引，\(n\) 为集群数。 - \(j = 1, \ldots, m_i\)：集群内观测索引，\(m_i\) 为第 \(i\) 个集群的观测数，总观测数 \(N = \sum_{i=1}^n m_i\)。 - \(Y_{ij} \in \mathbb{R}\)：第 \(i\) 个集群第 \(j\) 个观测的响应变量。 - \(\mathbf{X}_{ij} \in \mathbb{R}^p\)：第 \(i\) 个集群第 \(j\) 个观测的协变量向量。 - \(\boldsymbol{\beta} \in \mathbb{R}^p\)：线性效应参数。 - \(f_k(\cdot), k = 1, \ldots, K\)：第 \(k\) 个可加函数分量，为未知光滑函数。 - \(\mathbf{Y}_i = (Y_{i1}, \ldots, Y_{im_i})^\top\)，\(\mathbf{X}_i\)、\(\mathbf{f}_i\) 类似定义。 - \(\boldsymbol{\mu}_i = (\mu_{i1}, \ldots, \mu_{im_i})^\top\)：边际均值向量，\(\mu_{ij} = \mathbb{E}[Y_{ij}]\)。 - \(\mathbf{V}_i = \text{Cov}(\mathbf{Y}_i)\)：集群内协方差矩阵（真实但未知）。 - \(\mathbf{W}_i\)：工作相关矩阵（研究者指定，可能误设）。 - \(\boldsymbol{\theta}\)：所有待估参数的集合，包括 \(\boldsymbol{\beta}\)、\(f_k\) 的样条系数、方差分量等。

模型（数据生成机制）：边际可加模型设定为：

\[g(\mu_{ij}) = \mathbf{X}_{ij}^\top \boldsymbol{\beta} + \sum_{k=1}^K f_k(X_{ijk})\]

其中 \(g(\cdot)\) 为已知连接函数（如 identity 或 logit）。关键假设： - 边际均值正确设定：\(g(\mathbb{E}[Y_{ij} | \mathbf{X}_{ij}])\) 由上述可加结构给出。 - 集群内相关结构未指定：\(\text{Corr}(Y_{ij}, Y_{ij'} | \mathbf{X}_i)\) 可以是任意形式，不假设参数化结构。 - 边际拟似然框架：只需指定 \(\text{Var}(Y_{ij}) = v(\mu_{ij})\)（方差函数），无需完整似然。

可观测数据：研究者观测到 \(\{(\mathbf{Y}_i, \mathbf{X}_i)\}_{i=1}^n\)，即 \(n\) 个独立集群，每个集群内有 \(m_i\) 个相关观测。不可观测 / 需识别的量： - 真实协方差结构 \(\mathbf{V}_i\)：只能通过 sandwich 估计量稳健处理其误设。 - 光滑函数 \(f_k(\cdot)\)：通过惩罚样条基展开识别。 - 惩罚参数 \(\lambda\)：通过 GCV 或 REML 从数据中估计，其不确定性需传播到最终推断。

第二步：最小内核¶

最简特例：单变量可加模型 + 高斯响应 + 平衡设计 + 忽略惩罚参数不确定性

设 \(K = 1\)（单个光滑函数），\(g(\cdot) = \text{identity}\)，\(m_i = m\)（平衡设计），\(\mathbf{X}_{ij} = X_{ij}\)（单协变量）。模型退化为：

\[Y_{ij} = \beta_0 + f(X_{ij}) + \epsilon_{ij}, \quad \mathbb{E}[\epsilon_{ij}] = 0, \quad \text{Cov}(\boldsymbol{\epsilon}_i) = \mathbf{V}\]

其中 \(f(\cdot)\) 为未知光滑函数，\(\boldsymbol{\epsilon}_i = (\epsilon_{i1}, \ldots, \epsilon_{im})^\top\)。

估计问题：用惩罚样条展开 \(f(x) = \sum_{l=1}^q b_l B_l(x)\)，其中 \(B_l(\cdot)\) 为 B-样条基函数，\(\mathbf{b} = (b_1, \ldots, l_q)^\top\) 为系数向量。惩罚拟似然目标函数为：

\[Q(\boldsymbol{\beta}, \mathbf{b}) = \sum_{i=1}^n (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta} - \mathbf{B}_i \mathbf{b})^\top \mathbf{W}^{-1} (\mathbf{Y}_i - \mathbf{X}_i \boldsymbol{\beta} - \mathbf{B}_i \mathbf{b}) + \lambda \mathbf{b}^\top \mathbf{P} \mathbf{b}\]

其中 \(\mathbf{B}_i\) 为第 \(i\) 集群的样条基矩阵，\(\mathbf{P}\) 为惩罚矩阵（通常为二阶差分矩阵），\(\lambda\) 为惩罚参数。

核心数学困难： 1. 工作相关矩阵 \(\mathbf{W}\) 可能误设：若 \(\mathbf{W} \neq \mathbf{V}\)，普通加权最小二乘的方差估计不一致，需用 sandwich variance 校正。 2. 惩罚参数 \(\lambda\) 由数据估计：标准理论假设 \(\lambda\) 固定，但实践中 \(\hat{\lambda}\) 是随机变量，其不确定性需传播到 \((\hat{\boldsymbol{\beta}}, \hat{\mathbf{b}})\) 的方差估计中。

本文最小内核的解决思路： - 对困难 1：采用 GEE 式 sandwich variance，\(\widehat{\text{Var}}(\hat{\boldsymbol{\theta}}) = \mathbf{H}^{-1} \mathbf{J} \mathbf{H}^{-1}\)，其中 \(\mathbf{H}\) 为 Hessian，\(\mathbf{J}\) 为 outer product of gradients，在 \(\mathbf{W}\) 误设时仍一致。 - 对困难 2：作者提出 variance correction via implicit differentiation——将 \(\hat{\lambda}\) 视为 \(\mathbf{Y}\) 的函数，通过链式法则计算 \(\hat{\lambda}\) 对 \(\hat{\boldsymbol{\theta}}\) 方差的贡献。具体地，设 \(\hat{\boldsymbol{\theta}}(\hat{\lambda})\) 为给定 \(\hat{\lambda}\) 时的估计量，则：

\[\widehat{\text{Var}}(\hat{\boldsymbol{\theta}}) \approx \frac{\partial \hat{\boldsymbol{\theta}}}{\partial \lambda}\bigg|_{\lambda = \hat{\lambda}} \cdot \widehat{\text{Var}}(\hat{\lambda}) \cdot \left(\frac{\partial \hat{\boldsymbol{\theta}}}{\partial \lambda}\bigg|_{\lambda = \hat{\lambda}}\right)^\top + \text{standard sandwich term}\]

这个最小内核展示了本文的核心贡献：在 GEE 框架下引入惩罚样条，并对惩罚参数的不确定性进行显式校正。一般情形（多变量可加、非高斯响应、非平衡设计）只是这个内核的"加壳"。

三、这篇论文做了什么¶

三句话¶

① 研究了纵向与集群相关数据下边际可加模型的半参数估计与推断问题，核心挑战是惩罚参数估计的不确定性传播与工作相关结构误设下的稳健推断。② 提出了 marginal additive model (MAM) 框架，结合惩罚样条 M-估计、边际拟似然与 sandwich variance，并通过隐函数求导校正惩罚参数对推断的影响。③ 主要结论包括：估计量的 \(\sqrt{n}\)-一致性与渐近正态性、sandwich variance 估计量的相合性、以及模拟与实证分析中对现有方法的改进。

关键设定与假设¶

定义与记号： - 边际可加模型：\(g(\mu_{ij}) = \mathbf{X}_{ij}^\top \boldsymbol{\beta} + \sum_{k=1}^K f_k(X_{ijk})\)，其中 \(f_k\) 为光滑函数，用惩罚样条展开 \(f_k(x) = \sum_{l=1}^{q_k} b_{kl} B_{kl}(x)\)。 - 边际拟似然：\(Q(\boldsymbol{\theta}) = \sum_{i=1}^n Q_i(\boldsymbol{\theta})\)，其中 \(Q_i(\boldsymbol{\theta}) = \int_{Y_{ij}}^{\mu_{ij}} \frac{Y_{ij} - t}{v(t)} dt\)，\(v(\cdot)\) 为方差函数。 - 惩罚边际拟似然：\(\ell_p(\boldsymbol{\theta}) = Q(\boldsymbol{\theta}) - \frac{1}{2} \sum_{k=1}^K \lambda_k \mathbf{b}_k^\top \mathbf{P}_k \mathbf{b}_k\)，其中 \(\lambda_k\) 为惩罚参数，\(\mathbf{P}_k\) 为惩罚矩阵。

核心假设： 1. 边际均值正确设定（Assumption 1）：存在真实参数 \(\boldsymbol{\theta}_0\) 使得 \(g(\mu_{ij}) = \mathbf{X}_{ij}^\top \boldsymbol{\beta}_0 + \sum_{k=1}^K f_{k0}(X_{ijk})\)。 2. 光滑性假设（Assumption 2）：\(f_{k0} \in \mathcal{H}^s\)（\(s\) 阶 Sobolev 空间），保证样条逼近的收敛率。 3. 集群独立性：不同集群 \(i\) 之间独立，集群内部可任意相关。 4. 正则条件：设计点 \(\mathbf{X}_{ij}\) 有适当支撑；惩罚矩阵 \(\mathbf{P}_k\) 半正定；样本量 \(n \to \infty\) 时 \(m_i\) 可有界或 \(m_i \to \infty\)（分情况讨论）。

与已有文献的关系： - 相比 Lin & Carroll (2001) 的 kernel GEE，本文用惩罚样条替代核方法，避免边界偏差并支持自动平滑参数选择。 - 相比 Wood (2017) 的 GAM 框架，本文显式处理集群内相关结构的误设，提供 sandwich variance 而非假设独立。 - 相比标准 GEE（Liang & Zeger 1986），本文扩展到半参数可加模型，并校正惩罚参数的不确定性。

主要结果¶

定理 1（估计量的一致性与渐近正态性）：在正则条件下，惩罚拟似然估计量 \(\hat{\boldsymbol{\theta}}_n\) 满足：

\[\|\hat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0\| = O_p(n^{-1/2})\]

且

\[\sqrt{n}(\hat{\boldsymbol{\theta}}_n - \boldsymbol{\theta}_0) \xrightarrow{d} N(0, \boldsymbol{\Sigma})\]

其中 \(\boldsymbol{\Sigma} = \mathbf{H}^{-1} \mathbf{J} \mathbf{H}^{-1}\)，\(\mathbf{H} = \mathbb{E}[-\partial^2 Q_i / \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^\top]\)，\(\mathbf{J} = \mathbb{E}[(\partial Q_i / \partial \boldsymbol{\theta})(\partial Q_i / \partial \boldsymbol{\theta})^\top]\)。

直觉：这是 GEE 理论的半参数推广。关键在于惩罚项 \(\lambda \mathbf{b}^\top \mathbf{P} \mathbf{b}\) 在 \(n \to \infty\)、\(\lambda \to 0\) 适当速率下渐近可忽略，估计量的主要贡献来自拟似然部分。

定理 2（Sandwich variance 估计量的相合性）：定义经验 sandwich 估计量：

\[\hat{\boldsymbol{\Sigma}}_n = \hat{\mathbf{H}}_n^{-1} \hat{\mathbf{J}}_n \hat{\mathbf{H}}_n^{-1}\]

其中 \(\hat{\mathbf{H}}_n = -\frac{1}{n} \sum_{i=1}^n \partial^2 Q_i / \partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^\top |_{\hat{\boldsymbol{\theta}}_n}\)，\(\hat{\mathbf{J}}_n = \frac{1}{n} \sum_{i=1}^n (\partial Q_i / \partial \boldsymbol{\theta})|_{\hat{\boldsymbol{\theta}}_n} (\partial Q_i / \partial \boldsymbol{\theta})|_{\hat{\boldsymbol{\theta}}_n}^\top\)。则：

\[\hat{\boldsymbol{\Sigma}}_n \xrightarrow{p} \boldsymbol{\Sigma}\]

必要条件：\(\lambda_k = o(n^{-1/4})\)（惩罚参数衰减速率），保证惩罚项对方差的贡献渐近可忽略。

定理 3（惩罚参数校正后的方差估计）：设 \(\hat{\boldsymbol{\lambda}}\) 为惩罚参数的数据驱动估计（如 GCV 或 REML），定义校正后的方差估计量：

\[\tilde{\boldsymbol{\Sigma}}_n = \hat{\boldsymbol{\Sigma}}_n + \frac{\partial \hat{\boldsymbol{\theta}}_n}{\partial \boldsymbol{\lambda}} \bigg|_{\hat{\boldsymbol{\lambda}}} \widehat{\text{Var}}(\hat{\boldsymbol{\lambda}}) \left(\frac{\partial \hat{\boldsymbol{\theta}}_n}{\partial \boldsymbol{\lambda}} \bigg|_{\hat{\boldsymbol{\lambda}}}\right)^\top\]

在适当正则条件下，\(\tilde{\boldsymbol{\Sigma}}_n\) 比 \(\hat{\boldsymbol{\Sigma}}_n\) 有更小的有限样本偏差。

解决的技术难点：标准理论假设 \(\boldsymbol{\lambda}\) 固定，但实践中 \(\hat{\boldsymbol{\lambda}}\) 是随机变量。作者通过隐函数求导计算 \(\partial \hat{\boldsymbol{\theta}} / \partial \boldsymbol{\lambda}\)，显式传播 \(\hat{\boldsymbol{\lambda}}\) 的不确定性到 \(\hat{\boldsymbol{\theta}}\)。

证明路线与技术技巧¶

整体路线： 1. 建立惩罚拟似然的估计方程：将 \(\hat{\boldsymbol{\theta}}\) 表述为估计方程 \(\frac{1}{n} \sum_{i=1}^n \mathbf{U}_i(\boldsymbol{\theta}, \boldsymbol{\lambda}) = 0\) 的解，其中 \(\mathbf{U}_i = \partial Q_i / \partial \boldsymbol{\theta} - \lambda \mathbf{P} \mathbf{b}\)。 2. Taylor 展开：在 \(\boldsymbol{\theta}_0\) 处展开 \(\frac{1}{n} \sum_{i=1}^n \mathbf{U}_i(\hat{\boldsymbol{\theta}}, \hat{\boldsymbol{\lambda}}) = 0\)，得到：

\[\sqrt{n}(\hat{\boldsymbol{\theta}} - \boldsymbol{\theta}_0) \approx \left(\frac{1}{n} \sum_{i=1}^n \frac{\partial \mathbf{U}_i}{\partial \boldsymbol{\theta}}\right)^{-1} \left(\frac{1}{\sqrt{n}} \sum_{i=1}^n \mathbf{U}_i(\boldsymbol{\theta}_0, \boldsymbol{\lambda}_0) + \frac{\partial \mathbf{U}}{\partial \boldsymbol{\lambda}} \sqrt{n}(\hat{\boldsymbol{\lambda}} - \boldsymbol{\lambda}_0)\right)\]

3. 控制惩罚项：证明 \(\lambda_k \to 0\) 适当速率下，\(\frac{\partial \mathbf{U}}{\partial \boldsymbol{\lambda}} \sqrt{n}(\hat{\boldsymbol{\lambda}} - \boldsymbol{\lambda}_0) = o_p(1)\)，即惩罚参数不确定性渐近可忽略（或有限样本需校正）。 4. 应用中心极限定理：\(\frac{1}{\sqrt{n}} \sum_{i=1}^n \mathbf{U}_i(\boldsymbol{\theta}_0, \boldsymbol{\lambda}_0) \xrightarrow{d} N(0, \mathbf{J})\)，结合 Hessian 逆得渐近正态性。 5. Sandwich variance 相合性：用经验过程理论控制 \(\hat{\mathbf{H}}_n\) 和 \(\hat{\mathbf{J}}_n\) 的收敛。

关键跳跃点： - 引理 1（惩罚项的渐近可忽略性）：证明在 \(\lambda_k = o(n^{-1/4})\) 下，惩罚项对估计方程的贡献是 \(o_p(n^{-1/2})\)。难点在于惩罚项涉及样条系数 \(\mathbf{b}\) 的高维性（\(q_k \to \infty\)），需用样条逼近理论与矩阵范数不等式控制。 - 引理 2（隐函数求导的存在性）：证明 \(\partial \hat{\boldsymbol{\theta}} / \partial \boldsymbol{\lambda}\) 存在且有界，需验证估计方程的 Hessian 在 \(\hat{\boldsymbol{\theta}}\) 处非奇异。

技术技巧点名： - Empirical process theory：控制 \(\sup_{\boldsymbol{\theta}} \|\frac{1}{n} \sum_{i=1}^n \mathbf{U}_i(\boldsymbol{\theta}) - \mathbb{E}[\mathbf{U}(\boldsymbol{\theta})]\|\) 的收敛。 - Penalized spline approximation theory：用 Sobolev 空间逼近界控制样条逼近误差 \(\sup_x |f_{k0}(x) - \sum_l b_{kl} B_l(x)|\)。 - Implicit function theorem：计算 \(\partial \hat{\boldsymbol{\theta}} / \partial \boldsymbol{\lambda}\)，需验证估计方程的光滑性与 Hessian 可逆性。 - Sandwich variance robustification：沿用 GEE 的经典技巧，\(\mathbf{H}^{-1} \mathbf{J} \mathbf{H}^{-1}\) 在工作相关误设时仍相合。

真实例子与应用¶

例 1：Beaver 觅食行为纵向研究 - 数据：\(n = 4\) 只 beaver，每只观测 \(m_i \approx 100\) 个时间点的体温与觅食状态。 - 模型：\(Y_{ij}\) 为体温，\(X_{ij1}\) 为时间（光滑趋势），\(X_{ij2}\) 为觅食状态（二值）。边际模型为：

\[\mathbb{E}[Y_{ij}] = \beta_0 + \beta_1 \cdot \text{foraging}_{ij} + f(\text{time}_{ij})\]

- 应用方式：用 MAM 估计 \(f(\cdot)\)（非线性时间趋势）与 \(\beta_1\)（觅食效应），sandwich variance 校正 beaver 个体内相关。 - 结果：觅食状态对体温有显著正效应（\(\hat{\beta}_1 \approx 0.2\)，SE ≈ 0.05），时间趋势呈现昼夜节律。与独立假设下的标准误相比，sandwich 标准误更大（校正了正相关性）。

例 2：西非 Loa loa 感染空间分析 - 数据：\(n \approx 200\) 个村庄，每个村庄 \(m_i \approx 50-200\) 个个体的感染状态（二值），协变量包括地理位置、海拔、植被指数。 - 模型：\(Y_{ij}\) 为感染状态，边际模型为：

\[\text{logit}(\mathbb{E}[Y_{ij}]) = \beta_0 + f_1(\text{longitude}_{i}) + f_2(\text{latitude}_{i}) + f_3(\text{elevation}_{i}) + \beta_1 \cdot \text{NDVI}_{i}\]

- 应用方式：用 MAM 估计空间光滑效应 \(f_1, f_2\) 与海拔效应 \(f_3\)，sandwich variance 校正村庄内个体相关。 - 结果：感染率呈现明显空间聚集，海拔有非线性负效应。惩罚参数校正后的置信区间比未校正略宽（约 5-10%）。

例子想说明什么： - 验证 MAM 在真实数据上的可行性（计算收敛、结果可解释）。 - 展示 sandwich variance 相比独立假设的差异（校正集群内相关）。 - 展示惩罚参数校正的有限样本效果（置信区间覆盖率改进）。

🔎 结论是否比证明窄¶

作者在结论中声称 MAM 框架"provides valid inference under arbitrary within-cluster correlation"，但证明中实际要求： 1. 集群数 \(n \to \infty\)（大样本渐近），对固定 \(n\)、\(m_i \to \infty\) 的情形未严格处理。 2. 惩罚参数 \(\lambda_k = o(n^{-1/4})\)，实践中 GCV/REML 选出的 \(\hat{\lambda}\) 是否满足此条件未验证。 3. 光滑性假设 \(f_{k0} \in \mathcal{H}^s\) 要求 \(s \geq 2\)，对低光滑函数未讨论。

这些条件在实证例子中未必严格满足，作者未讨论有限样本下的 robustness。

四、开放问题¶

Semiparametric efficiency bound 问题（扎根于 Section 1 对 GEE 效率的讨论）：本文的 sandwich variance 估计量是否达到边际可加模型下的 semiparametric efficiency bound？若工作相关矩阵正确设定，能否构造更有效的估计量？——需推导该设定下的 efficient influence function 并与本文估计量比较。
惩罚参数选择的理论保证（扎根于定理 3 的条件 \(\lambda_k = o(n^{-1/4})\)）：GCV 或 REML 选出的 \(\hat{\lambda}\) 是否以高概率满足此条件？若不满足，方差估计的偏差有多大？——需分析 GCV/REML 在集群数据下的渐近行为。
高维协变量扩展（扎根于 Section 5 对 future work 的简短提及）：当协变量维度 \(p \gg n\) 时，如何结合变量选择与惩罚样条？Lasso-type penalty 与 smoothing penalty 如何联合调谐？——需发展高维半参数理论。
因果推断视角的边际效应（扎根于 introduction 对 marginal model 的强调）：若存在时变混杂，边际结构模型的 G-estimation 与本文 MAM 如何结合？——需引入 IPW 或 doubly robust 估计，并重新推导效率界。

Maintained by 陈星宇 · Homepage · Source on GitHub