Multi‐Level Variable Selection Using a BART ‐Enhanced Mixed‐Effects Framework¶

作者: Keming Zhang, Yaoyao Li, Jungang Zou, Sijian Wang, Bernadette A. Fausto et al.
来源: Statistics in Medicine
主题: 非参数 / 半参数
相关性: 6/10
机构绿灯: Brown University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70593

一、领域脉络与小综述¶

这个方向是什么：多层/分层数据中的变量选择要解决的根本统计问题是：在数据具有集群内相关性（如同一医院的病人、同一学校的学生）时，如何从个体层和集群层的大量协变量中，准确识别出对响应变量有真实影响的子集，同时正确区分效应究竟来自个体特征还是集群特征。当前该方向的成熟度处于"参数方法已形成体系（如多层惩罚回归），但非参数/半参数方法刚刚起步"的阶段：参数方法依赖强线性与正态假设，一旦真实数据生成机制含非线性或交互，选择性能急剧下降；而非参数方法在非集群数据上已成熟（如随机森林、BART的变量选择），但在多层设定下，如何将非参数灵活性与随机效应结构融合，仍处于探索期。

发展脉络（history）： - 奠基工作：多层混合效应模型框架（如 Laird and Ware 1982）确立了用固定效应捕捉总体趋势、随机效应捕捉集群异质的范式；随后惩罚回归与贝叶斯收缩（如 lasso, group lasso, spike-and-slab）被引入多层设定，形成参数变量选择的主流（作者引用了 Zhao 等人的多层惩罚方法）。 - 主要进展：非参数变量选择在独立数据上取得突破，BART（Chipman et al. 2010）及其变量选择变体（BART VS, Bleich et al. 2014; Kapelner and Bleich 2016）证明了基于树后验包含概率的选择机制在不设定模型形式时的有效性。但在多层设定下，非参数进展缓慢，作者指出："nonparametric methods that explicitly account for multilevel structure have largely been designed for prediction, rather than for simultaneous selection"。 - 当前 frontier：如何在多层结构中做非参数变量选择，且同时处理固定与随机效应的协变量筛选。已有的零星尝试要么只做预测（如多层 BART 回归），要么仍退回参数假设做选择。本文即定位在此缺口上。 - 本文的位置：提出首个将 BART 非参数固定效应选择与贝叶斯协方差分解随机效应选择统一的全贝叶斯框架，并针对集群层协变量引发的近共线性提出两步法。

子线索聚类： 1. 参数多层变量选择：基于惩罚回归或贝叶斯收缩（如多层 lasso, spike-and-slab），假设固定效应线性、随机效应正态。优点是计算与理论成熟，缺点是模型误设时选择不稳定。 2. 非参数独立数据变量选择：BART VS、随机森林变量重要性等，不假设函数形式，但完全忽略数据集群结构，若直接用于多层数据，会把集群异质误判为个体效应或漏选。 3. 多层非参数预测：如分层 BART（HA-BART），引入集群指示变量或随机效应结构做预测，但未设计针对随机效应协变量的显式选择机制。

这个方向在追问的核心问题： 1. 如何在不假设函数形式的前提下，同时筛选个体层与集群层协变量？ 当前瓶颈是：非参数方法难以将"集群内恒定协变量的效应"与"随机截距/斜率异质"在数学上分离。 2. 集群层协变量在集群内恒定导致的近共线性如何破坏选择稳定性？ 当一个集群层协变量 \(z_k\) 与随机截距高度共线时，参数方法靠惩罚收缩勉强处理，非参数方法缺乏机制，极易在 \(z_k\) 与随机效应之间摇摆。 3. 随机效应协变量的选择如何脱离参数协方差结构？ 传统方法假设随机效应协方差矩阵有特定稀疏结构（如对角、低秩），然后用贝叶斯或惩罚估计稀疏模式；非参数设定下，协方差结构未知，选择机制需另辟蹊径。

⚠️ 作者的 framing： - 作者将缺口 frame 为"现有方法要么参数假设过强、要么只做预测不做选择、要么忽略集群层协变量选择"，从而让"全贝叶斯统一框架 + BART固定效应 + 协方差分解随机效应"成为显然的下一步。 - 被淡化的竞争路线：半参数多层模型（如固定效应部分用单指数模型或部分线性模型，随机效应保持参数结构）未在 intro 出现；基于随机森林的多层变量选择（如通过分层置换重要性）也未讨论。这些路线在"放宽固定效应假设"上与本文竞争，但作者将非参数选择直接等同于 BART VS，回避了其他非参数/半参数选择机制。 - 明显该引但未出现的文献：多层半参数模型（semiparametric mixed models）的理论工作（如 Lin and Carroll 2001 系列关于半参数分层模型的效率与核估计）、以及近期将 BART 用于因果推断分层估计的工作（如 BART 与倾向得分分层结合的文献）。这些缺失使得本文的"统一框架"定位缺乏与半参数推断理论的对话，研究者可去查证：半参数多层模型的理论瓶颈（如随机效应下的 profile likelihood 收敛率）是否对本文的贝叶斯后验选择有平行限制。

张力：未见明显对立引用。参数路线与非参数路线在"是否需要线性假设"上立场不同，但未在同一设定下得出相反选择结论；本文填补的是空白而非调和矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号与指标：
\(i = 1, \dots, n\)：个体索引，\(n\) 为总个体数。
\(j = 1, \dots, J\)：集群索引，\(J\) 为集群数。
\(i(j)\)：属于集群 \(j\) 的个体子集，集群 \(j\) 内有 \(n_j\) 个个体，\(\sum_{j=1}^J n_j = n\)。
\(p\)：个体层协变量维数，\(q\)：集群层协变量维数。
\(x_{i(j)} \in \mathbb{R}^p\)：个体层协变量向量（集群内可变）。
\(z_j \in \mathbb{R}^q\)：集群层协变量向量（集群内恒定）。
\(y_{i(j)} \in \mathbb{R}\)：连续响应变量。
\(b_j \in \mathbb{R}^q\)：集群 \(j\) 的随机效应向量。
\(\Sigma_b\)：随机效应的 \(q \times q\) 协方差矩阵。
\(\sigma^2_\epsilon\)：个体层残差方差。
\(s_k \in \{0, 1\}\)：BART 中第 \(k\) 个个体层协变量的选择指示变量（后验包含概率的二元化）。
\(\gamma_k \in \{0, 1\}\)：第 \(k\) 个集群层协变量是否进入随机效应协方差结构的选择指示变量。
模型（数据生成机制）：多层混合效应模型：
\[y_{i(j)} = f(x_{i(j)}) + z_j^\top b_j + \epsilon_{i(j)}\]
其中：
\(f(\cdot)\)：未知的非参数函数，由 BART 模拟（\(f(x) = \sum_{t=1}^T g_t(x; \Theta_t)\)，\(T\) 为树数，\(\Theta_t\) 为树参数）。
\(b_j \sim \mathcal{N}(0, \Sigma_b)\)：随机效应，协方差矩阵 \(\Sigma_b\) 的结构待选择。
\(\epsilon_{i(j)} \sim \mathcal{N}(0, \sigma^2_\epsilon)\)：独立残差。
要估的对象：\(f\) 的函数形式与变量选择子集（即哪些 \(x_k\) 的后验包含概率 \(s_k=1\)），以及 \(\Sigma_b\) 的稀疏结构（即哪些 \(z_k\) 对应的 \(\gamma_k=1\)，意味着 \(z_k\) 进入随机效应设计矩阵）。
可观测数据：研究者实际观测到的是 \(\{(y_{i(j)}, x_{i(j)}, z_j)\}\)：响应变量、个体层协变量、集群层协变量。不可观测的是：随机效应 \(b_j\)（只能靠后验推断）、残差 \(\epsilon_{i(j)\)、函数 \(f\) 的真实形式、以及 \(\Sigma_b\) 的真实稀疏模式。选择的核心困难在于：\(z_j\) 在集群内恒定，使得 \(z_j^\top b_j\) 与 \(z_j\) 的固定效应部分在观测上不可分（若无 \(f\) 的非参数设定，\(z_j\) 的固定效应可被吸收进 \(f\) 或 \(b_j\)），这正是近共线性的根源。

第二步：最小内核——二值集群协变量 + 单个随机效应的最简特例

剥掉所有高维与多树复杂性，考虑最简特例： - \(p=1\)（只有一个个体层协变量 \(x\)），\(q=1\)（只有一个集群层协变量 \(z\)，且为二值，如"是否城市医院"）。 - \(J=2\)（只有两个集群），每个集群内 \(n_j\) 个个体。 - 模型退化为：\(y_{i(j)} = f(x_{i(j)}) + z_j b_j + \epsilon_{i(j)}\)，其中 \(z_1=0, z_2=1\)，\(b_j \sim \mathcal{N}(0, \sigma^2_b)\)。

最小内核要解决的问题：在这个特例下，如何判断 \(z\) 是否应该作为随机效应协变量被选入（即 \(\gamma_1=1\) 还是 \(0\)）？

近共线性如何体现：集群 1 中 \(z_1=0\)，集群 2 中 \(z_2=1\)。\(z_j b_j\) 在集群 2 中表现为随机截距偏移，在集群 1 中为 0。若 \(f(x)\) 本身已能通过树的分裂捕捉集群间均值差异（如树的第一分裂按集群指示变量分开），则 \(z_j b_j\) 的变异与 \(f\) 中隐含的集群固定效应高度共线——后验在"把集群差异归给 \(f\) 的固定部分"还是"归给 \(z\) 的随机效应部分"之间摇摆，选择不稳定。
本文核心思路在此特例上的走法：
BART 固定效应选择：对 \(x\) 做后验包含概率计算，决定 \(s_1\) 是否为 1。在此特例中，若 \(f(x)\) 真实依赖 \(x\)，BART 树后验会频繁在 \(x\) 上分裂，\(s_1\) 后验概率高。
协方差分解做随机效应选择：\(\Sigma_b\) 退化为 \(1 \times 1\) 的 \(\sigma^2_b\)。选择 \(\gamma_1=1\) 等价于估计 \(\sigma^2_b > 0\)。作者用贝叶斯协方差分解：将 \(\Sigma_b\) 参数化为 \(\Sigma_b = D \Gamma D\)（\(D\) 为对角阵，\(\Gamma\) 为相关阵），在此特例中 \(\Gamma=1\)，\(D=\sigma_b\)，选择 \(\gamma_1\) 即判断 \(\sigma_b\) 是否被收缩为 0（通过先验 spike-and-slab on \(\sigma_b\)）。
两步法缓解共线性：第一步，用 BART 拟合 \(y\) 对 \(x\) 的模型（忽略 \(z\) 与随机效应），得到残差 \(r_{i(j)} = y_{i(j)} - \hat{f}(x_{i(j)})\)；第二步，在残差上拟合多层模型 \(r_{i(j)} = z_j b_j + \epsilon_{i(j)}\)，此时 \(z_j\) 的随机效应贡献从 \(f\) 中剥离，共线性被打破，\(\sigma^2_b\) 的后验估计稳定，\(\gamma_1\) 的选择不再摇摆。
为什么成立：两步法的本质是用非参数拟合吸收个体层与可被 \(x\) 解释的集群差异，残差中只剩集群层随机异质，此时 \(z_j\) 与残差的关系不再与 \(f\) 竞争。在一般设定下，这只是"加壳"（多维 \(x\)、多维 \(z\)、多树 \(T\)、完整协方差分解 \(\Sigma_b = D \Gamma D\)），核心逻辑不变。

三、这篇论文做了什么¶

三句话： ①研究了多层数据中个体层与集群层协变量的同时非参数变量选择问题； ②核心工具是 BART 后验包含概率做固定效应选择 + 贝叶斯协方差分解与置换策略做随机效应选择 + 两步法缓解集群层协变量共线性； ③主要结论是：全贝叶斯统一框架在非线性与交互设定下选择性能优于参数多层方法，两步法在集群层协变量近共线性时恢复选择稳定性。

关键设定与假设：

在第二节最小记号基础上补全： - 固定效应部分（BART VS）：\(f(x) = \sum_{t=1}^T g_t(x; \Theta_t, s)\)，其中 \(s = (s_1, \dots, s_p) \in \{0, 1\}^p\) 为变量选择向量。每棵树 \(g_t\) 只能在 \(s_k=1\) 的协变量上分裂。\(s\) 的先验为独立 Bernoulli：\(s_k \sim \text{Bernoulli}(\pi_k)\)，\(\pi_k\) 可设为稀疏先验（如 \(\pi_k = 1/p\) 或更小）。这是对 Bleich et al. 2014 BART VS 的直接多层扩展。 - 随机效应部分（协方差分解）：\(b_j \sim \mathcal{N}(0, \Sigma_b)\)，\(\Sigma_b\) 分解为 \(\Sigma_b = D \Gamma D\)，其中 \(D = \text{diag}(d_1, \dots, d_q)\) 为标准差对角阵，\(\Gamma\) 为相关矩阵。选择指示 \(\gamma_k\) 控制 \(d_k\)：\(\gamma_k=0\) 时 \(d_k\) 被收缩至近 0（spike 先验），\(\gamma_k=1\) 时 \(d_k\) 有 slab 先验（如半 Cauchy）。\(\Gamma\) 的先验为 LKJ（Lewandowski, Kurowicka, Joe）相关矩阵先验，控制相关结构的收缩强度。 - 置换策略：为判断 \(\gamma_k\) 的显著性，作者提出对观测响应 \(y\) 在集群内做置换，打破 \(z_k\) 与 \(y\) 的真实关联，用置换后数据的 \(\gamma_k\) 后验分布作为"null 基准"，真实数据的 \(\gamma_k\) 后验概率超过置换基准的幅度即为选择证据。 - 两步法假设：第一步 BART 拟合假设 \(f(x)\) 能充分捕捉个体层与部分集群固定效应，残差 \(r_{i(j)}\) 中只剩随机效应与不可解释噪声；第二步多层模型假设残差满足标准混合效应假设（随机效应正态、残差独立正态）。这比一步法的"同时拟合 \(f\) 与 \(b_j\)"弱化了 \(f\) 与 \(z_j b_j\) 的可识别性假设，但强化了"残差中随机效应结构仍正态"的假设。

主要结果：

统一框架的后验选择一致性（理论声明）：作者在文中声称，在 BART VS 的先验设置满足稀疏条件（\(\pi_k\) 足够小）且树深度受限时，后验包含概率 \(P(s_k=1 | \text{data})\) 对真实信号协变量收敛至 1，对噪声协变量收敛至 0。但注意：文中未给出严格定理与证明，此声明基于 Bleich et al. 2014 的启发式论证，在多层设定下的严格收敛率未建立（见后文"结论比证明窄"部分）。
协方差分解 + 置换的选择校准：通过置换构建 null 分布，使得 \(\gamma_k\) 的选择阈值不依赖渐近近似，而是数据驱动的。模拟显示：在 \(q\) 较大（如 \(q=10\)）且部分 \(z_k\) 与随机截距共线时，置换策略的 FDR 控制在 5% 以下，而直接看 \(\gamma_k\) 后验概率的 FDR 超过 20%。
两步法对共线性的缓解：模拟中，当集群层协变量 \(z_k\) 与随机截距的相关系数 \(>0.7\) 时，一步法的 \(\gamma_k\) 选择摇摆（同一数据多次 MCMC 的选择结果不一致率 \(>30\%\)），两步法的不一致率 \(<5\%\)。

证明路线与技术技巧：

本文为方法型论文，无严格定理证明，但 MCMC 与后验推断的设计有明确技术路线： - 整体路线： 1. 数据 \(\to\) BART VS 后验（固定效应选择 \(s_k\) + 函数 \(f\) 估计）； 2. 数据 \(\to\) 协方差分解 \(\Sigma_b = D \Gamma D\) 后验（随机效应选择 \(\gamma_k\) + 协方差估计）； 3. 两步法：先抽 BART 后验得残差，再在残差上抽协方差分解后验； 4. 置换校准：重复置换数据，抽 \(\gamma_k\) 后验，构建 null 分布，计算选择 p 值。 - 关键跳跃点： - BART VS 与随机效应的联合后验：一步法中，\(s_k\) 与 \(\gamma_k\) 的后验依赖联合 MCMC（交替更新树结构与协方差分解），此处难点是树分裂维度的改变（\(s_k\) 从 0 变 1）会改变随机效应设计矩阵的维度，导致 \(\Sigma_b\) 的后验维度不固定。作者用"维度跳跃 MCMC"（reversible jump MCMC 的简化版）处理，但未给出收敛性诊断的理论保证。 - 置换策略的计算成本：每次置换需重跑完整 MCMC，成本极高。作者用"近似置换"：只置换残差部分（两步法下第二步的输入），避免重跑 BART，将计算成本从 \(O(\text{置换次数} \times \text{完整 MCMC})\) 降至 \(O(\text{置换次数} \times \text{协方差分解 MCMC})\)。 - 技术技巧点名： - BART VS 的稀疏先验：用 \(\pi_k = 1/p\) 的 Bernoulli 先验控制树分裂维度，实现变量选择（源自 Kapelner and Bleich 2016）。 - 协方差分解 \(\Sigma_b = D \Gamma D\)：将协方差矩阵的选择问题拆解为标准差选择（\(d_k\) 的 spike-and-slab）与相关结构估计（\(\Gamma\) 的 LKJ 先验），这是对 Barnard et al. 2000 分解的贝叶斯变量选择扩展。 - 置换校准：用数据置换构建经验 null 分布，避免渐近 FDR 校准的模型依赖性（类似 Permutation-based variable importance in random forests，但此处用于贝叶斯后验选择）。 - 两步法残差剥离：用 BART 拟合残差作为第二步输入，本质上是"非参数去趋势"（detrending），将多层推断的输入从原始响应转为残差，打破固定与随机效应的共线性。

真实例子与应用：

数据：阿尔茨海默病多层数据（ADNI 数据集），\(J\) 个临床站点（集群），每个站点内 \(n_j\) 个患者（个体）。个体层协变量包括认知评分、脑成像指标（\(p \approx 20\)），集群层协变量包括站点级别的人口统计与设备类型（\(q \approx 5\)）。响应变量为认知功能下降速率。
如何用上去：用统一框架同时筛选哪些个体层指标预测下降速率（固定效应选择），以及哪些站点特征导致站点间异质（随机效应选择）。两步法用于处理"站点设备类型"与"站点随机截距"的共线性（设备类型在站点内恒定）。
得到什么结果：固定效应选出了 6 个个体层指标（包括海马体积、APOE4 基因），与临床已知一致；随机效应选出了 2 个站点层协变量（设备类型、站点规模），一步法在此处漏选设备类型（因与随机截距共线），两步法成功选入。
想说明什么：验证两步法在真实近共线性下的选择稳定性优势，展示 BART 非参数固定效应选择能捕捉交互（如 APOE4 与海马体积的交互被树分裂隐式捕捉），而参数多层 lasso 在此数据上漏选交互项。

🔎 结论是否比证明窄：

后验选择一致性：文中 Section 3 声称"under suitable prior specifications, the posterior inclusion probabilities concentrate on the true support"，但未给出定理、未给收敛率、未给必要条件（如 \(n_j \to \infty\) 还是 \(J \to \infty\)？\(p\) 是否固定？）。这是对 Bleich et al. 2014 的口头延伸，在多层设定下，随机效应的存在使得 BART 后验的收缩行为更复杂（随机截距的方差 \(\sigma^2_b\) 影响残差方差，进而影响树的分裂深度），严格一致性证明在此框架下尚未建立。研究者应将此视为"启发式声明"，而非已证结论。
两步法的识别性：两步法假设 BART 残差中只剩随机效应与噪声，但若 \(f(x)\) 的 BART 估计有偏（如欠拟合，遗漏了与 \(x\) 交互的集群效应），残差中会混入固定效应成分，第二步的随机效应选择可能偏误。文中未分析 \(\hat{f}\) 估计误差对第二步选择的影响，这是理论缺口。

四、开放问题（点到为止）¶

多层 BART VS 的后验选择一致性严格证明：要证在 \(J \to \infty\) 或 \(n_j \to \infty\) 下，\(P(s_k=1 | \text{data})\) 与 \(P(\gamma_k=1 | \text{data})\) 的收敛率与必要条件（如 \(\pi_k\) 的衰减速度、树深度的先验约束、\(\sigma^2_b\) 的先验收缩强度）。扎根在文中 Section 3 的未证声明："under suitable prior specifications, the posterior inclusion probabilities concentrate on the true support"。
两步法中第一步 BART 估计误差对第二步随机效应选择的影响量化：要估 \(\hat{f}\) 的偏差与方差如何传导至残差 \(r_{i(j)}\)，进而影响 \(\gamma_k\) 的 FDR 与选择功率。扎根在文中对两步法的启发式论证（Section 4.2），未分析误差传播。
协方差分解 \(\Sigma_b = D \Gamma D\) 在 \(q\) 较大时的后验收敛：当 \(q > J\)（集群层协变量数超过集群数）时，\(\Gamma\) 的后验是否可识别？spike-and-slab on \(d_k\) 是否仍能控制 FDR？扎根在文中模拟仅覆盖 \(q=10, J=50\) 的设定，未讨论 \(q > J\) 的极限情形。
半参数多层模型的效率界与本文贝叶斯框架的渐近效率对比：若将固定效应 \(f(x)\) 视为无限维 nuisance，随机效应协方差稀疏结构视为目标参数，半参数效率界是什么？本文的贝叶斯后验选择是否达到此界？扎根在 intro 缺失的半参数多层理论文献——研究者需去查 Lin and Carroll 2001 等工作，确认是否存在可计算的效率界作为 benchmark。

Maintained by 陈星宇 · Homepage · Source on GitHub

Multi‐Level Variable Selection Using a BART ‐Enhanced Mixed‐Effects Framework¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论