Soft calibration for selection bias problems under mixed-effects models¶

作者: Chenyin Gao, Shu Yang, Jae Kwang Kim
来源: Biometrika
主题: 因果推断
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：在存在选择偏差（如非概率抽样、缺失数据、观测性研究中的混杂）时，如何利用校准权重将偏倚样本调整至代表目标总体，同时避免在协变量维数较高或存在聚类/层次结构时产生极端权重导致估计效率崩溃。当前该方向已从经典的抽样调查理论扩展至因果推断与数据融合，成熟度较高，但在高维与复杂结构（如混合效应）下的效率与稳健性权衡仍是活跃前沿。

发展脉络 - 奠基工作：校准权重估计的奠基源自调查抽样中的 Horvitz-Thompson 估计量与模型辅助估计。Cardot & Josserand (2009/2011) 将其扩展至泛函数据；Wu & Sitter (2001) 提出最优模型校准；Estevao & Särndal (2000) 引入工具变量校准；Wu & Rao (2006) 发展了经验似然校准。这些工作确立了“强制矩平衡以消除偏倚”的硬校准范式。 - 主要进展（硬校准的瓶颈与破局）：硬校准要求权重精确满足所有协变量的矩条件，当协变量过多时极易产生极端权重。为解决此问题，后续研究转向“正则化校准”或“近似平衡”。Guggemos & Tillé (2010)、Athey et al. (2018/近似残差平衡)、Ning et al. (2020/高维协变量平衡倾向得分)、Tan (2020/正则化校准) 利用稀疏性或 \(L_1\) 惩罚放松部分约束；Zubizarreta (2015)、Wong & Chan (2018)、Wang et al. (2022) 利用其他正则化手段；Chattopadhyay et al. (2020) 提出最小散度近似平衡权重；Hirshberg et al. (2019) 从 Minimax 线性估计视角提出失衡策略；Ben-Michael et al. (2021) 针对多层数据提出“双重 rake”（边际紧约束、交互松约束）。作者在 Intro 中明确将这条线定位为“为了缓解极端权重而放松校准约束”的演进。 - 当前 frontier（结构化数据下的校准）：当数据具有层次/聚类结构时，忽略未观测的聚类特异性变量会导致偏倚。Li et al. (2013)、Schuler et al. (2016) 探讨了多层数据下的倾向得分建模；Yang (2018) 提出针对聚类特异性非可忽略处理分配的校准技术，利用平衡约束隐式处理未观测聚类混杂；Yang & Ding (2019)、Yang & Kim (2020) 综述了多源数据融合中的校准。作者指出，现有正则化校准多依赖稀疏性或平滑性，而未利用数据本身的混合效应相关结构。 - 本文的位置：本文切入“混合效应结构下的正则化校准”，提出对固定效应精确校准、对随机效应近似校准的“软校准”方案，填补了利用随机效应相关结构进行惩罚的空白。

子线索聚类 1. 硬校准与模型辅助估计：Deville & Särndal (1992)、Cardot & Josserand (2011)、Wu & Sitter (2001)。这一簇在调查抽样框架下追求精确矩平衡，瓶颈在于高维时权重爆炸。 2. 高维/正则化校准（稀疏与平滑驱动）：Tan (2020)、Ning et al. (2020)、Athey et al. (2018)、Wong & Chan (2018)、Hirshberg et al. (2019)。这一簇通过 \(L_1\) 惩罚、核空间或 Minimax 策略放松约束，瓶颈在于惩罚项未反映协变量的内生相关结构。 3. 层次/聚类数据下的权重调整：Li et al. (2013)、Yang (2018)、Ben-Michael et al. (2021)。这一簇意识到忽略聚类效应会导致偏倚，但现有方法（如 Ben-Michael 的多层校准）仍停留在边际与交互约束的松紧调节，未显式引入随机效应模型的 BLUP 结构。

这个方向在追问的核心问题 1. 如何在高维或复杂结构下消除选择偏倚，同时控制权重的极端性以保障估计效率？ 2. 正则化校准中的惩罚项/放松约束应依据什么准则构建？是稀疏性、平滑性，还是协变量的相关结构？ 3. 当存在未观测的层次/聚类混杂时，校准权重如何隐式或显式地吸收这些不可观测的随机效应信息？当前主流方法通过 \(L_1\) 或核范数惩罚应对高维，瓶颈在于惩罚项与数据生成机制脱节，导致效率损失；对聚类数据则依赖固定效应或粗粒度的交互约束，未能达到 BLUP 水平的效率。

⚠️ 作者的 framing - 作者的说法：作者将缺口 frame 为“现有正则化校准依赖稀疏或平滑条件，而未利用随机效应的相关结构”，从而将“对固定效应硬校准、对随机效应软校准（基于 BLUP 结构惩罚）”呈现为显然的下一步。 - 被淡化或回避的竞争路线：Intro 未提及非参数/机器学习路线（如 BART、深度学习倾向得分）在复杂结构下的表现，也未深入讨论 doubly robust 估计在混合效应模型下的半参数效率界（仅提及 Avagyan & Vansteelandt (2021) 的惩罚偏差缩减双稳健作为对比基准，但未将其效率与本文 BLUP 效率做理论层面的直接对冲）。 - 明显该被引却未出现的：针对混合效应模型下因果推断的半参数效率界工作（如多层结构下的 efficient influence function 推导），以及 longitudinal/panel data 校准的最新进展。这值得研究者去查：本文的 BLUP 效率是否已触及该结构下的半参数效率界，还是仅在特定模型类内最优？

张力未见明显对立引用。各路线在不同设定下互补：硬校准在低维无结构时最优，稀疏正则化在高维无结构时最优，本文在混合效应结构下最优。但潜在张力在于：若真实数据既高维又具混合效应，且随机效应不服从正态，本文的正态 BLUP 惩罚与 Tan (2020) 的 \(L_1\) 惩罚谁更稳健？Intro 未对此进行模拟对冲。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚 - 参数 / estimand：\(\mu\) —— 目标总体均值（或因果推断中的总体平均潜在结果 / ATE）。 - 随机变量 / 样本： - \(Y_i\)：个体 \(i\) 的结果变量。 - \(\delta_i\)：选择指示变量（\(\delta_i=1\) 表示个体进入偏倚样本/非概率样本/处理组，可观测其 \(Y_i\)；\(\delta_i=0\) 表示仅在基准/概率样本中，观测其 \(X_i\) 但不观测 \(Y_i\)）。 - \(X_{1i}\)：固定效应协变量（\(p_1\) 维），对所有个体可观测。 - \(X_{2i}\)：随机效应协变量（\(p_2\) 维），对所有个体可观测，且其系数随聚类 \(j\) 变化。 - \(u_j\)：聚类 \(j\) 的随机效应（\(p_2\) 维向量），不可观测。 - 维数 / 样本量等指标： - \(N\)：目标总体大小。 - \(n\)：偏倚样本（\(\delta_i=1\)）大小。 - \(p_1\)：固定效应维数；\(p_2\)：随机效应维数；\(p = p_1 + p_2\)。 - \(\gamma_n\)：随机效应协变量维数随 \(n\) 增长的阶（如 \(\gamma_n = o(n^{1/2})\)）。 - 模型（数据生成机制）： - 结果模型（混合效应模型）：\(Y_i = X_{1i}^T \beta + X_{2i}^T u_{c_i} + \epsilon_i\)，其中 \(\epsilon_i \sim N(0, \sigma^2)\)，\(u_j \sim N(0, D)\)（\(D\) 为 \(p_2 \times p_2\) 随机效应协方差阵），\(\epsilon_i\) 与 \(u_j\) 独立。 - 选择模型（倾向得分）：\(\pi_i = P(\delta_i=1 | X_{1i}, X_{2i}, u_{c_i})\)，满足正则条件（如 \(\pi_i\) 有界远离 0 与 1）。 - 可观测数据： - 对 \(\delta_i=1\) 的 \(n\) 个个体：观测 \((Y_i, X_{1i}, X_{2i})\)。 - 对 \(\delta_i=0\) 的 \(N-n\) 个个体（或外部概率样本）：仅观测 \((X_{1i}, X_{2i})\)，不观测 \(Y_i\) 与 \(u_{c_i}\)。 - 欲估 \(\mu = E[Y]\)，但总体中大部分 \(Y_i\) 缺失，且随机效应 \(u_j\) 永远不可观测，只能靠混合效应模型结构与校准约束去识别与吸收。

第二步：最小内核 剥掉所有渐近理论、方差估计与一般化表述，支撑整篇论文的最小内核是：在混合效应模型下，如何通过一个凸优化问题同时实现对固定效应的硬矩平衡和对随机效应的软矩平衡，并证明该权重等价于 BLUP 预测的残差逆概率加权，从而获得比硬校准更小的渐近方差。

最简特例：设 \(p_1=1\)（仅一个固定效应截距 \(\beta\)），\(p_2=1\)（仅一个随机效应协变量 \(x_{2i}\)，对应随机效应 \(u_j\)），聚类数 \(m=2\)，总体 \(N\) 极大（以使总体矩近似已知），偏倚样本 \(n\) 较小。 - 硬校准要求权重 \(w_i\)（对 \(\delta_i=1\) 的个体）满足： \(\sum_{i:\delta_i=1} w_i = N\) （截距硬平衡）， \(\sum_{i:\delta_i=1} w_i x_{2i} = \sum_{i=1}^N x_{2i}\) （随机效应协变量硬平衡）。当 \(x_{2i}\) 在偏倚样本与总体间分布差异大时，硬平衡迫使部分 \(w_i\) 极大，方差爆炸。 - 软校准（本文）要求： \(\sum_{i:\delta_i=1} w_i = N\) （截距硬平衡），但对 \(x_{2i}\) 放松为：\(\sum_{i:\delta_i=1} w_i x_{2i} \approx \sum_{i=1}^N x_{2i}\)，近似程度由随机效应的协方差结构 \(D\) 决定。具体而言，软校准权重 \(w_i\) 通过最小化以下目标函数获得： \(\min_{w} \sum_{i:\delta_i=1} \frac{(w_i - d_i)^2}{d_i \hat{\pi}_i} + \lambda \sum_{j} \left( \sum_{i \in j, \delta_i=1} w_i x_{2i} - \bar{x}_{2,j} \sum_{i \in j, \delta_i=1} w_i \right)^2 / \sigma^2\) （其中 \(d_i\) 为设计权重，\(\hat{\pi}_i\) 为倾向得分估计，\(\lambda\) 源自 \(D/\sigma^2\) 的结构，惩罚项正是随机效应 BLUP 结构中的 \(u_j\) 的二次惩罚）。 - 为什么成立（直觉）：在混合效应模型下，\(Y_i\) 的变异可分解为固定效应部分（由截距硬平衡消除）与随机效应部分（由 \(u_j\) 生成）。硬校准试图用权重完全抹平 \(x_{2i}\) 的分布差异，但 \(x_{2i}\) 的差异部分是由 \(u_j\) 的随机变异驱动，完全抹平相当于用权重去拟合噪声，导致权重极端。软校准通过 \(D/\sigma^2\) 的惩罚，允许权重在随机效应维度上保留与总体均值的适度偏离（该偏离量恰好是 BLUP 预测中 \(u_j\) 的收缩量），从而权重更平滑，估计方差更小。数学上，该软校准估计量 \(\hat{\mu}_{soft}\) 的渐近方差严格小于硬校准估计量 \(\hat{\mu}_{hard}\) 的渐近方差，差额正是 BLUP 相比普通最小二乘预测所节省的方差。

三、这篇论文做了什么¶

三句话 ① 研究了在非概率抽样/缺失数据/因果推断中，当结果变量与选择指示服从混合效应模型时，如何构建校准权重以消除选择偏倚并提高估计效率的问题； ② 核心方法是对固定效应施加精确校准约束、对随机效应施加基于其协方差结构的近似校准约束（软校准），并证明其与 BLUP 及惩罚倾向得分权重的内在等价性； ③ 主要结论是软校准估计量具有相合性与渐近正态性，其渐近方差小于硬校准，且在随机效应维数 \(\gamma_n\) 增长速率上比硬校准更宽松（\(\gamma_n\) 可快于 \(o(n^{1/2})\) 的硬校准要求）。

关键设定与假设 在第二节最小记号基础上补全： - Assumption 1（正则条件）：偏倚样本与总体矩满足标准正则性（如协变量四阶矩有界），确保中心极限定理适用。引用 Portnoy (1984)、Dai et al. (2018) 支撑高维矩条件。 - Assumption 2（混合效应模型）：结果变量 \(Y_i\) 服从线性混合效应模型 \(Y_i = X_{1i}^T \beta + X_{2i}^T u_{c_i} + \epsilon_i\)，\(u_j \sim N(0, D)\)，\(\epsilon_i \sim N(0, \sigma^2)\)。这是本文软校准惩罚结构的来源假设，相比已有文献（如 Tan 2020 的线性模型、Ning et al. 2020 的稀疏线性模型），强化了对随机效应正态性的依赖，但利用了更精细的协方差结构。 - Assumption 3（维数与样本量阶）： - (a) 固定效应维数 \(p_1\) 为固定或 \(o(n^{1/2})\)； - (b) 随机效应维数 \(\gamma_n\) 可随 \(n\) 增长，但需满足 \(\gamma_n^2 / n \to 0\)（对软校准 \(\hat{\theta}_w\)）或更宽松条件（对偏差校正版 \(\hat{\theta}_{bc}\)）； - (c) 矩条件支撑 CLT。相比硬校准要求所有协变量维数 \(p = o(n^{1/2})\)，本文对随机效应维数 \(\gamma_n\) 的要求更宽松，因为软校准不要求精确平衡 \(\gamma_n\) 个随机效应协变量。 - Assumption 4（倾向得分模型）：选择概率 \(\pi_i = P(\delta_i=1 | X_{1i}, X_{2i})\) 的参数模型（如 Logistic）正确指定，且 \(\pi_i\) 有界远离 0 与 1（Positivity）。这是校准权重相合性的必要条件，与 Yang (2018) 一致，但本文未要求 \(\pi_i\) 依赖未观测 \(u_j\)（即选择可忽略性给定观测协变量），仅在结果模型中引入 \(u_j\)。

主要结果 - Theorem 1（软校准估计量的渐近正态性与方差）：在 Assumptions 1-4 下，软校准估计量 \(\hat{\theta}_w\) 满足 \(\hat{\theta}_w - \theta = O_p(n^{-1/2})\)，且渐近方差为 \(V_1 + V_2\)，其中 \(V_1\) 是基准概率样本的抽样方差，\(V_2\) 是偏倚样本校准的额外方差。关键在于 \(V_2\) 的表达式显式包含随机效应协方差 \(D\) 与残差方差 \(\sigma^2\)，且 \(V_2(\text{soft}) < V_2(\text{hard})\)，差额为 BLUP 相比 OLS 的方差缩减量。必要条件是 \(\gamma_n^2 / n \to 0\)。 - Theorem 2（偏差校正软校准估计量）：结合软校准权重与 BLUP 预测 \(\hat{\mu}_i = X_{1i}^T \hat{\beta} + X_{2i}^T \hat{u}_{c_i}\)，构建偏差校正估计量 \(\hat{\theta}_{bc} = \hat{\theta}_w + \sum_{i:\delta_i=1} w_i (\hat{\mu}_i - Y_i) / N\)。在更宽松的 \(\gamma_n\) 增长条件下（\(\gamma_n\) 可快于 \(\hat{\theta}_w\) 的要求），\(\hat{\theta}_{bc}\) 仍保持渐近正态，且方差进一步缩减。直觉：BLUP 预测吸收了随机效应信息，使得残差方差更小，从而权重乘以残差的方差更小。 - Corollary（与硬校准的效率比较）：当 \(D \to \infty\)（随机效应方差极大，即随机效应退化为固定效应），软校准退化为硬校准；当 \(D\) 有限，软校准严格优于硬校准。这直接量化了“利用随机效应结构能省多少方差”。

证明路线与技术技巧 - 整体路线： 1. 构建软校准权重的优化问题：将校准约束嵌入凸优化，对固定效应矩约束为等式（硬），对随机效应矩约束为二次惩罚（软），惩罚系数由 \(D/\sigma^2\) 决定。 2. 证明软校准权重的显式解等价于 BLUP 加权残差逆概率权重：通过 Lagrange 乘子法求解优化问题，发现权重解的形式与混合效应模型下 BLUP 预测的残差加权形式一致，从而将校准问题与预测问题统一。 3. 展开软校准估计量的线性化误差：将 \(\hat{\theta}_w - \theta\) 分解为设计权重误差、倾向得分估计误差、校准约束误差三部分，利用 Taylor 展开与高维 CLT 控制各项。 4. 计算渐近方差并比较：利用 BLUP 的 Gauss-Markov 定理性质，证明软校准权重下的方差等于 BLUP 预测的均方误差，从而小于 OLS（硬校准）下的方差。 5. 构建偏差校正估计量并证明其更宽松的维数要求：利用 BLUP 预测的残差吸收随机效应维数增长带来的偏差，通过残差修正将 \(\gamma_n\) 的阶要求放松。 - 关键跳跃点： - Lemma 1（软校准权重的等价表示）：证明软校准优化问题的解可写为 \(\hat{w}_i = d_i / \hat{\pi}_i + \text{BLUP correction terms}\)。这是全文枢纽，将校准权重与混合效应预测桥接。难点在于 Lagrange 乘子与惩罚项的交互导致解的形式复杂，作者通过矩阵分块运算（固定效应与随机效应分块）将其化简为 BLUP 标准形式。 - Lemma 3（高维随机效应矩的控制）：在 \(\gamma_n\) 增长时，控制软校准权重在随机效应维度上的失衡量。难点在于失衡量不再是 0（硬校准），而是受惩罚项约束的随机量，作者利用 \(D/\sigma^2\) 的收缩效应证明失衡量以 \(\sqrt{\gamma_n / n}\) 速率趋于 0，从而允许 \(\gamma_n\) 更快增长。 - 技术技巧点名： - 凸优化与 Lagrange 乘子法：用于求解软校准权重优化问题，得到显式解。 - BLUP（最佳线性无偏预测）与 Gauss-Markov 定理：用于证明软校准权重的方差最优性，将校准估计量的方差与混合效应预测的 MSE 等价。 - 高维渐近理论（Portnoy-type CLT）：用于控制 \(\gamma_n \to \infty\) 下的线性化误差，引用 Dai et al. (2018) 的 BAR 估计量渐近性质作为技术支撑。 - 偏差校正：用于构建 \(\hat{\theta}_{bc}\)，通过残差修正吸收高维随机效应带来的偏差，类似 Avagyan & Vansteelandt (2021) 的惩罚偏差缩减双稳健思路，但本文的残差来自 BLUP 而非纯回归。

真实例子与应用 - 用的什么数据/场景：研究 BMI 筛查对儿童肥胖的影响。数据来自爱荷华州的儿童 BMI 盙查项目，包含学校（聚类）内的学生（个体），结果变量为儿童肥胖状态，处理变量为是否接受 BMI 筛查与家长通知，协变量包含个体级别（固定效应）与学校级别（随机效应）变量。 - 怎么把本文方法用上去：将学校视为聚类，构建混合效应模型（个体协变量为固定效应，学校特征与跨层交互为随机效应协变量），对处理组（接受筛查）与对照组分别构建软校准权重，估计总体平均处理效应（ATE）。 - 得到什么结果：软校准估计量的标准误小于硬校准与正则化校准（如 Tan 2020 的 \(L_1\) 惩罚），且权重分布更集中（无极端权重）。偏差校正版 \(\hat{\theta}_{bc}\) 的标准误进一步缩小。 - 这个例子想说明什么：验证理论预言——在真实聚类数据下，利用随机效应结构的软校准确实比忽略结构的硬校准或稀疏正则化更高效，且权重更稳定。

🔎 结论是否比证明窄 - Theorem 1 的陈述要求 \(\gamma_n^2 / n \to 0\)，但作者在讨论中提及“当结合 BLUP 预测时，\(\gamma_n\) 可增长更快”，这仅在 \(\hat{\theta}_{bc}\) 的定理中严格证明，而对 \(\hat{\theta}_w\) 仅是泛泛 claim。研究者需注意：\(\hat{\theta}_w\) 的宽松 \(\gamma_n\) 增长条件并未严格证明，仅 \(\hat{\theta}_{bc}\) 有严格定理支撑。 - 模拟研究中作者展示了软校准在非正态随机效应下的稳健性，但理论定理严格依赖 \(u_j \sim N(0, D)\)。非正态下的效率优势是否严格成立，文中未证，仅靠模拟暗示。

四、开放问题（点到为止，扎根具体语句）¶

非正态随机效应下的效率界与软校准最优性：Theorem 1 依赖 \(u_j \sim N(0, D)\)，若 \(u_j\) 服从重尾或离散分布，BLUP 不再是最佳线性预测，软校准的方差优势是否仍成立？扎根于 Theorem 1 的正态假设与讨论中“we assume normality for random effects”的语句。要确认是否真 gap，查半参数效率界文献：混合效应模型下的非参数效率界是否仍由 BLUP 结构支配。
半参数双稳健软校准：本文依赖倾向得分模型正确指定（Assumption 4），未触及双稳健性质。若结合结果模型的非参数估计（如核回归或 BART），能否构建对倾向得分与结果模型均部分稳健的软校准？扎根于 Intro 对 Avagyan & Vansteelandt (2021) 的引用及本文仅单稳健的设定。查 doubly robust 与混合效应结合的近期文献。
纵向/面板数据下的动态软校准：本文针对截面混合效应，若数据为纵向（多时间点随机效应演化），软校准惩罚项如何随时间动态调整？扎根于 Intro 对 longitudinal data 的提及及本文仅静态设定的局限。查 longitudinal causal inference 的校准权重工作。
计算复杂度与高维 \(D\) 矩阵的估计：当聚类数 \(m\) 与随机效应维数 \(p_2\) 极大时，\(D\) 矩阵的估计与软校准权重的凸优化求解计算成本如何？扎根于 Lemma 1 的矩阵分块运算与实际计算中 \(D\) 的 REML 估计步骤。查高维混合效应模型的计算文献。

Maintained by 陈星宇 · Homepage · Source on GitHub

Soft calibration for selection bias problems under mixed-effects models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论