Balancing weights for non-monotone missing data¶
作者: Jianing Dong, Raymond K. W. Wong, Kwun Chuen Gary Chan
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向处理的是非单调缺失数据下的半参数估计与因果/缺失加权推断。当多个变量的缺失模式不是简单的层层嵌套(单调),而是交错出现时,传统的逆概率加权(IPW)或似然方法往往失效或极不稳定;若缺失还依赖于缺失值本身(MNAR,Missing Not At Random),非参数识别本身就成了前提问题。该方向当前处于识别理论基本成型、但半参数高效估计与稳健计算方法刚起步的阶段:已有几条识别路线(如 CCMV、NSC、Shadow Variable),但如何在识别后构造既不爆炸又半参数高效的估计量,是当前 frontier。
发展脉络: - 奠基与单调缺失的 Balancing:因果推断与单调缺失中,IPW 估计量因倾向得分近零而极度不稳定,Kang & Schafer (2007) 的模拟明确展示了这一痛点。作为回应,Chan et al. (2015) 提出了经验平衡校准加权,证明了仅靠矩平衡(不直接拟合倾向得分或结局模型)即可达到全局半参数效率;Wong & Chan (2017) 将平衡空间推广至 RKHS;Zhao (2016) 用 tailored loss 统一了 IPW 与矩平衡的等价性。这些工作奠定了“矩平衡 = 稳定 + 高效”的范式,但全部局限于单调缺失或二值处理。 - 非单调 MNAR 的识别突破:非单调 MNAR 长期被视为不可识别的禁区。Sinha et al. (2014) 与 Sadinle & Reiter (2016) 引入了 No Self-Censoring (NSC) / Itemwise Conditionally Independent Nonresponse 假设,打开了非参数识别的口子;Malinsky et al. (2019) 在 NSC 下推导了半参数效率界与 AIPW 估计量;Chen (2020) 用 Pattern Graph 将识别假设图化、一般化;Miao et al. (2024) 则从 Shadow Variable 角度给出了另一条识别与双稳健估计路线。这些工作解决了识别,但留下的口子是:估计量(尤其是 IPW 类)在非单调 MNAR 下如何避免权重爆炸与模型误设。 - 本文的位置:本文站在上述两条线索的交汇处——把单调缺失中成熟的 Balancing Weights 范式,移植到非单调 MNAR(CCMV 假设)下,用矩平衡的等价性绕开倾向得分的直接拟合,解决 plug-in 权重无界问题,并补上了渐近正态与效率理论。
子线索聚类: 1. Balancing / Calibration 加权(因果 + 单调缺失):Chan et al. (2015), Wong & Chan (2017), Zhao (2016), Fan et al. (2021)。这一簇的核心是:不拟合倾向得分模型,而是直接构造权重使得处理组与对照组的协变量矩(或函数空间)平衡,从而同时获得稳健性与半参数效率。 2. 非单调 MNAR 识别与半参数理论:Sinha et al. (2014), Sadinle & Reiter (2016), Malinsky et al. (2019), Chen (2020), Miao et al. (2024)。这一簇的核心是:通过结构性假设(NSC / CCMV / Shadow Variable)实现非参数识别,推导效率界,构造 AIPW 或 DR 估计量,但未专门处理 IPW 权重的计算稳定性。 3. 半参数序列空间估计与惩罚:Newey (1997), Horowitz & Mammen (2002), Chen (2007)。这一簇为本文的函数基展开与惩罚提供了序列空间渐近理论的基础。
核心追问与瓶颈: 1. 非单调 MNAR 下,IPW 类估计量的权重如何避免无界与不稳定?(已知瓶颈:倾向得分比在边界处可趋于无穷,plug-in 极其脆弱)。 2. 在不直接拟合倾向得分模型的前提下,能否仅靠矩条件识别并稳定估计倾向得分比?(已知瓶颈:单调缺失下的等价性能否推广到多模式非单调?)。 3. 这样构造的估计量,能否达到非单调 MNAR 模型下的半参数效率界?(已知瓶颈:Malinsky et al. (2019) 给出了 NSC 下的界,但 CCMV 下的界与可达性尚不清晰)。
⚠️ 作者的 framing: - 作者把缺口 frame 成:非单调 MNAR(CCMV)下,传统 IPW 的 plug-in 估计因倾向得分比无界而不稳定,而 Balancing Weights 在此设定下尚未被开发——这使得“用矩平衡绕开倾向得分拟合”成为显然的下一步。 - 被淡化或回避的竞争路线:作者只处理了 CCMV(Robins 定义的三类限制之一),未涉及 NSC / Pattern Graph / Shadow Variable 下的 Balancing 推广;对 AIPW / Double Robust 路线(Malinsky et al. 2019; Miao et al. 2024)只在引言中一笔带过,未做模拟对比,暗示 Balancing 可替代而非补充 AIPW。 - 明显该被引 / 该存在却未出现的:高维缺失下的 Balancing(如 Tan 2017 的正则化校准估计)未被讨论——若协变量维数升高,函数基展开的维数爆炸如何处理?这是一个值得研究者去查的缺口。
张力: 未见明显对立引用。CCMV 与 NSC 是不同的识别假设,前者更强(要求给定已观测变量后,缺失变量的缺失机制与该变量本身无关),后者更弱(只要求每个变量不直接决定自身的缺失);两者在不同条件下互补,尚未有文献直接证明一方优于另一方。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(Z = (Y, X)\):完整的随机变量,\(Y\) 为目标变量(如结局),\(X\) 为协变量。维数任意,但本文核心困难不依赖维数。
- \(R = (R_Y, R_X)\):缺失指示变量,取值在 \(\{0,1\}^2\)。\(R_Y=1\) 表示 \(Y\) 被观测,\(R_X=1\) 表示 \(X\) 被观测。
- 缺失模式:共有 4 种模式,记为 \(r \in \mathcal{R} = \{(1,1), (1,0), (0,1), (0,0)\}\)。其中 \(r^* = (1,1)\) 为完全观测模式。
- 可观测数据:对于样本 \(i=1,\dots,n\),我们观测到 \((R_i, Z_i^{R_i})\),其中 \(Z_i^{R_i}\) 表示按模式 \(R_i\) 实际观测到的子向量。例如,若 \(R_i=(1,0)\),则观测到 \((Y_i, \text{NA})\);若 \(R_i=(0,0)\),则观测到 \((\text{NA}, \text{NA})\)。\(Z_i\) 的缺失部分永远不可观测,只能靠识别假设推断。
- 目标参数:\(\mu = E[Y]\),即目标变量的总体均值。
- 倾向得分:\(P(R=r \mid Z)\)。
- 倾向得分比:\(\pi_r(Z^r) = P(R=r \mid Z^r) / P(R=r^* \mid Z^r)\),即在给定模式 \(r\) 下已观测变量 \(Z^r\) 的条件下,观测到模式 \(r\) 与观测到完全模式 \(r^*\) 的概率比。这是本文权重的核心构件。
- CCMV 假设:对任意 \(r\) 与任意 \(z\),\(P(R=r \mid Z=z) = P(R=r \mid Z^r=z^r)\)。即缺失机制只依赖于实际被观测到的变量,不依赖于被缺失的变量本身。这是 MNAR 的一种特殊形式(比 MAR 强,比完全 MNAR 弱)。
第二步:最小内核——二值变量 + 两个缺失模式
剥掉所有一般性,考虑最简特例:\(Y\) 为二值(0/1),\(X\) 为空(只有单变量 \(Y\) 缺失),缺失模式只有 \(r^*=(1)\)(观测)与 \(r=(0)\)(缺失)。
此时 \(Z^r = \emptyset\)(缺失模式下无任何协变量观测),\(Z^{r^*} = Y\)(完全模式下观测到 \(Y\))。
- 目标:\(\mu = E[Y]\)。
-
CCMV 下的识别:IPW 公式退化为
\[\mu = E\left[ \frac{R_Y \cdot Y}{P(R_Y=1)} \right] + E\left[ \frac{(1-R_Y) \cdot E[Y \mid R_Y=1]}{P(R_Y=0)} \right] \cdot P(R_Y=0)\]但更直接地,本文的核心加权公式退化为:\[\mu = E\left[ Y \cdot \left(1 + \frac{P(R_Y=0)}{P(R_Y=1)} \right) \mid R_Y=1 \right] = E\left[ Y \cdot (1 + \pi_0) \mid R_Y=1 \right]\]其中 \(\pi_0 = P(R_Y=0) / P(R_Y=1)\) 是无条件倾向得分比(因为 \(Z^r=\emptyset\))。 -
核心困难:在一般情形下,\(\pi_r(Z^r)\) 是条件概率比,当 \(P(R=r^* \mid Z^r)\) 在某些 \(Z^r\) 值处趋近 0 时,\(\pi_r\) 趋于无穷,plug-in 估计极度不稳定。
-
本文的破法(矩平衡等价性):在最小特例中,矩平衡条件退化为:
\[E\left[ Y \cdot \pi_0 \mid R_Y=1 \right] = E\left[ E[Y \mid R_Y=1] \mid R_Y=0 \right] = E[Y \mid R_Y=0] \cdot P(R_Y=0) / P(R_Y=1)\]即:\(\pi_0\) 的选择,必须使得完全观测样本加权后的 \(Y\) 的矩,等于缺失样本对 \(Y\) 的期望(在 CCMV 下可用完全样本条件期望替代)的缩放。本文不直接估 \(\pi_0\),而是把 \(\pi_0\) 参数化(如常数),然后最小化完全观测样本与缺失样本(用完全样本条件期望填充后)之间的矩差异,从而间接估出 \(\pi_0\)。 -
为什么成立:CCMV 保证了缺失样本的矩可用完全样本的条件期望重构,因此矩平衡等价于倾向得分比的正确设定;最小化矩差异 = 最小化倾向得分比模型的误设 = 间接拟合倾向得分比,且天然避免了 \(\pi_r\) 的直接计算(不除以近零的概率)。
三、这篇论文做了什么¶
三句话: ①研究了非单调缺失数据在 CCMV(MNAR)假设下的均值估计问题; ②核心方法是将倾向得分比的估计转化为跨缺失模式的矩平衡问题,用函数基展开与定制损失函数直接求解平衡权重,避免 plug-in 无界; ③证明了估计量在温和光滑假设下的一致性、渐近正态性,并达到了半参数效率界。
关键设定与假设: - CCMV 假设(Assumption 1):\(P(R=r \mid Z=z) = P(R=r \mid Z^r=z^r)\)。统计含义:缺失机制只依赖已观测变量,不依赖缺失变量本身;这是 MNAR 的特例,比 MAR 更合理(允许缺失依赖其他变量的缺失值),比完全 MNAR 更易识别。相比 Malinsky et al. (2019) 的 NSC 假设,CCMV 更强(NSC 只要求每个变量不决定自身的缺失,允许依赖其他缺失变量)。 - 光滑假设(Assumption 2-3):倾向得分比 \(\pi_r(Z^r)\) 属于 Sobolev 畴 \(S^s\)(光滑度 \(s > d_r/2\),\(d_r\) 为 \(Z^r\) 的维数),且函数基(如 B-spline)可逼近该空间。统计含义:允许非参数估计,但需足够的平滑度以控制序列估计的偏差;相比 Newey (1997) 的序列空间渐近理论,本文额外要求 \(\pi_r\) 的导数有界以控制惩罚项的渐近行为。 - 有界假设(Assumption 4):目标变量 \(Y\) 与协变量 \(X\) 的矩有界,且 \(\pi_r(Z^r)\) 的真值有上界 \(\bar{\pi} < \infty\)。统计含义:保证权重不爆炸(真值层面),但 plug-in 估计仍可能爆炸,因此需要 Balancing 绕开。
主要结果: 1. 定理 1(矩平衡等价性):在 CCMV 下,倾向得分比 \(\pi_r(Z^r)\) 的正确设定等价于跨模式的矩平衡条件:
证明路线与技术技巧: - 整体路线: 1. 识别与加权公式构造:利用 CCMV,将 \(\mu\) 表达为完全观测样本的加权平均,权重为 \(1 + \sum_{r \neq r^*} \pi_r(Z^r)\)。 2. 矩平衡等价性:证明 \(\pi_r\) 的正确设定等价于矩平衡条件,从而将估计 \(\pi_r\) 转化为最小化矩不平衡的优化问题。 3. 函数基展开与损失函数:将 \(\pi_r(Z^r)\) 参数化为 \(\exp(\beta_r^\top B_K(Z^r))\)(\(B_K\) 为 B-spline 基),构造定制损失函数 \(L_n(\beta) = \sum_{r} \left\| \frac{1}{n} \sum_{i: R_i=r^*} h(Z_i^r) \exp(\beta_r^\top B_K(Z_i^r)) - \frac{1}{n} \sum_{i: R_i=r} h(Z_i^r) \right\|^2\),加上光滑惩罚 \(\lambda_1 \|\beta\|^2\) 与不平衡惩罚 \(\lambda_2 L_n(\beta)\)。 4. 渐近理论:证明 \(\hat{\beta}\) 收敛到真值 \(\beta_0\)(一致性),然后展开 \(\hat{\mu}\) 为 \(\mu\) + 线性项 + 余项,线性项给出渐近正态性,余项由 \(K_n\) 与惩罚控制到 \(o_p(n^{-1/2})\)。 5. 效率验证:计算 \(\hat{\mu}\) 的渐近方差,与 CCMV 下的效率界比对,确认相等。 - 关键跳跃点: - 引理 1(矩平衡等价性的严格证明):需要证明在 CCMV 下,矩平衡条件不仅对有限维 \(h\) 成立,还对整个函数空间 \(\mathcal{H}\) 成立;这是从“经验平衡”到“理论等价”的跳跃,依赖 CCMV 的特定结构(缺失机制只依赖已观测部分)。 - 余项控制(定理 3 的证明):序列空间估计的余项通常为 \(O_p(K_n/n)\),本文需进一步控制惩罚项引入的偏差;关键在于证明 \(\lambda_1\) 与 \(\lambda_2\) 的选择使得惩罚项对 \(\hat{\beta}\) 的偏差贡献为 \(o_p(n^{-1/2})\),这依赖 \(\pi_r\) 的光滑度与基函数的逼近速率。 - 技术技巧点名: - 函数基展开:用 B-spline 基 \(B_K(Z^r)\) 参数化 \(\pi_r\),保证逼近速率 \(O(K_n^{-s/d_r})\),用于控制偏差。 - 定制损失函数:模仿 Zhao (2016) 的 tailored loss,但推广到多缺失模式;损失函数直接度量经验矩不平衡,不涉及概率比的除法,避免无界。 - 双重惩罚:光滑惩罚 \(\lambda_1 \|\beta\|^2\) 控制 \(\pi_r\) 的复杂度(防过拟合),不平衡惩罚 \(\lambda_2 L_n(\beta)\) 控制经验矩偏差(防权重偏移);两者在渐近中均需消失,但有限样本下起稳定作用。 - 经验过程:证明一致性时,需对经验矩不平衡项 uniform convergence,用到经典的经验过程理论(van der Vaart & Wellner)。 - 半参数效率界计算:沿 Malinsky et al. (2019) 的路线,在 CCMV 下计算 efficient influence function,验证 \(\hat{\mu}\) 的线性项与之匹配。
真实例子与应用: 本文包含模拟实验,无真实数据例子。 - 模拟设定:协变量 \(X\) 为 2 维正态,目标 \(Y\) 依赖 \(X\) 与缺失指示 \(R_Y\)(MNAR),缺失模式为 4 种(\((1,1), (1,0), (0,1), (0,0)\)),满足 CCMV。 - 方法应用:将本文的 Balancing Weights(B-spline 基 + 双重惩罚)与 plug-in IPW、AIPW(Malinsky et al. 2019)、MAR 下的 IPW 对比。 - 结果:在样本量 \(n=500, 1000, 2000\) 下,本文方法的偏差与 RMSE 显著低于 plug-in IPW(因权重爆炸),与 AIPW 相当但在模型误设下更稳健;MAR 方法因假设错误而有严重偏差。 - 想说明什么:验证 Balancing Weights 在非单调 MNAR 下避免了 plug-in 的不稳定性,且在 CCMV 正确时达到效率;对 AIPW 的优势在于不依赖结局模型的正确设定(只依赖矩平衡)。
🔎 结论是否比证明窄: - 作者在引言中泛泛 claim 本文方法“可推广至其他 MNAR 机制(如 NSC)”,但证明严格依赖 CCMV 的特定结构(矩平衡等价性在 NSC 下是否成立未验证);这是一个未证明的推广,研究者若要沿此路线,需先在 NSC 下重新推导矩平衡等价性。 - 定理 5 的效率结论在 \(K_n = o(n^{1/3})\) 下严格证明,但作者暗示“更优的 \(K_n\) 选择可能改善有限样本表现”,这无理论支撑。
四、开放问题(点到为止)¶
- NSC / Pattern Graph 下的矩平衡等价性是否成立?——本文定理 1 严格依赖 CCMV(\(P(R=r \mid Z) = P(R=r \mid Z^r)\)),若放宽至 NSC(只要求 \(R_Y \perp Y \mid X, R_X\) 等),矩平衡条件需重新推导,可能不再等价于倾向得分比的正确设定。扎根点:引言第 2 段“Another increasingly popular MNAR mechanism is the no self-censoring (NSC) restriction”与定理 1 的证明。
- 高维协变量下的函数基展开如何避免维数灾难?——本文的 B-spline 基个数 \(K_n\) 随 \(Z^r\) 的维数 \(d_r\) 指数增长(\(K_n^{d_r}\)),当 \(d_r > 3\) 时计算与渐近条件 \(K_n = o(n^{1/3})\) 均不可行;是否可用 RKHS(Wong & Chan 2017)或 Lasso 惩罚(Tan 2017)替代?扎根点:假设 2-3 的光滑度条件 \(s > d_r/2\) 与 \(K_n = o(n^{1/3})\)。
- Balancing Weights 与 AIPW 的双稳健融合是否可能?——本文方法只依赖矩平衡(等价于倾向得分比的正确设定),未利用结局模型;若融合结局模型的预测(如 AIPW),是否可在 CCMV 下构造双稳健估计量?扎根点:引言对 Malinsky et al. (2019) 的 AIPW 只做模拟对比,未做理论融合。
- 惩罚参数 \(\lambda_1, \lambda_2\) 的自适应选择是否有理论保证?——本文证明要求 \(\lambda_1, \lambda_2 = o(1)\),但模拟中用固定值;是否可用交叉验证或 BIC 选择,且不破坏渐近效率?扎根点:定理 3-4 的证明中惩罚项的余项控制。
要确认某条是不是真 gap,去读同子领域(非单调 MNAR 估计)近期约 5 篇的 intro——若都指向“高维/双稳健/NSC 推广” = 共识(真 gap),若互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub