Balancing weights for non-monotone missing data¶

作者: Jianing Dong, Raymond K. W. Wong, Kwun Chuen Gary Chan
来源: Electronic Journal of Statistics
主题: 非参数 / 半参数
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向处理的是非单调缺失数据下的半参数估计与因果/缺失加权推断。当多个变量的缺失模式不是简单的层层嵌套（单调），而是交错出现时，传统的逆概率加权（IPW）或似然方法往往失效或极不稳定；若缺失还依赖于缺失值本身（MNAR，Missing Not At Random），非参数识别本身就成了前提问题。该方向当前处于识别理论基本成型、但半参数高效估计与稳健计算方法刚起步的阶段：已有几条识别路线（如 CCMV、NSC、Shadow Variable），但如何在识别后构造既不爆炸又半参数高效的估计量，是当前 frontier。

发展脉络： - 奠基与单调缺失的 Balancing：因果推断与单调缺失中，IPW 估计量因倾向得分近零而极度不稳定，Kang & Schafer (2007) 的模拟明确展示了这一痛点。作为回应，Chan et al. (2015) 提出了经验平衡校准加权，证明了仅靠矩平衡（不直接拟合倾向得分或结局模型）即可达到全局半参数效率；Wong & Chan (2017) 将平衡空间推广至 RKHS；Zhao (2016) 用 tailored loss 统一了 IPW 与矩平衡的等价性。这些工作奠定了“矩平衡 = 稳定 + 高效”的范式，但全部局限于单调缺失或二值处理。 - 非单调 MNAR 的识别突破：非单调 MNAR 长期被视为不可识别的禁区。Sinha et al. (2014) 与 Sadinle & Reiter (2016) 引入了 No Self-Censoring (NSC) / Itemwise Conditionally Independent Nonresponse 假设，打开了非参数识别的口子；Malinsky et al. (2019) 在 NSC 下推导了半参数效率界与 AIPW 估计量；Chen (2020) 用 Pattern Graph 将识别假设图化、一般化；Miao et al. (2024) 则从 Shadow Variable 角度给出了另一条识别与双稳健估计路线。这些工作解决了识别，但留下的口子是：估计量（尤其是 IPW 类）在非单调 MNAR 下如何避免权重爆炸与模型误设。 - 本文的位置：本文站在上述两条线索的交汇处——把单调缺失中成熟的 Balancing Weights 范式，移植到非单调 MNAR（CCMV 假设）下，用矩平衡的等价性绕开倾向得分的直接拟合，解决 plug-in 权重无界问题，并补上了渐近正态与效率理论。

子线索聚类： 1. Balancing / Calibration 加权（因果 + 单调缺失）：Chan et al. (2015), Wong & Chan (2017), Zhao (2016), Fan et al. (2021)。这一簇的核心是：不拟合倾向得分模型，而是直接构造权重使得处理组与对照组的协变量矩（或函数空间）平衡，从而同时获得稳健性与半参数效率。 2. 非单调 MNAR 识别与半参数理论：Sinha et al. (2014), Sadinle & Reiter (2016), Malinsky et al. (2019), Chen (2020), Miao et al. (2024)。这一簇的核心是：通过结构性假设（NSC / CCMV / Shadow Variable）实现非参数识别，推导效率界，构造 AIPW 或 DR 估计量，但未专门处理 IPW 权重的计算稳定性。 3. 半参数序列空间估计与惩罚：Newey (1997), Horowitz & Mammen (2002), Chen (2007)。这一簇为本文的函数基展开与惩罚提供了序列空间渐近理论的基础。

核心追问与瓶颈： 1. 非单调 MNAR 下，IPW 类估计量的权重如何避免无界与不稳定？（已知瓶颈：倾向得分比在边界处可趋于无穷，plug-in 极其脆弱）。 2. 在不直接拟合倾向得分模型的前提下，能否仅靠矩条件识别并稳定估计倾向得分比？（已知瓶颈：单调缺失下的等价性能否推广到多模式非单调？）。 3. 这样构造的估计量，能否达到非单调 MNAR 模型下的半参数效率界？（已知瓶颈：Malinsky et al. (2019) 给出了 NSC 下的界，但 CCMV 下的界与可达性尚不清晰）。

⚠️ 作者的 framing： - 作者把缺口 frame 成：非单调 MNAR（CCMV）下，传统 IPW 的 plug-in 估计因倾向得分比无界而不稳定，而 Balancing Weights 在此设定下尚未被开发——这使得“用矩平衡绕开倾向得分拟合”成为显然的下一步。 - 被淡化或回避的竞争路线：作者只处理了 CCMV（Robins 定义的三类限制之一），未涉及 NSC / Pattern Graph / Shadow Variable 下的 Balancing 推广；对 AIPW / Double Robust 路线（Malinsky et al. 2019; Miao et al. 2024）只在引言中一笔带过，未做模拟对比，暗示 Balancing 可替代而非补充 AIPW。 - 明显该被引 / 该存在却未出现的：高维缺失下的 Balancing（如 Tan 2017 的正则化校准估计）未被讨论——若协变量维数升高，函数基展开的维数爆炸如何处理？这是一个值得研究者去查的缺口。

张力：未见明显对立引用。CCMV 与 NSC 是不同的识别假设，前者更强（要求给定已观测变量后，缺失变量的缺失机制与该变量本身无关），后者更弱（只要求每个变量不直接决定自身的缺失）；两者在不同条件下互补，尚未有文献直接证明一方优于另一方。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(Z = (Y, X)\)：完整的随机变量，\(Y\) 为目标变量（如结局），\(X\) 为协变量。维数任意，但本文核心困难不依赖维数。
\(R = (R_Y, R_X)\)：缺失指示变量，取值在 \(\{0,1\}^2\)。\(R_Y=1\) 表示 \(Y\) 被观测，\(R_X=1\) 表示 \(X\) 被观测。
缺失模式：共有 4 种模式，记为 \(r \in \mathcal{R} = \{(1,1), (1,0), (0,1), (0,0)\}\)。其中 \(r^* = (1,1)\) 为完全观测模式。
可观测数据：对于样本 \(i=1,\dots,n\)，我们观测到 \((R_i, Z_i^{R_i})\)，其中 \(Z_i^{R_i}\) 表示按模式 \(R_i\) 实际观测到的子向量。例如，若 \(R_i=(1,0)\)，则观测到 \((Y_i, \text{NA})\)；若 \(R_i=(0,0)\)，则观测到 \((\text{NA}, \text{NA})\)。\(Z_i\) 的缺失部分永远不可观测，只能靠识别假设推断。
目标参数：\(\mu = E[Y]\)，即目标变量的总体均值。
倾向得分：\(P(R=r \mid Z)\)。
倾向得分比：\(\pi_r(Z^r) = P(R=r \mid Z^r) / P(R=r^* \mid Z^r)\)，即在给定模式 \(r\) 下已观测变量 \(Z^r\) 的条件下，观测到模式 \(r\) 与观测到完全模式 \(r^*\) 的概率比。这是本文权重的核心构件。
CCMV 假设：对任意 \(r\) 与任意 \(z\)，\(P(R=r \mid Z=z) = P(R=r \mid Z^r=z^r)\)。即缺失机制只依赖于实际被观测到的变量，不依赖于被缺失的变量本身。这是 MNAR 的一种特殊形式（比 MAR 强，比完全 MNAR 弱）。

第二步：最小内核——二值变量 + 两个缺失模式

剥掉所有一般性，考虑最简特例：\(Y\) 为二值（0/1），\(X\) 为空（只有单变量 \(Y\) 缺失），缺失模式只有 \(r^*=(1)\)（观测）与 \(r=(0)\)（缺失）。

此时 \(Z^r = \emptyset\)（缺失模式下无任何协变量观测），\(Z^{r^*} = Y\)（完全模式下观测到 \(Y\)）。

目标：\(\mu = E[Y]\)。
CCMV 下的识别：IPW 公式退化为
\[\mu = E\left[ \frac{R_Y \cdot Y}{P(R_Y=1)} \right] + E\left[ \frac{(1-R_Y) \cdot E[Y \mid R_Y=1]}{P(R_Y=0)} \right] \cdot P(R_Y=0)\]
但更直接地，本文的核心加权公式退化为：
\[\mu = E\left[ Y \cdot \left(1 + \frac{P(R_Y=0)}{P(R_Y=1)} \right) \mid R_Y=1 \right] = E\left[ Y \cdot (1 + \pi_0) \mid R_Y=1 \right]\]
其中 \(\pi_0 = P(R_Y=0) / P(R_Y=1)\) 是无条件倾向得分比（因为 \(Z^r=\emptyset\)）。
核心困难：在一般情形下，\(\pi_r(Z^r)\) 是条件概率比，当 \(P(R=r^* \mid Z^r)\) 在某些 \(Z^r\) 值处趋近 0 时，\(\pi_r\) 趋于无穷，plug-in 估计极度不稳定。
本文的破法（矩平衡等价性）：在最小特例中，矩平衡条件退化为：
\[E\left[ Y \cdot \pi_0 \mid R_Y=1 \right] = E\left[ E[Y \mid R_Y=1] \mid R_Y=0 \right] = E[Y \mid R_Y=0] \cdot P(R_Y=0) / P(R_Y=1)\]
即：\(\pi_0\) 的选择，必须使得完全观测样本加权后的 \(Y\) 的矩，等于缺失样本对 \(Y\) 的期望（在 CCMV 下可用完全样本条件期望替代）的缩放。本文不直接估 \(\pi_0\)，而是把 \(\pi_0\) 参数化（如常数），然后最小化完全观测样本与缺失样本（用完全样本条件期望填充后）之间的矩差异，从而间接估出 \(\pi_0\)。
为什么成立：CCMV 保证了缺失样本的矩可用完全样本的条件期望重构，因此矩平衡等价于倾向得分比的正确设定；最小化矩差异 = 最小化倾向得分比模型的误设 = 间接拟合倾向得分比，且天然避免了 \(\pi_r\) 的直接计算（不除以近零的概率）。

三、这篇论文做了什么¶

三句话： ①研究了非单调缺失数据在 CCMV（MNAR）假设下的均值估计问题； ②核心方法是将倾向得分比的估计转化为跨缺失模式的矩平衡问题，用函数基展开与定制损失函数直接求解平衡权重，避免 plug-in 无界； ③证明了估计量在温和光滑假设下的一致性、渐近正态性，并达到了半参数效率界。

关键设定与假设： - CCMV 假设（Assumption 1）：\(P(R=r \mid Z=z) = P(R=r \mid Z^r=z^r)\)。统计含义：缺失机制只依赖已观测变量，不依赖缺失变量本身；这是 MNAR 的特例，比 MAR 更合理（允许缺失依赖其他变量的缺失值），比完全 MNAR 更易识别。相比 Malinsky et al. (2019) 的 NSC 假设，CCMV 更强（NSC 只要求每个变量不决定自身的缺失，允许依赖其他缺失变量）。 - 光滑假设（Assumption 2-3）：倾向得分比 \(\pi_r(Z^r)\) 属于 Sobolev 畴 \(S^s\)（光滑度 \(s > d_r/2\)，\(d_r\) 为 \(Z^r\) 的维数），且函数基（如 B-spline）可逼近该空间。统计含义：允许非参数估计，但需足够的平滑度以控制序列估计的偏差；相比 Newey (1997) 的序列空间渐近理论，本文额外要求 \(\pi_r\) 的导数有界以控制惩罚项的渐近行为。 - 有界假设（Assumption 4）：目标变量 \(Y\) 与协变量 \(X\) 的矩有界，且 \(\pi_r(Z^r)\) 的真值有上界 \(\bar{\pi} < \infty\)。统计含义：保证权重不爆炸（真值层面），但 plug-in 估计仍可能爆炸，因此需要 Balancing 绕开。

主要结果： 1. 定理 1（矩平衡等价性）：在 CCMV 下，倾向得分比 \(\pi_r(Z^r)\) 的正确设定等价于跨模式的矩平衡条件：

\[E\left[ h(Z^r) \cdot \pi_r(Z^r) \mid R=r^* \right] = E\left[ h(Z^r) \mid R=r \right] \quad \forall h \in \mathcal{H}\]

直觉：完全观测样本用 \(\pi_r\) 加权后，应与缺失模式 \(r\) 下已观测部分的分布一致；这直接把 IPW 的概率比估计转化为矩约束，是本文的核心转换。 2. 定理 3-4（一致性与渐近正态性）：在光滑度 \(s > d_r/2\) 与基函数个数 \(K_n \to \infty\) 且 \(K_n = o(n^{1/3})\) 的条件下，估计量 \(\hat{\mu}\) 一致且渐近正态，渐近方差达到半参数效率界。直觉：序列空间估计的偏差由 \(K_n\) 控制，方差由样本量控制，\(K_n = o(n^{1/3})\) 保证偏差相对方差可忽略；惩罚项在渐近中消失（光滑惩罚控制模型复杂度，不平衡惩罚控制经验矩偏差）。 3. 定理 5（效率）：\(\hat{\mu}\) 的渐近方差等于 CCMV 模型下的半参数效率界（由 Malinsky et al. (2019) 在 NSC 下推导，本文在 CCMV 下验证）。必要条件：基函数空间足够丰富以逼近真值 \(\pi_r\)，且惩罚项渐近可忽略。

证明路线与技术技巧： - 整体路线： 1. 识别与加权公式构造：利用 CCMV，将 \(\mu\) 表达为完全观测样本的加权平均，权重为 \(1 + \sum_{r \neq r^*} \pi_r(Z^r)\)。 2. 矩平衡等价性：证明 \(\pi_r\) 的正确设定等价于矩平衡条件，从而将估计 \(\pi_r\) 转化为最小化矩不平衡的优化问题。 3. 函数基展开与损失函数：将 \(\pi_r(Z^r)\) 参数化为 \(\exp(\beta_r^\top B_K(Z^r))\)（\(B_K\) 为 B-spline 基），构造定制损失函数 \(L_n(\beta) = \sum_{r} \left\| \frac{1}{n} \sum_{i: R_i=r^*} h(Z_i^r) \exp(\beta_r^\top B_K(Z_i^r)) - \frac{1}{n} \sum_{i: R_i=r} h(Z_i^r) \right\|^2\)，加上光滑惩罚 \(\lambda_1 \|\beta\|^2\) 与不平衡惩罚 \(\lambda_2 L_n(\beta)\)。 4. 渐近理论：证明 \(\hat{\beta}\) 收敛到真值 \(\beta_0\)（一致性），然后展开 \(\hat{\mu}\) 为 \(\mu\) + 线性项 + 余项，线性项给出渐近正态性，余项由 \(K_n\) 与惩罚控制到 \(o_p(n^{-1/2})\)。 5. 效率验证：计算 \(\hat{\mu}\) 的渐近方差，与 CCMV 下的效率界比对，确认相等。 - 关键跳跃点： - 引理 1（矩平衡等价性的严格证明）：需要证明在 CCMV 下，矩平衡条件不仅对有限维 \(h\) 成立，还对整个函数空间 \(\mathcal{H}\) 成立；这是从“经验平衡”到“理论等价”的跳跃，依赖 CCMV 的特定结构（缺失机制只依赖已观测部分）。 - 余项控制（定理 3 的证明）：序列空间估计的余项通常为 \(O_p(K_n/n)\)，本文需进一步控制惩罚项引入的偏差；关键在于证明 \(\lambda_1\) 与 \(\lambda_2\) 的选择使得惩罚项对 \(\hat{\beta}\) 的偏差贡献为 \(o_p(n^{-1/2})\)，这依赖 \(\pi_r\) 的光滑度与基函数的逼近速率。 - 技术技巧点名： - 函数基展开：用 B-spline 基 \(B_K(Z^r)\) 参数化 \(\pi_r\)，保证逼近速率 \(O(K_n^{-s/d_r})\)，用于控制偏差。 - 定制损失函数：模仿 Zhao (2016) 的 tailored loss，但推广到多缺失模式；损失函数直接度量经验矩不平衡，不涉及概率比的除法，避免无界。 - 双重惩罚：光滑惩罚 \(\lambda_1 \|\beta\|^2\) 控制 \(\pi_r\) 的复杂度（防过拟合），不平衡惩罚 \(\lambda_2 L_n(\beta)\) 控制经验矩偏差（防权重偏移）；两者在渐近中均需消失，但有限样本下起稳定作用。 - 经验过程：证明一致性时，需对经验矩不平衡项 uniform convergence，用到经典的经验过程理论（van der Vaart & Wellner）。 - 半参数效率界计算：沿 Malinsky et al. (2019) 的路线，在 CCMV 下计算 efficient influence function，验证 \(\hat{\mu}\) 的线性项与之匹配。

真实例子与应用：本文包含模拟实验，无真实数据例子。 - 模拟设定：协变量 \(X\) 为 2 维正态，目标 \(Y\) 依赖 \(X\) 与缺失指示 \(R_Y\)（MNAR），缺失模式为 4 种（\((1,1), (1,0), (0,1), (0,0)\)），满足 CCMV。 - 方法应用：将本文的 Balancing Weights（B-spline 基 + 双重惩罚）与 plug-in IPW、AIPW（Malinsky et al. 2019）、MAR 下的 IPW 对比。 - 结果：在样本量 \(n=500, 1000, 2000\) 下，本文方法的偏差与 RMSE 显著低于 plug-in IPW（因权重爆炸），与 AIPW 相当但在模型误设下更稳健；MAR 方法因假设错误而有严重偏差。 - 想说明什么：验证 Balancing Weights 在非单调 MNAR 下避免了 plug-in 的不稳定性，且在 CCMV 正确时达到效率；对 AIPW 的优势在于不依赖结局模型的正确设定（只依赖矩平衡）。

🔎 结论是否比证明窄： - 作者在引言中泛泛 claim 本文方法“可推广至其他 MNAR 机制（如 NSC）”，但证明严格依赖 CCMV 的特定结构（矩平衡等价性在 NSC 下是否成立未验证）；这是一个未证明的推广，研究者若要沿此路线，需先在 NSC 下重新推导矩平衡等价性。 - 定理 5 的效率结论在 \(K_n = o(n^{1/3})\) 下严格证明，但作者暗示“更优的 \(K_n\) 选择可能改善有限样本表现”，这无理论支撑。

四、开放问题（点到为止）¶

NSC / Pattern Graph 下的矩平衡等价性是否成立？——本文定理 1 严格依赖 CCMV（\(P(R=r \mid Z) = P(R=r \mid Z^r)\)），若放宽至 NSC（只要求 \(R_Y \perp Y \mid X, R_X\) 等），矩平衡条件需重新推导，可能不再等价于倾向得分比的正确设定。扎根点：引言第 2 段“Another increasingly popular MNAR mechanism is the no self-censoring (NSC) restriction”与定理 1 的证明。
高维协变量下的函数基展开如何避免维数灾难？——本文的 B-spline 基个数 \(K_n\) 随 \(Z^r\) 的维数 \(d_r\) 指数增长（\(K_n^{d_r}\)），当 \(d_r > 3\) 时计算与渐近条件 \(K_n = o(n^{1/3})\) 均不可行；是否可用 RKHS（Wong & Chan 2017）或 Lasso 惩罚（Tan 2017）替代？扎根点：假设 2-3 的光滑度条件 \(s > d_r/2\) 与 \(K_n = o(n^{1/3})\)。
Balancing Weights 与 AIPW 的双稳健融合是否可能？——本文方法只依赖矩平衡（等价于倾向得分比的正确设定），未利用结局模型；若融合结局模型的预测（如 AIPW），是否可在 CCMV 下构造双稳健估计量？扎根点：引言对 Malinsky et al. (2019) 的 AIPW 只做模拟对比，未做理论融合。
惩罚参数 \(\lambda_1, \lambda_2\) 的自适应选择是否有理论保证？——本文证明要求 \(\lambda_1, \lambda_2 = o(1)\)，但模拟中用固定值；是否可用交叉验证或 BIC 选择，且不破坏渐近效率？扎根点：定理 3-4 的证明中惩罚项的余项控制。

要确认某条是不是真 gap，去读同子领域（非单调 MNAR 估计）近期约 5 篇的 intro——若都指向“高维/双稳健/NSC 推广” = 共识（真 gap），若互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Balancing weights for non-monotone missing data¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论