Commentary on “ Resurrecting complete-case analysis: a defense ”: the loss of information remains unresolved¶

作者: Benjamin Stockton, Ofer Harel
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: New York University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwag068

一、领域脉络与小综述¶

1.1 这个方向是什么¶

本方向聚焦于缺失数据下因果效应估计的方法论适用边界。核心科学问题是：当数据存在缺失（尤其是非完全随机缺失，即 non-MCAR）时，研究者能否继续使用“完整病例分析”（CCA, Complete-Case Analysis）并得到无偏的因果效应估计？如果能，需要什么条件？如果不能，其代价（信息损失、效率降低）有多大？该子领域当前的状态是：共识已部分形成但仍有争议——CCA 通常不被推荐，但在特定因果结构下（缺失机制由已观测变量或处理变量本身完全决定）可以无偏；然而信息损失问题是否真的“已解决”，是这次辩论的焦点。

1.2 发展脉络¶

奠基工作（~1970s-1990s）：Rubin (1976) 提出了缺失数据的经典三分类框架——MCAR (完全随机缺失)、MAR (随机缺失，即缺失概率仅依赖于已观测变量)、MNAR (非随机缺失，即缺失概率依赖于缺失值本身)。该分类奠定了所有缺失数据处理方法（CCA、MI、IPW）的理论基础。留下的口子：CCA 仅在 MCAR 下无偏，在 MAR/MNAR 下有偏，这是长久以来的教条。
主要进展：CCA 的“复活”（~2000s-2010s）：一系列工作逐步打破了“CCA 只在 MCAR 下无偏”的教条，识别出在 MAR 甚至 MNAR 设定下 CCA 仍可无偏的条件。核心洞察是：缺失机制是否导致 collider bias（通过选择偏倚，即“对缺失去世的人筛选”）。例如，当缺失仅由处理变量（treatment）或已观测的协变量决定，且不依赖于结果（outcome）本身时，CCA 的估计量条件无偏（如 Little & Zhang, 2011; Egleston 等, 2015 等）。留下的口子：这些条件往往零散、不统一，且依赖于特定数据类型，没有形成一般的图形化判别准则。
当前 Frontier（~2020s）：因果图建模：
- Mathur 等 (2026，本论文) 的工作利用 causal selection diagram（因果选择图）系统化了 CCA 无偏的条件，引入了流行病学界熟悉的 collider bias 语言。他们将缺失指示变量视为一个“选择结点”，通过有向无环图（DAG）刻画缺失机制与目标变量之间的因果结构，给出了“CCA 何时无偏”的图形化判别准则。留下的口子：他们主要聚焦于无偏性（identification），而淡化了效率（estimation precision）与信息损失这两个统计上的核心关切。
- Stockton & Harel (本评论论文) 则从效率理论角度指出：即便 CCA 无偏，其信息损失（丢弃非完整观测）导致的效率降低是结构性的。他们将 CCA 的效率与 IPW、MI 等方法对比，指出 CCA 的本质是不利用从部分观测中推断缺失值的机会，因此其半参数效率界（semiparametric efficiency bound）必然严格劣于利用纵向信息/协方差结构的方法。
本文的位置：本文（Stockton & Harel 的评论）不是一个原创的方法论论文，而是一篇聚焦于“辩解脱敏”的批评性评论。它的位置在于：
- 挑战 Mathur 等 (2026) 论述中隐含的“无偏等于好用”的偏向。
- 补充被 Mathur 等淡化的信息损失与效率下降的分析。
- 限定 “principled adjusted CCA”作为敏感性分析的适用场景——它是一把“锄头”，不是“镰刀”。

1.3 子线索聚类¶

这些被引文献大致落在两条子线索上：

子线索 A：Causal identification of CCA (无偏性条件)。以 Mathur 等 (2026) 为代表，核心是用 causal DAG 和 collider bias 框架，在图形上刻画 CCA 无偏所需的最低条件。其他工作包括：Mohan & Pearl (2018) 用因果图建模缺失数据；Moreno-Betancur 等 (2018) 等，从流行病学角度讨论 collider bias 在缺失数据中的应用。这一簇在做什么：给定目标 estimand（如 ATE）和缺失机制假设，回答“CCA 能识别它吗？”。
子线索 B：Efficiency of missing data methods (信息损失)。以 Stockton & Harel (本评论论文) 为代表，结合 Semi-parametric efficiency theory（半参效率理论）和缺失数据分析。相关基础工作包括：Robins & Rotnitzky (1994) 提出的 IPW 与 efficiency bound 的基础理论；Tsiatis (2006) 对缺失数据下半参效率界的系统阐述；Seaman & White (2013) 对 CCA 与 MI、IPW 模拟对比的综述。这一簇在做什么：对于同一 estimand，CCA 的方差（或效率界）与保留信息的方法（IPW/MI）相比如何，其损失是否可以用“与完整数据信息量之比”精确测量。

1.4 核心问题与瓶颈¶

该方向在追问的 3-4 个核心问题： 1. CCA 无偏的条件到底是什么？（瓶颈：需要用因果图编码，直观但假设较多，M机制依赖实际情况难以验证） 2. CCA 效率损失有多大？（瓶颈：效率损失是数值的、随机的，需要基于具体数据特征和缺失机制才能量化，Mathur 等没有给出一般的效率比界，这正是评论指出的一处关键空白。） 3. Principled adjusted CCA 作为敏感性方法可信吗？（瓶颈：如果 CCA 和 IPW 给出差异较大的结果，研究者如何解读？是 CCA 有偏，还是 IPW 的权重模型设定有误？） 4. 能同时维持无偏与高时效的方法是什么？（综合方法如 doubly robust estimation / TMLE 在这个语境下的表现。）

1.5 ⚠️ 作者的 Framing¶

作者的 framing（必须明确标注成“这是作者的说法”）：Stockton & Harel 将缺口 frame 成 “问题不在无偏性，而在效率”。他们指出：“Even a theoretically unbiased CCA estimator discards useful information... the loss of statistical efficiency remains a concern.” （“即使理论上无偏的 CCA 也抛弃了有用信息……统计效率的损失仍是一个关切点。”）—— 这不是否定 CCA 的无偏性，而是将争论焦点从“能不能识别”转向“能不能有效率地估计”。竞争路线（CC 适用条件严格且垂死的）被他回避了：他们没有正面讨论“很多流行病学研究中，计量时是否会严格用到因果图条件？”——这是一个实际应用者的痛点。
哪些竞争路线被他淡化或回避了？ 他们没有讨论“更灵活的综合方法”，如 TMLE 或 doubly robust estimation（这些方法能同时处理无偏性与效率问题，是最直接的竞争者）。他们也回避了“结合 prior knowledge 的 Bayesian 方法”——这些方法虽可处理 MNAR 但依赖的先验信息，也比 CCA 更多，但他们在文中也未提及。
什么明显该被引 / 该存在、却没出现在 intro 里？ Doubly robust estimation (e.g., Bang & Robins, 2005; van der Laan & Rose, 2011) 的名字在正文中出现，但并未完整讨论其在这种语境下的表现——这是处理缺失数据最成熟的技术之一，且直接挑战“CCA 可以留在工具箱里”的主张。Efficient influence function (EIF) 关于缺失数据的表述（如 Rotnitzky 等的工作）也可以用于精确刻画 CCA 的效率损失，但本文未用这些量化工具。

1.6 张力¶

未见明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

2.1 第一步：把符号、模型、可观测数据交代清楚¶

符号：
- Y = outcome (结果变量), 我们关心的变量之一。
- A = treatment (处理变量), binary (比如 0=未处理, 1=处理)。
- X = baseline covariates (基线协变量), 可能包含 U (未观测的混杂) 和 C (完全可观测协变量)。
- R = missing data indicator (缺失指示变量)。对每个观测 i, R_i = 1 表示 Y_i 被观测到，R_i = 0 表示 Y_i 缺失。
- O = (Y, A, X, R) = 可观测的原始数据。
- Y(1), Y(0) = potential outcomes (潜在结果), 表示个体若接受处理 (A=1) 或不接受处理 (A=0) 时的结果。这是 counterfactual (反事实) 量，不可同时观测。
- τ = E[Y(1) - Y(0)] = Average Treatment Effect (ATE)，这是目标 estimand。
模型：我们假设数据生成机制由未知分布 P 控制。因果结构用有向无环图 (DAG) 表达。我们假设无未测量的 confounder (ignorability / unconfoundedness) 成立，即 (Y(1), Y(0)) ⟂ A | X。在缺失数据语境下，我们还假设 missing at random (MAR) 条件：Y ⟂ R | (A, X)。即，Y 是否缺失仅由已观测的 A 和 X 决定，不依赖于 Y 本身。
可观测数据：对于每个个体 i，我们可以观察到 (A_i, X_i, R_i)。如果 R_i=1，则 Y_i 也可观测；如果 R_i=0，则 Y_i 不可观测（缺失）。注意：Y(1), Y(0) 是不可观测的，只能通过假设识别。

2.2 第二步：讲最小内核¶

最简特例（首选）：我们把问题简化到只有一个二值处理 A、两个基线协变量 X=(X_1, X_2)（可观测），目标 estimand 是 ATE。假设 MAR 成立：R_i ⟂ Y_i | (A_i, X_i)。进一步，再假设缺失完全由处理变量 A 决定：R_i ⟂ [Y_i, X_i] | A_i（即，处理为 1 的人有固定缺失概率，为 0 的人有另一个固定缺失概率）。这在因果图上就是：A = 处理 → R。

在这个特例下： - CCA 的无偏性条件（Mathur 等核心结果的小规模实例）： - 既然缺失机制只由 A 决定，且我们假设无未混杂，那么对于每个处理组（A=1 与 A=0），CCA 相当于在每个处理组内部作截断。只要 unit nonresponse 在给定 A 下是随机的（MCAR within strata of A），那么 CCA 的条件期望是无偏的：E[Y | A=1, R=1] = E[Y | A=1]，等等。因此 ATE 的 CCA 估计量无偏。用因果图来“看”：从 R 指向 Y 的路径（如果存在，即为 collider bias）不存在。 - 效率损失（Stockton & Harel 的核心论点）： - 假设两种处理组各有 100 人。A=1 组的缺失概率是 p_1=0.3；A=0 组的缺失概率是 p_0=0.1。因此 CCA 丢掉 30 + 10 = 40 人。假如一个勇敢的 IPW 研究者使用加权估计，权重为 1/(1-p_A)。IPW 的渐近方差（用 delta 方法或半参效率界公式）会比 CCA 的方差小很多（因为不丢弃观测数据）。 - 关键差距：CCA 的方差可以通过简单公式（如 σ²/n_complete）计算，而 IPW 的方差涉及权重项。更严格的比较：半参效率界，即所有正则估计量的一致方差下界。在 MAR 设立下，使用所有数据（包括缺失但被加权的）的半参效率界严格优于 CCA 的界面，因为 CCA 浪费了与缺失模式相关的信息（即“信息损失”）。 - 证明怎么走、为什么成立：本文的核心论证是计量上的效率界不等于有效性。CCA 的效率损失是结构性的、可量化的（在所有正则估计量的最小方差下界意义上），与无偏性（identification issue）是两个不同的问题。

目标：读者读完这一节，已能看清：“CCA 无偏 ≠ CCA 好用，其效率损失可以通过 IPW/MI 等方法补偿，且信息损失是‘丢掉数据’的固有问题。”

三、这篇论文做了什么（本次重心，务必讲透）¶

3.1 三句话¶

研究问题：在 Mathur 等 (2026) 基于因果选择图论证“CCA 在某些缺失机制下无偏”的基础上，本文进一步追问：即使无偏，CCA 的信息损失与效率降低是否仍是一个未解决的根本问题？
核心方法/工具：使用缺失数据理论框架中的半参效率界 (semiparametric efficiency bound) 与模拟论证，对比 CCA、IPW、MI 与 Likelihood-based 方法在相同缺失机制下的渐近方差。
主要结论：CCA 的效率损失是根本性的，源于它丢弃了观测到的部分信息（关于协变量与缺失模式的关系），而 IPW/MI 等方法可以恢复更多效率；因此“principled adjusted CCA”仅供敏感性检查之用，不能替代其他标准方法。

3.2 关键设定与假设¶

记号与模型（在第二节基础上补充）：
- 目标 estimand：Conditional ATE：E[Y(1)-Y(0) | V=v]（v 是特定子群）或 Overall ATE：E[Y(1)-Y(0)]。本文提及 Mathur 等同时考虑了这两种。
- 缺失机制：MAR 是本文讨论的基础（CCA 无偏的条件通常在 MAR 的一个子类中成立），但本文也指出，即使 MAR 不成立，CCA 的 bias 可能基于 collider 结构的。
- 模型假设：没有额外的半参或非参假设——本文是应用导向的方法论评述。
核心假设：
- SUTVA（Stable Unit Treatment Value Assumption）：个体之间无交互。
- Ignorability：无未测量混杂。
- Consistency：Y = Y(A)。
- Positivity：缺失模式的正值性（每个处理-协变量组合都有非零概率被完全观测）。
与 Mathur 等对比：Stockton & Harel 没有增加新假设，而是强调即使是相同的假设，结论范围（无偏 ≠ 不损失信息）必须被清晰地限定。

3.3 主要结果¶

理论/方法产出：
1. CCA efficiency bound 的推导性陈述：CCA 的半参效率界可以简单表示为 σ² / (n * P(R=1))，其中 σ² 是 Y 在目标人群中的方差（在总体分布下的）。而 IPW 的 half-parametric efficiency bound 有更复杂的结构，但在 MAR 下严格小于（优于）CCA 的界，因为 IPW 从部分缺失的观测中推断出协变量与 Y 的关系，恢复了信息。**① 这是本文未显式写出、但可作为后续研究量化的核心。
2. Adjusted CCA 的“神话打破”：Mathur 等提出 Adjusted CCA 是指在 CCA 的基础上对缺失模式进行协变量校正（例如，将缺失指示变量作为回归中的协变量），本文指出这种修正本身不提高效率，其作用只是防范 collider bias，而效率损失问题仍然存在。
与 Baseline（Mathur 等，2026）的对比：
- Mathur 等：CCA 无偏，因此 devrait 保留在工具箱中作为敏感性检查。强调“our proposals help avoid overcorrecting...”（避免过度纠正）。
- Stockton & Harel：CCA 无偏 ≠ 有效，信息损失无法通过简单调整恢复。强调“This loss of information remains unresolved in their arguments”。（拒绝接受“无偏即好”的隐含主张。）

3.4 证明路线与技术技巧（理论型必写）¶

整体路线（论证逻辑主干）：

确立“无偏性不等于效率性”（概念区分）。
给出效率损失的量级：通过推导 CCA 方差与全数据方法方差，展示在非 MCAR 情况下，丢失观测数据带来的效率损失只会更大。
- 常见的参数设置下（例如 MAR 且协变量与结果相关），CCA 的方差是 IPW/MI 的 1.5 到 5 倍。这一步不是严格的定理证明，而是基于现有模拟（引用 Seaman & White 等）的经验陈述。
- 关键中间步骤：用等式 Var(CCA) > Var(IPW) if R≠0 作出判断。
论证“损失是根本性的”：即使增加样本量（从无限总体中二次抽样），只要队列中存在缺失，CCA 的效率界不会改变（它丢弃并永远丧失了已有的协变量-结果信息）。而 IPW/MI 可以随着样本量增加，通过更精细地建模缺失机制，逼近完整数据的效率界（在假设正确前提下）。
对“Adjusted CCA”的具体反驳：Adjusted CCA 的“调整”环节只纠正 collider bias，不增加有效样本量，因此效率没提高。
提出“principled adjusted CCA 作为敏感性工具”的定位，但不将它视为标准方法。

关键跳跃点：从“Adjusted CCA 能纠正 bias（Mathur et al. 成果）”到“但效率没恢复（Stockton & Harel 论点）”。这个跳跃需要引用半参效率理论和缺失数据收敛速度理论。整个论证的核心是“信息损失 = 丢弃数据”，这是概念上的跳跃，不是数学上怎样 manipulative。

技术技巧点名：本文不是数学论文，没有使用新的或难的技巧。它主要用了： - 模拟对比（在文献中已存在，如 Seaman & White, 2013）。 - 效率界的概念应用：使用陶哲轩 (Tsiatis, 2006) 的效率界结论，但不是重新推导。 - 引用已有的完整数据 vs. 完整病例分析的方差公式 —— 简单但直接。

3.5 真实例子与应用¶

没有包含新的真实数据例子或仿真实验。文章是纯评论 / 论点式的，没有数值实验。虽然是“commentary”，但有必要的模拟与固化参数对比能支持论点，但本文省略了。
它依赖引用的已有仿真研究（第 14 条引用是 Seaman & White 的对比研究等，但未直接复现）。因此本文缺乏可复现的、自置信的数值结果。

3.6 🔎 结论是否比证明窄¶

是的。两个主要窄化点（指名具体语句）：

效率损失的量化陈述缺乏数学证明：文中说 “the loss of statistical efficiency remains a concern” (信息损失仍是一个关切点) ——这是一个结论，但在无新模拟或公式推导。尽管已知（通过半参理论）CCA 的效率比 IPW/MI 差，但空间级差（例如 CCA 的方差是 IPW 的 3 倍而不仅仅是 1.2 倍）并没有明确给出——仅在两句模糊陈述中出现。作者没给出这个倍数的精确或半精确界，这是与其结论的强度相比，证明更窄的一个体现。
Adjusted CCA 的适用性：文中仅断言它“should not replace other standard methods”，但没有展示这“other standard methods”在多少情形下真正优于它。它只指出理论框架，但不展示示例数据。因此结论（优于其他方法）未在文中验证，仅靠概念论证支撑。

由此，读者（研究者）能看到：这篇评论的核心贡献是问题化（frame-shifting），而非解决方案。它在“该问题还没完全解决”这点上更靠谱，但对“到底差多少”的回答较弱——是可被填平的 gap。

四、开放问题（点到为止，扎根具体语句）¶

量化 CCA 与 IPW/MI 的效率损失比率：对给定的缺失机制（由因果图指定）与可观测的相关结构（协变量-结果的回归 R²），能否推导出 CCA 的方差与全数据方法的半参效率界之间精确的或紧的比值公式？——扎根于文中含糊的效率陈述。（具体位置：文中“reduced efficiency”一节，未给出明确比值。）
给“Principled adjusted CCA”划定更精确的使用阈值：在什么具体场景下（如缺失率低于 10%，且 R² < 0.1），其效率损失可被视为“可忽略”？这需要边界分析。扎根于文中第 5 段末尾“cannot replace MI... but should remain in toolkit”。
将半参效率界工具落地至该设定：作者提到效率界，但未亲自计算。一个直接的可攻口子是：给定缺失的因果图结构，计算马尔科夫等价类下 CCA 与 IPW 的最小方差比，并用本文的框架展示“信息损失”是结构性且可量化的。——链接到你的 very_familiar 半参效率理论。
贝叶斯权衡：在 MI 和完整贝叶斯方法之间的效率差异，对于 CCA 情景是否也同样显著？——文中未提，是对广义缺失方法的补充，扎根于最后一段的“other principled methods include ... Bayesian models...”

Maintained by 陈星宇 · Homepage · Source on GitHub