Identification and estimation in graphical models of missing data¶

讲者: Ilya Shpitser
讨论人: Jin Tian
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-05-12
主题: 因果推断
视频: https://www.youtube.com/watch?v=FRYkkQBfrDg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

1909.01848 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告聚焦于缺失数据（missing data）的识别与估计问题，并采用图形化因果推断（graphical causal inference） 的技术路线。具体来说，它隶属于一个持续发展的研究方向——利用有向无环图（DAG）模型来描述缺失机制并在 Missing Not At Random（MNAR）下识别目标分布。

该方向的核心追问：当数据非随机缺失（MNAR），即缺失状态依赖于未观测到的数据值本身时，从观测到的数据分布出发，能否唯一地估计出未缺失时的目标分布（full data distribution）或其某个功能（如均值）。如果能，具体的识别公式（即从观测分布到目标分布的映射）是什么？
奠基工作与主流路线：Rubin (1976) 的缺失数据分类（MCAR, MAR, MNAR）是框架基础。从模式上看，MAR 模型（如 monotone MAR 模型，Little & Rubin, 2002；Robins & Gill, 1997）已有完整的识别理论，其识别公式与因果推断中的 g-formula 类似。然而，MNAR 模型种类繁多，且识别条件复杂，之前缺乏统一视角。Mohan, Pearl & Tian (2013) 的工作首次系统性地使用图模型（M-graphs 或 m-DAGs）来表示 MNAR 结构的缺失机制，开启了一条清晰的图形化分析路线。
当前前沿与这场报告的站位：在 MNAR 图模型中，一个核心问题是：给定一个代表缺失机制的 DAG，如何判断目标分布是否可识别？Mohan 等人的工作已有初步识别算法，但 Bhattacharya, Nabi, Shpitser & Robins (2019) [即本报告的核心论文] 指出，这些算法在识别上存在一个显著的“缺口”（gap）——它们无法识别一大类实际上可识别的模型。本报告的核心贡献在于：
- 识别理论上的统一：报告将所有满足特定 DAG 结构（即排除“自删失边”和“Kappa 结构”）的 MNAR 模型，统一地视为一个更一般的、名为 “无自删失模型”（No Self-Censoring model） 的子模型。报告证明，这个无自删失模型本身是非参数饱和的（在观测数据上不施加可检验的约束）且完全可识别的。因此，所有其子模型的识别问题都自动解决。
- 识别条件的简洁刻画：报告给出一个极其简单的、可操作的充分必要条件来判定一个缺失数据 DAG 模型是否可识别：检查图中是否有“自删失边”（任何 Xᵢ(¹) → Rᵢ 的边）或“Kappa 结构”（一个 Xⱼ(¹) 或 Rⱼ 指向 Rᵢ，且同时 Xᵢ(¹) 也指向该 Rⱼ 所形成的特殊对撞结构）。若无，则模型是可识别的。
- 估计方法的推进：对于无自删失模型，报告推导了其半参数有效影响函数，并提出了一个偏双稳健（partial double robust） 的增广逆概率加权（AIPW）估计量。这个估计量在给定条件（odds ratio 模型正确）下，即使其中一个（propensity score 或 outcome regression）模型错误，仍能保持一致估计。

综上，这场报告站在了 “利用图模型统一、简洁地处理 MNAR 数据的识别与估计” 这一前沿位置，并给出了一个实践上可用的、有辨识力的算法和估计框架。

二、最小内核 / 一个最简例子¶

为了理解核心机制，我们考虑最简单的可能的缺失数据问题：

变量：
- 一个可能缺失的变量：\(X^{(1)}\)。它是我们想推断的、但现实中可能是缺失的潜在真实值。
- 缺失指示器：\(R\)。若 \(R=1\)，我们观察到 \(X^{(1)}\)；若 \(R=0\)，\(X^{(1)}\) 缺失。
- 观测到的代理变量：\(X\)。它由 \(X^{(1)}\) 和 \(R\) 确定性决定：\(X = X^{(1)}\) 若 \(R=1\)；否则 \(X = \text{“?”}\)。
- 没有始终观测到的变量（\(O=\emptyset\)）。
模型：假设一个最简单的无自删失模型。对应的 DAG 中，只有从 \(X^{(1)}\) 到 \(R\) 的边被禁止（无自删失）。最典型的可识别有向结构是 \(X^{(1)} \rightarrow R \leftarrow X^{(1)}\) 这种自循环？不对。最简单的无自删失 DAG 实际上没有任何从 \(X^{(1)}\) 指向 \(R\) 的边。那么这个模型就是 MAR 的退化版——MCAR。我们来构造一个更“非平凡”的可识别 MNAR 模型，即图 2（幻灯片中，见附注）的 Block-sequential MAR 模型在两变量下的简化形式? 不，我们用它最复杂的来举例。我们考虑一个由两个变量 \(X_1^{(1)}\) 和 \(X_2^{(1)}\) 构成的模型，它们之间有一条边 \(X_1^{(1)} \to X_2^{(1)}\)（目标分布指明有因果方向），各自的缺失指示器 \(R_1, R_2\) 之间有一边 \(R_1 \to R_2\)。且 \(R_1\) 有 \(X_2^{(1)}\) 做父节点：加一条 \(X_2^{(1)} \to R_1\)。这没有自删失边（指 \(X_i^{(1)} \to R_i\)），但却有个MNAR结构：\(R_1\) 依赖于 \(X_2^{(1)}\)。这就是个非平凡的、可识别的 MNAR 模型。

符号对应： - 目标分布（Estimand）：\(p(X_1^{(1)}, X_2^{(1)})\)。 - 观测数据分布：\(p(R_1, R_2, X_1, X_2)\)。其中，若 \(R_i=0\)，则 \(X_i\) 取缺失值。 - 全数据分布（Full Data Law）：\(p(X_1^{(1)}, X_2^{(1)}, R_1, R_2)\)，其对 \(X_1^{(1)}, X_2^{(1)}\) 边际化即得到目标分布。
核心思想（用一个直观的特例讲）：假设所有变量都是二值的（0/1）。
- 为什么 MAR 不够？ 在 MAR 下，我们假设 \(R_i \perp\!\!\!\perp X_i^{(1)} \mid \text{已观测}\)。但在这个模型里，\(R_1\) 直接取决于未观测的 \(X_2^{(1)}\)。所以不能用 MAR 公式。
- **如何识别？理解“No Self-Censoring”: 该模型没有 \(X_1^{(1)} \to R_1\) 和 \(X_2^{(1)} \to R_2\) 这样直接的自删失。它可以理解为，一个变量是否有缺失，不由它自己（的真实值）直接决定，但可能由其他变量（以及其他变量的缺失状态）决定。
- 识别策略（Odds Ratio/RATIO Factorization 的直觉）：目标分布的识别可以通过识别倾向性得分函数 \(p(R=1 | X^{(1)})\) 来实现。讲者用了一个优雅的 Odds Ratio 分解（基于 Chen 2020 的理论）。命题的核心是： \(p(R=1 | X^{(1)}) = \frac{\prod_{i} \text{(Gibbs factor for i at R=1)} \times \prod_{i < j} \text{(Conditional Odds Ratio linking i and j at R=1)}}{\text{(Normalizing constant)}}\).
  
  在这个两变量的例子中： - Gibbs Factor 1: \(p(R_1=1 \mid X_2^{(1)})\)。这其实是可以从观测数据识别出的，因为当 \(R_2=1\) 时，我们可以观察到 \(X_2\)。 - Gibbs Factor 2: \(p(R_2=1 \mid R_1, X_1^{(1)})\)。这也是可识别的，因为当 \(R_1=1\) 时，我们观察到 \(X_1\)；而条件中包含的 \(R_1\) 本身是观测到的。 - Odds Ratio term: \(\text{OR}(R_1, R_2 \mid X^{(1)})\)。刻画在给定每个变量的真实值下，两个指示器的关联关系。关键洞察是，这种“依赖”关系（\(R_1\) 和 \(R_2\) 之间）在数据中是可识别的，因为我们可以观测到 \(p(R_1,R_2)\) 的条件分布。因此，所有组成 \(p(R=1|X^{(1)})\) 的“砖块”都是观测数据的函数，从而目标分布是可识别的。
一句话总结最简例子: 在无自删失的前提下，即使缺失是非随机的（\(R_1\) 依赖于未测 \(X_2^{(1)}\)），也可以通过巧妙地将复杂的缺失机制分解成观测数据中一一对应的、简单的“条件概率/Gibbs 因子”和“条件比值比”来还原真实的联合分布。

三、报告主体：讲者讲了什么¶

本报告主体分为 识别（Identification） 和 推断（Inference） 两大部分。

A. 识别部分（~0:05:00 - 0:23:00）

[~0:05:30] 标准框架引入：讲解者使用潜在结果（counterfactual）的视角来看待缺失数据。指出缺失数据问题可以通过识别“全数据分布”（full data law, \(p(X^{(1)}, O, R)\)）中的缺失机制（nuisance law, \(p(R|X^{(1)}, O)\)） 来简化为识别“倾向性得分（propensity score）”。关键等式为：\(p(X^{(1)}, O) = p(X, O, R=1) / p(R=1|X^{(1)}, O)\)。
[~0:10:30] 图模型表示：介绍了使用 DAG 表示缺失数据的惯用手法。所有变量包括：
- 完全观测的变量 \(O\)。
- 潜在缺失的真实值 \(X^{(1)}\)。
- 缺失指示器 \(R\)。
- 观测的代理变量 \(X\)，它由 \(R\) 和 \(X^{(1)}\) 通过确定性关系 \(X = X^{(1)} \cdot R + \text{“?”} \cdot (1-R)\) 定义。
- 关键约束：图中不允许有从 \(R\) 指向 \(X^{(1)}\) 的边，也不允许有直接的自删失边（即 \(X_i^{(1)} \to R_i\)）。
[~0:14:30] 识别图景：利用此模型表述，先前已知缺失完全随机（MCAR） 和单调缺失随机（Monotone MAR, Robins 1997） 是可识别的。但一个包含自删失的例子（\(X^{(1)} \to R\)）是不可识别的。
[~0:17:00] 无自删失模型（No Self-Censoring Model）：这是本报告的核心理论基础。它对应一个链图（chain graph），而非 DAG。它假设每个缺失指示器 \(R_i\) 都与其对应的真实变量 \(X_i^{(1)}\) 条件独立（在给定所有其他变量，包括其他 \(R\) 和其他 \(X_j^{(1)}\) 的条件下）。此假设被称为“itemwise conditionally independent nonresponse” (ICIN)。在变量较少的简单情况下，该模型是非参数饱和的（即不对观测数据施加任何不可检验的约束，这是其优势）。
[~0:20:00] 无自删失模型的识别：讲解者引用 Chen (2020, cited by talk)（字幕待核实正确人名）的工作，使用odds ratio 分解来证明该模型的全数据分布是可识别的。他们将全数据分布的密度写为 Gibbs 因子和条件比值比（Conditional Odds Ratio）的乘积，然后论证每个组件均可以从观测数据中唯一确定。
[~0:21:30] 从无自删失模型到 DAG 模型的充分必要条件：核心结果是：对于一个缺失数据 DAG，当且仅当它不包含以下两种禁止结构时，它才是无自删失模型的子模型，进而是可识别的。
- 自删失边（Self-censoring edge）：任意一个 \(X_i^{(1)} \to R_i\) 的边。
- Kappa 结构（Kappa structure）：一个特殊的对撞结构。在这个结构中，存在一个由 \(X_i^{(1)}\) 指向某个 \(R_j\) 的箭头，而同时 \(R_j\) 又指向 \(R_i\)。这相当于在某一条路径上，自己的缺失状态和另一个变量的缺失状态通过一种特殊方式关联起来，最终导致不可识别。
（若有疑问，可查看视频验证。幻灯片中清晰展示了这两个结构及其对识别性的影响。）
[~0:22:00] 非识别性的证明 Sketch：论证很简单，对于包含自删失边或 Kappa 结构的两变量子模型，牵头展示数据中存在两个独立参数可调整，却不改变任何观测到的概率。这直接违反了识别性的定义。

B. 推断部分（~0:23:00 - 0:34:00）

[~0:28:00] 参数推断：由于全数据分布已被识别为观测数据的函数（尤其针对所有满足无自删失 DAG 子模型），可以直接对观测数据的似然函数进行最大似然估计（MLE）。它避免了因模型不可识别而导致的似然函数多峰问题。
[~0:30:00] 半参数推断（核心贡献）：
- 目标参数：一个和的函数，即 \(\mathbb{E}[f(X^{(1)}, O)]\)。
- 方法：利用 增广逆概率加权（Augmented IPW / AIPW） 推导其在无自删失模型下的有效影响函数（Efficient Influence Function, EIF）。这是比参数假设更稳健的半参数方法。
- EIF 的形式（从幻灯片中可见）：EIF 由三部分组成：
  1. 逆概率加权项：\(\frac{R}{p(R=1 | X^{(1)}, O)}(f(X^{(1)}, O) - \Psi)\)。
  2. 一个类似“回归预测”的校正项。它的构建需要“结果回归”模型。
  3. 一个涉及“条件 odds ratio”的复杂校正项。
- 偏双稳健性（Partial double robustness）：这是该工作的一个重要发现。在 MNAR 情况下，经典的 AIPW 双稳健性（需要结果和倾向性得分模型都正确）变成部分双稳健性。具体来说，为了得到一致的 \(\Psi\)，必须保证模型中的 odds ratio 部分被正确指定。在此基础上，只要结果模型或倾向性得分模型至少一个正确，估计量就是一致且渐近正常的。如果 odds ratio 模型错误，即使另外两个模型都正确，也会产生偏差。这在实践中是一个重要的警示。
- [~0:33:00] 仿真与案例分析：通过一个模拟实验，演示了该 EIF 估计方法相对于常见的多重插补（MICE）方法在无自删失模型设定下的优势，指出 MICE 在这一非随机缺失场景下会产生严重偏倚。对博茨瓦纳 HIV 阳性母亲的真实数据分析也演示了其应用。

四、对应论文与开放问题¶

A. 对应论文

本次报告主要基于以下已发表或已被接收的论文： - 主要参考资料（幻灯片标题）：Bhattacharya, R., Nabi, R., Shpitser, I., & Robins, J. M. (2019). Identification In Missing Data Models Represented By Directed Acyclic Graphs. In Proceedings of the 35th Conference on Uncertainty in Artificial Intelligence (UAI). (arXiv: 1909.01848). 这是本场的核心理论论文。 - 配套估计论文：Malinsky, D., Shpitser, I., & Tchetgen Tchetgen, E. J. (2020). Semiparametric Inference for Non-monotone Missing-Not-at-Random Data: the No Self-Censoring Model. Journal of the American Statistical Association. 这篇论文专注于估计方法与无自删失模型的 EIF。 - 相关工作：Mohan, K., Pearl, J., & Tian, J. (2013). Graphical models for inference with missing data. In Advances in Neural Information Processing Systems (NeurIPS). (对早期 M-graphs 的工作基础)。 - 软件：Shpitser 实验室开发的 Ananke Python 软件包可以程序化地实现本报告中的识别和估计方法。

B. 开放问题（基于报告尾部和讨论记录）

[~0:38:30] 效率提升：商在 DAG 子模型下有效率提升问题。
- 创始人提问：虽无自删失模型的 EIF 给出了非参数有效估计，但对于它的子模型（DAG），如何“投影（project）”影响函数到子模型的切空间来获得更高效的估计？讲者表示正在处理，但具有挑战性，因为 DAG 子模型的限制条件相对复杂。
[~0:38:30] 非完整模式的识别与约束问题（来自 Jin Tian 和 Tchetgen）：标准假设是观测数据包含所有可能的缺失模式（包括完整模式），并假设完全观察（pattern of all 1s）必存在。然而，实践中有些模式可能缺失或其存在与否未知。如何在这些受限制的模式下进行识别和估计？现有框架如何扩展？这是一个重要的开放问题（例如，当缺少“只有一个缺失”模式时，估计会出现问题）。
[~0:54:00] 不完全识别理论与 Kappa 结构更深入的探讨：当完整的全数据分布不可识别时，某些特定的参数（例如单个边际分布、条件分布、因果效应）可能仍然是可识别的。例如，一个模型包含 Kappa 结构，但其某些边际分布可识别。Jin Tian 和讲者都指出，目前还没有针对任意目标函数（而不是全分布）的“if and only if”的识别条件。理论上的完整刻画仍是开放问题。
[~0:44:00] “Non-parametric” saturation 的检验与模型对比：无自删失模型的非参数性质和可检验性似乎在某种意义上是一个利刃（可检验），但也是一个钝刃（缺乏结构约束，导致假设过少）。尽管该模型在观测数据上无约束，如何在这个“无约束”的模型空间里判读其与实际 DAG 子的模型质量差距，并设计最优的模型选择流程，也是一个开放探索点。

Maintained by 陈星宇 · Homepage · Source on GitHub