Mediation analysis with the mediator and outcome missing not at random¶

讲者: Fan Yang
讨论人: Xiaohua Zhou
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-06
主题: 因果推断
视频: https://youtu.be/IAmPuLuP1DA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于因果推断中的中介分析，具体问题是在中介变量（M）和结局变量（Y）都存在非随机缺失（MNAR） 时的识别与估计。这是缺失数据和因果推断交叉的一个经典困难场景。

这个方向在追问什么：在经典的中介分析中，通常需要满足“序贯可忽略性”假设（Imai et al., 2010a,b），该假设本质上要求处理变量T和中介变量M在给定协变量X后是“随机化”的。当M或Y存在缺失时，即便T是随机分配的（如Job Corps实验），缺失过程也可能引入偏倚。标准方法（CC, MI）假设MCAR或MAR，这在这些场景下可能不成立。这个子方向追问的是：当缺失机制是MNAR（即缺失依赖于未观测到的变量，例如M自身或Y自身）时，能否在不引入强参数假设（如IV）的情况下，仅依赖可观测数据和合理的图形假设来识别自然直接效应（NDE）和自然间接效应（NIE）？
奠基与主流路线：
- MAR/MCAR框架：大部分中介分析处理缺失数据的工作都建立在MCAR或MAR假设上（Enders et al., 2013; Zhang and Wang, 2013），通常使用多重插补（MI）或全息最大似然估计。
- IV型方法处理结局MNAR：Li and Zhou (2017) 和 Huber and Solovyeva (2020) 是处理结局变量MNAR的代表性工作，他们利用一个工具变量（IV）来识别直接和间接效应。这些方法的优势在于识别假设更接近“数据驱动”而非“模型驱动”，但要求有一个有效且可得的IV，这在许多研究中并不现实。
当前Frontier与报告的位置：本报告试图填补当没有IV可用时的空白。它探索了一类基于图形假设和完整性（completeness）条件的非参数识别路径。其核心思想是：通过提出一系列合理的、图形化的MNAR机制（如“缺失只依赖M本身”、“缺失都不依赖Y”、“M驱动所有缺失”等），并利用“完整性”这一非参数工具，证明即使没有IV，这些机制下的联合分布P(Y,M|T,X)仍然可以识别。这为该方向提供了一套新的、基于模型假设但具有理论深度的识别策略。报告明确区分了不同MNAR机制下识别的可能性与特点，特别是指出了当M和Y独立时，某些机制下的结果仍然可识别（NIE=0，NDE=ATE），而另一些则不行。

二、最小内核 / 一个最简例子¶

考虑最简单的二值设置：处理变量T是二值的（0/1），中介变量M是二值的（0/1），结局变量Y是二值的（0/1），且没有协变量X。

符号与模型：
- 可观测数据：(T, M, Y, R_M)。其中R_M是M的观测指示符（1表示观测到，0表示缺失）。假设Y完全观测（先处理最简单的单变量缺失情形，即报告的第一部分）。
- 潜在缺失：对于R_M=0的个体，M是未观测到的。
- Estimand：自然间接效应（NIE） = E[Y(1, M(1)) - Y(1, M(0))]，自然直接效应（NDE）= E[Y(1, M(0)) - Y(0, M(0))]。识别这两个量的关键是要能从观测数据中识别P(Y|M,T)和P(M|T)（即Y和M的联合分布P(Y,M|T)）。
最简例子（MNAR假设I, 幻灯片第12-14页）：
- MNAR假设I：缺失机制满足 R_M ⊥ Y | M, T。这意味着，给定M和T，Y对M是否缺失没有额外影响。但M可以影响R_M（这正是我们担心的：成功获得证书的人更倾向于报告）。
- 识别思路：
  - 由于假设I，P(Y|M,T)可以从完全观测的个体（R_M=1）中直接估计，因为 P(Y|M,T) = P(Y|M,T, R_M=1)。这部分没有识别困难。
  - 真正的困难在于识别P(M|T)。我们观察到的是：
    - P(Y, M, R_M=1 | T) （完全观测的个体）
    - P(Y, R_M=0 | T)（M缺失但Y观测到的个体）
  - 幻灯片第13页的核心等式是： P(Y, R_M=0 | T) = sum_{m} P(Y, M=m, R_M=1 | T) * [P(R_M=0 | M=m, T) / P(R_M=1 | M=m, T)]
  - 这是一个线性方程组。未知数是比值 ω_m = P(R_M=0 | M=m, T) / P(R_M=1 | M=m, T)，共有2个（m=0和m=1）。方程来自于Y的2种取值（y=0和y=1），所以有2个方程。
- 可解条件（对比线性方程组的秩条件）：
  - 必要条件1：Y的支持大小（2个值） ≥ M的支持大小（2个值）。满足。
  - 必要条件2：M和Y必须是相关的（M ⊥ Y | T 不能成立）。如果M和Y独立，那么P(Y, R_M=0 | T) = P(Y|T)*P(R_M=0|T)，这将导致P(Y, M=m, R_M=1 | T)矩阵的列退化，无法解出两个ω_m。这意味着，如果M对Y没有影响（NIE=0），我们就无法识别P(M|T)，但此时NIE已经知道是0，所以整体识别仍是可行的（即Theorem 1中的特例）。
扩展到连续或更一般的离散变量：当M或Y是连续的，或者有不同数量的支持元素时，上述线性方程组就变成了一个积分方程。可解性的条件就从“矩阵满秩”推广为“完整性”条件。具体来说，需要P(Y, M, R_M=1 | T)（作为Y的函数）在Y上关于某个测度是完整的。这本质上要求Y能够提供足够的信息来“区分”M的不同取值。

三、报告主体：讲者讲了什么¶

[0:01:08 - 0:04:21] 背景与动机 - 问题：提出了中介分析在因果推断中的重要性，并指出实际研究中M和Y的缺失是普遍且棘手的问题。 - 例证：以美国国家职业兵团研究（NJCS） 为例：随机分配到Job Corps（T）或控制组，中介(M)是30个月后是否获得教育/职业证书，结局(Y)是4年后周薪。数据显示，两组中完全观测率均低于70%（幻灯片表1）。特别担心M和Y的缺失可能是非随机的（MNAR），例如未获证书者更不愿报告。

[0:04:21 - 0:06:00] 文献回顾 - 指出大部分先前文献假设MCAR或MAR。 - 提及了处理结局变量MNAR的IV方法：Li and Zhou (2017) 和 Huber and Solovyeva (2020)。值得注意的是，讲者提到其中一位作者是本场报告的讨论者（Xiaohua Zhou），这显示他对该领域的谱系很熟悉。 - 报告目标：在没有IV的情况下，探讨非参数识别路径。

[0:08:00 - 0:10:18] 符号与基本框架 - 标准符号：T, M, Y, X。潜在结果：M(t), Y(t, M(t))。 - 标准识别：在无缺失时，序贯可忽略性（Imai, 2010）下，NIE和NDE由以下公式识别： E[Y(t, M(t'))|X=x] = ∫ E[Y| T=t, M=m, X=x] dF(m| T=t', X=x) - 缺失数据下的关键：识别该公式，等价于识别P(Y=y, M=m | T=t, X=x) 的联合分布。

[0:10:18 - 0:15:53] 情境一：只有M缺失（MNAR假设I） - MNAR假设I（幻灯片第12-13页）：R_M ⊥ Y | M, T, X。 - 原理图：T -> M -> Y, M -> R_M, R_M 和 Y 之间无箭头。 - 直觉：M的缺失可以依赖M本身，但不依赖Y。 - 识别路径：讲者通过一个线性方程组的比喻，解释了识别条件。 - 观察到的数据提供了一组方程 P(Y, R_M=0 | T, X) 与已知量 P(Y, M, R_M=1 | T, X) 的关系。 - 未知量是比值 P(R_M=0 | M, T, X) / P(R_M=1 | M, T, X)。 - 满秩条件：要求Y的支持大小 ≥ M的支持大小，且M对Y有影响（M ⊥ Y | T, X 不成立）。 - 从离散到连续（幻灯片第14-15页）：推广到连续变量，满秩条件变为完整性条件。完整性是许多非参数识别问题（如测量误差、IV、面板数据分析）中的标准工具，在指数族和某些位置-尺度族下成立（Newey and Powell, 2003; Hu and Shiu, 2018）。 - 定理1（幻灯片第16页）：在序贯可忽略性和假设I下，如果 P(Y, M, R_M=1 | T, X) 在Y上是完整的，则P(Y,M|T,X)可识别。 - 关键特例：如果 M ⊥ Y | T, X，则NIE=0，NDE=ATE，无需完整性条件即可识别。 - 模拟研究（幻灯片第17-19页）：展示了在4种设置（A: 二值M&Y, B: 二值M连续Y, C: 连续M&Y, D: 连续M二值Y）下的表现。在M对Y有影响时： - CC和MI（假设MAR）有显著偏倚。 - 提出的EM算法表现与Oracle接近。 - D设置（连续M二值Y，完整性条件不满足）：参数估计显示多峰性，表明非参数识别失败，参数模型无法挽救（印证了引用的Cox and Kalish名言）。

[0:15:53 - 0:31:00] 情境二：M和Y都缺失 - 引入了第二个缺失指示符 R_Y。 - 三种可识别的MNAR机制（都基于“Y不影响R_M”这一合理假设）： - MNAR假设II（幻灯片第22-23页）：(R_Y, R_M) ⊥ Y | M, T, X 且 R_Y ⊥ M | R_M, T, X。原理图：R_M -> R_Y。 - 直觉：Y的缺失完全由M的缺失决策（R_M）和协变量驱动，Y本身或M本身不影响Y的缺失。Y的缺失是“间接”的。 - 识别：仍只需完整性于Y。 - MNAR假设III（幻灯片第24-25页）：R_Y ⊥ (R_M, M) | Y, T, X 且 R_M ⊥ (R_Y, Y) | M, T, X。原理图：Y -> R_Y, M -> R_M。 - 直觉：Y的缺失直接依赖Y本身（例如收入低者不愿报告）。M的缺失直接依赖M本身。 - 识别：需要完整性同时于Y和于M。更强，但更灵活。 - 重要区别：在此机制下，如果 M ⊥ Y | T, X，则NIE和NDE也不再可识别（因为识别P(Y|M,T,X)需要完整性于M，而独立性下这不成立）。 - MNAR假设IV（幻灯片第28-29页）：R_Y, R_M 和Y在给定M, T, X下相互独立。原理图：M -> R_M, M -> R_Y。 - 直觉：是M本身驱动了M和Y的缺失（例如，获得证书的人无论收入如何都更愿报告）。 - 识别：需要完整性于 Y^†（一个将Y和R_Y组合起来的变量）。 - 不可识别的情况（幻灯片第31页）：当 R_Y 的缺失依赖于两个或更多变量（如同时依赖Y和R_M，或Y和M），而没有额外假设（如未来结果）时，无法识别。 - 拓展（幻灯片第32-33页）：讲者提出，如果有未来结果 Y^*（例如5年后周薪）且被仔细收集，可以改善某些不可识别情况的识别性，这对研究设计（例如一个更长的随访期）有指导意义。同时，这些结果可以平行迁移到IV设置中，用于识别治疗组依从者平均因果效应（CACE）。

[0:31:37 - 0:38:34] 应用：Job Corps研究 - 模型设定（幻灯片第37页）：考虑到结局Y（周薪）有大量0值和右偏，使用两部分模型（logit预测是否为正 + gamma 或 log-normal 模型预测正值的均值）。 - 结果（幻灯片第38-39页）：比较了假设II、III、IV下的6个模型。虽然点估计有差异，但所有模型的NIE的95%置信区间都不包含0（约10-19美元/周），而NDE都不显著。结论稳健。 - 模型对比：基于对数似然，假设II + Gamma模型最好。该模型估计出： - λ_m = 1.73（95% CI: 0.34, 3.33）: 获得证书者更可能报告M。 - γ_{rM} = 1.87（95% CI: 1.76, 2.00）: 报告了M的人更可能报告Y。 - 敏感性分析（幻灯片第40-41页）：在假设II的基础上，引入 Z（Y是否为正）和 M 对 R_Y 的直接影响作为敏感性参数（γ_z, γ_m）。当这两个参数在 -2 到 2 之间变动时，NIE和NDE的结论均不变，表明结果对偏离假设II的强度并不敏感。

四、对应论文与开放问题¶

(a) 对应论文

这场报告对应一篇已提交或在写作中的论文，标题与报告标题高度一致。合作者信息在幻灯片和转写中均明确给出： - 作者：Fan Yang（讲者，Yau Mathematical Sciences Center, Tsinghua University / BIMS, Beijing） - 合作者：Shuozhi Zuo, Debashis Ghosh (University of Colorado, Denver); Peng Ding (University of California, Berkeley) - 论文状态：转写中讲者提到“这是我们正在做的”（[0:08:00] 附近），且报告本身是新近的。具体arXiv号或期刊出处转写和幻灯片均未提及，需待论文正式发表或上传arXiv后确认。

(b) 开放问题（扎根于转写）

“完整性”条件的可检验性与实证解读：讨论者周孝华（Andrew Zhou）提出了一个尖锐问题：完整性是一个非常强的模型假设，本质上是对联合分布的一种限制，它是不可由数据直接检验的（[0:46:29-0:47:41]）。讲者在回应中也承认了这一点（[0:58:53-0:59:04]）。所以，一个开放问题是：对于给定的实证研究，如何论证或评估完整性条件的合理性？能否发展出某种形式的部分识别或敏感性分析方法，来量化偏离完整性假设的影响？
参数化假设在非参数识别失败时的表现：报告中的模拟（幻灯片第19页，M有3类而Y是二值）展示了在多参数模型下，尽管非参数识别失败，参数估计也可能表现出多模性。开放问题是：能否给出一个判断准则或诊断程序，告诉研究人员“你的参数模型在这种情况下是危险的”？当完整性条件不满足时，有哪些通用的、可操作的诊断信号（例如似然面形状、参数估计的收敛性）？
与其他识别策略的整合：讲者将“数据驱动”的IV方法与“模型驱动”的完整性方法进行了对比，并建议两者并用（[0:56:04-0:56:42]）。开放问题是：能否发展出一个统一的框架，同时利用IV和完整性假设？例如，IV可以用来简化部分识别，而完整性可以在没有IV时提供识别。一个混合策略（比如，当IV的排他性假设受到质疑时，使用完整性作为补充）可能很有价值。
潜在结果框架的扩展：讨论者周孝华建议用潜在结果框架来更清晰地表述假设（[0:49:30-0:50:32]）。开放问题是：如何将R_M和R_Y也视为潜在变量（例如 R_M(t)=R_M(T=t)），并在此基础上重述MNAR假设？这可能揭示现有假设之间的隐藏关系，或者推导出更强的识别结果。
IV设置的平行结果：讲者指出，类似的识别框架可以平行迁移到IV设置下的CACE识别（幻灯片第33页）。开放问题是：在这些IV-MNAR情形下，如何比较和对比“完整性”假设与“排他性”/“单调性”等标准IV假设？是否存在一个完整的“识别三角”？
经济/成本数据的处理：讨论者周孝华提到了对结局变量建模的担忧（零膨胀、右偏、重尾），特别是log-normal模型在还原尺度时的偏差问题（[0:51:17-0:53:14]）。开放问题是：对于这类典型的经济学数据，是否存在比两部分Gamma模型更鲁棒或更合适的参数化选择（例如，广义Gamma分布、Box-Cox变换族）？这些选择是否会改变对MNAR模型的选择（即模型I-IV的偏好）？

Maintained by 陈星宇 · Homepage · Source on GitHub

Mediation analysis with the mediator and outcome missing not at random¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论