Mediation analysis with the mediator and outcome missing not at random¶
讲者: Fan Yang
讨论人: Xiaohua Zhou
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-02-06
主题: 因果推断
视频: https://youtu.be/IAmPuLuP1DA · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告属于因果推断中的中介分析,具体问题是在中介变量(M)和结局变量(Y)都存在非随机缺失(MNAR) 时的识别与估计。这是缺失数据和因果推断交叉的一个经典困难场景。
- 这个方向在追问什么:在经典的中介分析中,通常需要满足“序贯可忽略性”假设(Imai et al., 2010a,b),该假设本质上要求处理变量T和中介变量M在给定协变量X后是“随机化”的。当M或Y存在缺失时,即便T是随机分配的(如Job Corps实验),缺失过程也可能引入偏倚。标准方法(CC, MI)假设MCAR或MAR,这在这些场景下可能不成立。这个子方向追问的是:当缺失机制是MNAR(即缺失依赖于未观测到的变量,例如M自身或Y自身)时,能否在不引入强参数假设(如IV)的情况下,仅依赖可观测数据和合理的图形假设来识别自然直接效应(NDE)和自然间接效应(NIE)?
- 奠基与主流路线:
- MAR/MCAR框架:大部分中介分析处理缺失数据的工作都建立在MCAR或MAR假设上(Enders et al., 2013; Zhang and Wang, 2013),通常使用多重插补(MI)或全息最大似然估计。
- IV型方法处理结局MNAR:Li and Zhou (2017) 和 Huber and Solovyeva (2020) 是处理结局变量MNAR的代表性工作,他们利用一个工具变量(IV)来识别直接和间接效应。这些方法的优势在于识别假设更接近“数据驱动”而非“模型驱动”,但要求有一个有效且可得的IV,这在许多研究中并不现实。
- 当前Frontier与报告的位置:本报告试图填补当没有IV可用时的空白。它探索了一类基于图形假设和完整性(completeness)条件的非参数识别路径。其核心思想是:通过提出一系列合理的、图形化的MNAR机制(如“缺失只依赖M本身”、“缺失都不依赖Y”、“M驱动所有缺失”等),并利用“完整性”这一非参数工具,证明即使没有IV,这些机制下的联合分布P(Y,M|T,X)仍然可以识别。这为该方向提供了一套新的、基于模型假设但具有理论深度的识别策略。报告明确区分了不同MNAR机制下识别的可能性与特点,特别是指出了当M和Y独立时,某些机制下的结果仍然可识别(NIE=0,NDE=ATE),而另一些则不行。
二、最小内核 / 一个最简例子¶
考虑最简单的二值设置:处理变量T是二值的(0/1),中介变量M是二值的(0/1),结局变量Y是二值的(0/1),且没有协变量X。
- 符号与模型:
- 可观测数据:(T, M, Y, R_M)。其中R_M是M的观测指示符(1表示观测到,0表示缺失)。假设Y完全观测(先处理最简单的单变量缺失情形,即报告的第一部分)。
- 潜在缺失:对于R_M=0的个体,M是未观测到的。
- Estimand:自然间接效应(NIE) = E[Y(1, M(1)) - Y(1, M(0))],自然直接效应(NDE)= E[Y(1, M(0)) - Y(0, M(0))]。识别这两个量的关键是要能从观测数据中识别P(Y|M,T)和P(M|T)(即Y和M的联合分布P(Y,M|T))。
-
最简例子(MNAR假设I, 幻灯片第12-14页):
- MNAR假设I:缺失机制满足
R_M ⊥ Y | M, T。这意味着,给定M和T,Y对M是否缺失没有额外影响。但M可以影响R_M(这正是我们担心的:成功获得证书的人更倾向于报告)。 - 识别思路:
- 由于假设I,P(Y|M,T)可以从完全观测的个体(R_M=1)中直接估计,因为
P(Y|M,T) = P(Y|M,T, R_M=1)。这部分没有识别困难。 - 真正的困难在于识别P(M|T)。我们观察到的是:
P(Y, M, R_M=1 | T)(完全观测的个体)P(Y, R_M=0 | T)(M缺失但Y观测到的个体)
- 幻灯片第13页的核心等式是:
P(Y, R_M=0 | T) = sum_{m} P(Y, M=m, R_M=1 | T) * [P(R_M=0 | M=m, T) / P(R_M=1 | M=m, T)] - 这是一个线性方程组。未知数是比值
ω_m = P(R_M=0 | M=m, T) / P(R_M=1 | M=m, T),共有2个(m=0和m=1)。方程来自于Y的2种取值(y=0和y=1),所以有2个方程。
- 由于假设I,P(Y|M,T)可以从完全观测的个体(R_M=1)中直接估计,因为
- 可解条件(对比线性方程组的秩条件):
- 必要条件1:Y的支持大小(2个值) ≥ M的支持大小(2个值)。满足。
- 必要条件2:M和Y必须是相关的(
M ⊥ Y | T不能成立)。如果M和Y独立,那么P(Y, R_M=0 | T) = P(Y|T)*P(R_M=0|T),这将导致P(Y, M=m, R_M=1 | T)矩阵的列退化,无法解出两个ω_m。这意味着,如果M对Y没有影响(NIE=0),我们就无法识别P(M|T),但此时NIE已经知道是0,所以整体识别仍是可行的(即Theorem 1中的特例)。
- MNAR假设I:缺失机制满足
-
扩展到连续或更一般的离散变量:当M或Y是连续的,或者有不同数量的支持元素时,上述线性方程组就变成了一个积分方程。可解性的条件就从“矩阵满秩”推广为“完整性”条件。具体来说,需要
P(Y, M, R_M=1 | T)(作为Y的函数)在Y上关于某个测度是完整的。这本质上要求Y能够提供足够的信息来“区分”M的不同取值。
三、报告主体:讲者讲了什么¶
[0:01:08 - 0:04:21] 背景与动机 - 问题:提出了中介分析在因果推断中的重要性,并指出实际研究中M和Y的缺失是普遍且棘手的问题。 - 例证:以美国国家职业兵团研究(NJCS) 为例:随机分配到Job Corps(T)或控制组,中介(M)是30个月后是否获得教育/职业证书,结局(Y)是4年后周薪。数据显示,两组中完全观测率均低于70%(幻灯片表1)。特别担心M和Y的缺失可能是非随机的(MNAR),例如未获证书者更不愿报告。
[0:04:21 - 0:06:00] 文献回顾 - 指出大部分先前文献假设MCAR或MAR。 - 提及了处理结局变量MNAR的IV方法:Li and Zhou (2017) 和 Huber and Solovyeva (2020)。值得注意的是,讲者提到其中一位作者是本场报告的讨论者(Xiaohua Zhou),这显示他对该领域的谱系很熟悉。 - 报告目标:在没有IV的情况下,探讨非参数识别路径。
[0:08:00 - 0:10:18] 符号与基本框架
- 标准符号:T, M, Y, X。潜在结果:M(t), Y(t, M(t))。
- 标准识别:在无缺失时,序贯可忽略性(Imai, 2010)下,NIE和NDE由以下公式识别:
E[Y(t, M(t'))|X=x] = ∫ E[Y| T=t, M=m, X=x] dF(m| T=t', X=x)
- 缺失数据下的关键:识别该公式,等价于识别P(Y=y, M=m | T=t, X=x) 的联合分布。
[0:10:18 - 0:15:53] 情境一:只有M缺失(MNAR假设I)
- MNAR假设I(幻灯片第12-13页):R_M ⊥ Y | M, T, X。
- 原理图:T -> M -> Y, M -> R_M, R_M 和 Y 之间无箭头。
- 直觉:M的缺失可以依赖M本身,但不依赖Y。
- 识别路径:讲者通过一个线性方程组的比喻,解释了识别条件。
- 观察到的数据提供了一组方程 P(Y, R_M=0 | T, X) 与已知量 P(Y, M, R_M=1 | T, X) 的关系。
- 未知量是比值 P(R_M=0 | M, T, X) / P(R_M=1 | M, T, X)。
- 满秩条件:要求Y的支持大小 ≥ M的支持大小,且M对Y有影响(M ⊥ Y | T, X 不成立)。
- 从离散到连续(幻灯片第14-15页):推广到连续变量,满秩条件变为完整性条件。完整性是许多非参数识别问题(如测量误差、IV、面板数据分析)中的标准工具,在指数族和某些位置-尺度族下成立(Newey and Powell, 2003; Hu and Shiu, 2018)。
- 定理1(幻灯片第16页):在序贯可忽略性和假设I下,如果 P(Y, M, R_M=1 | T, X) 在Y上是完整的,则P(Y,M|T,X)可识别。
- 关键特例:如果 M ⊥ Y | T, X,则NIE=0,NDE=ATE,无需完整性条件即可识别。
- 模拟研究(幻灯片第17-19页):展示了在4种设置(A: 二值M&Y, B: 二值M连续Y, C: 连续M&Y, D: 连续M二值Y)下的表现。在M对Y有影响时:
- CC和MI(假设MAR)有显著偏倚。
- 提出的EM算法表现与Oracle接近。
- D设置(连续M二值Y,完整性条件不满足):参数估计显示多峰性,表明非参数识别失败,参数模型无法挽救(印证了引用的Cox and Kalish名言)。
[0:15:53 - 0:31:00] 情境二:M和Y都缺失
- 引入了第二个缺失指示符 R_Y。
- 三种可识别的MNAR机制(都基于“Y不影响R_M”这一合理假设):
- MNAR假设II(幻灯片第22-23页):(R_Y, R_M) ⊥ Y | M, T, X 且 R_Y ⊥ M | R_M, T, X。原理图:R_M -> R_Y。
- 直觉:Y的缺失完全由M的缺失决策(R_M)和协变量驱动,Y本身或M本身不影响Y的缺失。Y的缺失是“间接”的。
- 识别:仍只需完整性于Y。
- MNAR假设III(幻灯片第24-25页):R_Y ⊥ (R_M, M) | Y, T, X 且 R_M ⊥ (R_Y, Y) | M, T, X。原理图:Y -> R_Y, M -> R_M。
- 直觉:Y的缺失直接依赖Y本身(例如收入低者不愿报告)。M的缺失直接依赖M本身。
- 识别:需要完整性同时于Y和于M。更强,但更灵活。
- 重要区别:在此机制下,如果 M ⊥ Y | T, X,则NIE和NDE也不再可识别(因为识别P(Y|M,T,X)需要完整性于M,而独立性下这不成立)。
- MNAR假设IV(幻灯片第28-29页):R_Y, R_M 和Y在给定M, T, X下相互独立。原理图:M -> R_M, M -> R_Y。
- 直觉:是M本身驱动了M和Y的缺失(例如,获得证书的人无论收入如何都更愿报告)。
- 识别:需要完整性于 Y^†(一个将Y和R_Y组合起来的变量)。
- 不可识别的情况(幻灯片第31页):当 R_Y 的缺失依赖于两个或更多变量(如同时依赖Y和R_M,或Y和M),而没有额外假设(如未来结果)时,无法识别。
- 拓展(幻灯片第32-33页):讲者提出,如果有未来结果 Y^*(例如5年后周薪)且被仔细收集,可以改善某些不可识别情况的识别性,这对研究设计(例如一个更长的随访期)有指导意义。同时,这些结果可以平行迁移到IV设置中,用于识别治疗组依从者平均因果效应(CACE)。
[0:31:37 - 0:38:34] 应用:Job Corps研究
- 模型设定(幻灯片第37页):考虑到结局Y(周薪)有大量0值和右偏,使用两部分模型(logit预测是否为正 + gamma 或 log-normal 模型预测正值的均值)。
- 结果(幻灯片第38-39页):比较了假设II、III、IV下的6个模型。虽然点估计有差异,但所有模型的NIE的95%置信区间都不包含0(约10-19美元/周),而NDE都不显著。结论稳健。
- 模型对比:基于对数似然,假设II + Gamma模型最好。该模型估计出:
- λ_m = 1.73(95% CI: 0.34, 3.33): 获得证书者更可能报告M。
- γ_{rM} = 1.87(95% CI: 1.76, 2.00): 报告了M的人更可能报告Y。
- 敏感性分析(幻灯片第40-41页):在假设II的基础上,引入 Z(Y是否为正)和 M 对 R_Y 的直接影响作为敏感性参数(γ_z, γ_m)。当这两个参数在 -2 到 2 之间变动时,NIE和NDE的结论均不变,表明结果对偏离假设II的强度并不敏感。
四、对应论文与开放问题¶
(a) 对应论文
这场报告对应一篇已提交或在写作中的论文,标题与报告标题高度一致。合作者信息在幻灯片和转写中均明确给出: - 作者:Fan Yang(讲者,Yau Mathematical Sciences Center, Tsinghua University / BIMS, Beijing) - 合作者:Shuozhi Zuo, Debashis Ghosh (University of Colorado, Denver); Peng Ding (University of California, Berkeley) - 论文状态:转写中讲者提到“这是我们正在做的”([0:08:00] 附近),且报告本身是新近的。具体arXiv号或期刊出处转写和幻灯片均未提及,需待论文正式发表或上传arXiv后确认。
(b) 开放问题(扎根于转写)
-
“完整性”条件的可检验性与实证解读:讨论者周孝华(Andrew Zhou)提出了一个尖锐问题:完整性是一个非常强的模型假设,本质上是对联合分布的一种限制,它是不可由数据直接检验的([0:46:29-0:47:41])。讲者在回应中也承认了这一点([0:58:53-0:59:04])。所以,一个开放问题是:对于给定的实证研究,如何论证或评估完整性条件的合理性?能否发展出某种形式的部分识别或敏感性分析方法,来量化偏离完整性假设的影响?
-
参数化假设在非参数识别失败时的表现:报告中的模拟(幻灯片第19页,M有3类而Y是二值)展示了在多参数模型下,尽管非参数识别失败,参数估计也可能表现出多模性。开放问题是:能否给出一个判断准则或诊断程序,告诉研究人员“你的参数模型在这种情况下是危险的”?当完整性条件不满足时,有哪些通用的、可操作的诊断信号(例如似然面形状、参数估计的收敛性)?
-
与其他识别策略的整合:讲者将“数据驱动”的IV方法与“模型驱动”的完整性方法进行了对比,并建议两者并用([0:56:04-0:56:42])。开放问题是:能否发展出一个统一的框架,同时利用IV和完整性假设?例如,IV可以用来简化部分识别,而完整性可以在没有IV时提供识别。一个混合策略(比如,当IV的排他性假设受到质疑时,使用完整性作为补充)可能很有价值。
-
潜在结果框架的扩展:讨论者周孝华建议用潜在结果框架来更清晰地表述假设([0:49:30-0:50:32])。开放问题是:如何将R_M和R_Y也视为潜在变量(例如
R_M(t)=R_M(T=t)),并在此基础上重述MNAR假设?这可能揭示现有假设之间的隐藏关系,或者推导出更强的识别结果。 -
IV设置的平行结果:讲者指出,类似的识别框架可以平行迁移到IV设置下的CACE识别(幻灯片第33页)。开放问题是:在这些IV-MNAR情形下,如何比较和对比“完整性”假设与“排他性”/“单调性”等标准IV假设?是否存在一个完整的“识别三角”?
-
经济/成本数据的处理:讨论者周孝华提到了对结局变量建模的担忧(零膨胀、右偏、重尾),特别是log-normal模型在还原尺度时的偏差问题([0:51:17-0:53:14])。开放问题是:对于这类典型的经济学数据,是否存在比两部分Gamma模型更鲁棒或更合适的参数化选择(例如,广义Gamma分布、Box-Cox变换族)?这些选择是否会改变对MNAR模型的选择(即模型I-IV的偏好)?
Maintained by 陈星宇 · Homepage · Source on GitHub