Interval identification of natural effects in the presence of outcome‐related unmeasured confounding¶

作者: Marco Doretti, Elena Stanghellini
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1111/sjos.70055

一、核心问题与贡献¶

①研究了二值处理、二值中介与二值结局设定下，存在与结局相关的未测量混杂时自然直接效应（NDE）、自然间接效应（NIE）及总效应（TE）的识别问题。②核心工具是引入部分常数跨世界依赖（PC-CWD）与Logit恒常（LC）条件来约束跨世界反事实概率，并结合半参数Logistic回归推导部分识别界。③主要贡献是在比传统序列可忽略性更弱的假设下给出了自然效应与总效应的闭式区间识别公式，并利用Delta方法构建了考虑抽样变异性的不确定性区间。

二、基础设定¶

核心概念与符号：
$A, M, Y$：二值处理、二值中介、二值结局；$C$：观测协变量。
$M_a, Y_{am}$：潜在中介与潜在结局。
NDE = $E[Y_{1M_0}] - E[Y_{0M_0}]$，NIE = $E[Y_{1M_1}] - E[Y_{1M_0}]$，TE = NDE + NIE。
PC-CWD (Partially Constant Cross-World Dependence)：部分常数跨世界依赖。
LC (Logit Constancy)：Logit恒常条件。
关键假设：
无未测量的暴露-中介混杂 ($A \perp M_a | C$)：控制$C$后处理对中介的因果效应可识别。相比传统中介分析（需无$A-Y$和$M-Y$未测量混杂），大幅放宽了假设。
PC-CWD：$P(Y_{1m}=1|M_1=m, C) - P(Y_{0m}=1|M_0=m, C) = \delta_m(C)$，即跨世界反事实结局的条件概率差异不依赖于跨世界的中介状态。替代了极强的跨世界独立性假设（$Y_{am} \perp M_{a'} | C$），对反事实概率空间的约束弱于后者。
LC：$\text{logit}(P(Y_{1m}=1|M_1=m, C)) - \text{logit}(P(Y_{0m}=1|M_0=m, C)) = \gamma_m(C)$。在logit尺度上约束处理效应的跨世界恒常性，与PC-CWD结合使得不可识别的跨世界概率可由观测参数与未知常数的函数表示。
问题背景：传统中介分析依赖序列可忽略性，特别是跨世界独立性，在存在结局相关未测量混杂时失效。与 VanderWeele (2010) 的敏感性分析（需指定敏感性参数）和 Tchetgen Tchetgen & Shpitser (2012) 的半参数方法（需无未测量混杂或工具变量）不同，本文走向部分识别，不要求结局混杂的完全可观测性，也不依赖外部工具变量。

三、主要定理 / 核心结果¶

核心发现的量化描述：在半参数Logistic模型下（$P(M=1|A,C) = \text{expit}(f_M(C) + \alpha A)$，$P(Y=1|A,M,C) = \text{expit}(f_Y(C) + \beta A + \gamma M + \kappa AM)$），NDE、NIE、TE的识别界可由观测参数 $(\alpha, \beta, \gamma, \kappa, f_M, f_Y)$ 与未知常数（$\delta_m$ 或 $\gamma_m$）的可行范围显式表达。通过遍历未知常数的可行域，得到效应的上下界。利用Delta方法计算估计参数的渐近方差，进而构建包含模型不确定性与部分识别不确定性的置信区间。
与 baseline 的对比：模拟研究表明，当存在未测量结局混杂时，基于序列可忽略性的点估计严重偏离真实值，而本文的区间估计覆盖真实值；与纯非参数线性规划的 bounds 相比，半参数Logistic约束提供了更紧的识别界。
结论的稳健性：对 PC-CWD 和 LC 假设的轻微违背表现出一定的稳健性（界宽适度增加但覆盖仍可接受）；Delta 方法在中等样本下近似良好。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
跨世界概率参数化：利用 PC-CWD 和 LC，将不可识别的跨世界概率 $P(Y_{am}=1|M_{a'}=m, C)$ 表达为可识别的观测概率与未知常数（$\delta_m(C)$ 或 $\gamma_m(C)$）的函数。
可行域约束：由于概率必须处于 $[0,1]$ 区间，未知常数被约束在特定的可行域内。对 NDE/NIE 的表达式关于未知常数求极值，推导出闭式识别界。
估计与推断：对半参数 Logistic 模型使用 profile likelihood 或标准 MLE 估计参数，代入闭式界公式；使用 Delta 方法计算渐近方差，构建不确定性区间。
核心假设的可信度分析：PC-CWD 和 LC 本质上是对跨世界交互作用的约束。在二值结局下，LC 比 PC-CWD 更强（logit 尺度可加性）。潜在违背在于存在未测量的效应修饰因子。验证困难，通常只能通过敏感性分析（改变 $\delta$ 或 $\gamma$ 的范围）来评估。
稳健性检验策略：模拟中改变跨世界依赖参数的值，观察界的覆盖率和宽度；实证中对比不同模型设定（是否包含 AM 交互项 $\kappa$）。
计算/实现细节：半参数 Logistic 模型中 $f_M(C), f_Y(C)$ 可用任意非参数/机器学习方法拟合，但本文实证中主要使用了参数化近似。Delta 方法需要计算闭式界对参数的偏导数，计算复杂度低。

五、与研究者兴趣的关联¶

连接子方向：Causal mediation analysis 中的 partial identification 与 sensitivity analysis。
可借鉴的核心思路：将不可识别的跨世界反事实概率参数化（如引入 PC-CWD/LC 约束），从而将原本无法求解的非参数边界问题转化为关于少数未知参数的优化问题，得到闭式界。这种"参数化跨世界依赖"的思路可迁移到 Proximal CI 中处理不可识别的混淆桥接函数，或在存在未测量混杂的纵向因果推断中构建部分识别界。
值得精读的关键参考文献：
Tchetgen Tchetgen, E. J., & Shpitser, I. (2012). Semiparametric theory for causal mediation analysis: efficiency bounds, multiple mediators and interventional effects. Epidemiology.（理解半参数中介分析的效率界与跨世界假设的起源）
Richardson, T. S., Robins, J. M., & Wang, L. (2017). On modeling and estimation for the relative risk and risk difference. JASA.（理解 Logit 尺度约束在二值结局部分识别中的技术细节与闭式解推导）

六、延伸思考与练习¶

假设扰动：若将 LC (Logit Constancy) 放宽为一般链接函数的恒常性（如 Probit），识别界的闭式解是否仍然存在？技术上需要什么条件（需满足分布函数的特定代数性质以保证求极值时的解析解）？
开放问题：如何在连续结局或连续中介设定下构建类似的跨世界依赖约束并推导识别界？（连续变量的边界优化通常无法得到闭式解，可能需要依赖矩约束方法或数值优化）。
理解检测题：假设在某数据集中，已知 $P(Y=1|A=1, M=1, C) = 0.8$ 且 $P(Y=1|A=0, M=1, C) = 0.5$。请说明在 PC-CWD 假设下，跨世界概率 $P(Y_{11}=1|M_0=1, C)$ 的可能取值范围，并解释为什么如果没有 PC-CWD 或类似假设，该范围会退化到 $[0,1]$。

Maintained by 陈星宇 · Homepage · Source on GitHub