A sensitivity analysis approach to principal stratification with a continuous longitudinal intermediate outcome: applications to a cohort stepped wedge trial¶

作者: Lei Yang, Michael J Daniels, Fan Li
来源: Biostatistics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1093/biostatistics/kxag004

一、核心问题与贡献¶

①研究了在阶梯楔形集群随机试验（SW-CRT）中，存在连续型纵向中间变量时的主分层因果效应（PCE）识别与估计问题。②核心方法是利用SW-CRT中随时间变化的处理分配机制，引入敏感性参数对连续中间变量不可识别的主层联合分布进行参数化校准。③主要贡献是突破了传统主分层框架对二值中间变量的依赖，在放宽假设的条件下实现了连续中间变量下PCE的部分识别与点估计，并提供了纵向SW-CRT设定下的敏感性分析实操框架。

二、基础设定¶

核心概念与符号：
$Z_{it}$：集群$i$在时间$t$的处理分配（SW-CRT中随时间阶梯式激活）。
$M_i(z)$：潜在中间变量（连续型，纵向），$z \in {0,1}$。
$Y_i(z, m)$：潜在结果。
$G = {M_i(1), M_i(0)}$：主层，由潜在中间变量对定义。
PCE：主层因果效应，$E[Y(1, M(1)) - Y(0, M(0)) \mid G]$。
$\eta$：敏感性参数，用于刻画$M(1)$与$M(0)$联合分布中不可识别的关联结构。
关键假设：
Latent Ignorability：在给定主层$G$和协变量下，处理分配与潜在结果独立。统计学含义：主层内无未观测混杂。相比标准可忽略性，该假设在中间变量受处理影响时更合理，但主层本身不可观测。
Stable Unit Treatment Value Assumption (SUTVA)：无干扰且处理水平唯一。在SW-CRT集群设计中，通常需额外假设集群间无干扰（部分SUTVA）。
Sequential Randomization / Time-varying assignment：SW-CRT的固有设计，处理分配仅由时间决定。该假设比一般观察性研究中的无混杂假设更强且由设计保证，是本文识别边际分布$P(M(z))$的关键。
与已有文献相比：放宽了二值中间变量假设（传统PS产生有限个离散主层，连续变量导致主层不可数且联合分布不可识别），转而通过敏感性分析处理无穷维的不可识别问题。
问题背景：传统主分层方法（如Frangakis & Rubin, 2002）主要针对二值中间变量（如存活/死亡），此时主层数量有限且可识别；连续中间变量导致主层联合分布$P(M(1), M(0))$不可识别，PCE无法直接估计。与最相关文献的区别：不同于Jiang & Ding (2021)等基于工具变量或边界分析的方法，本文结合了SW-CRT特有的纵向时间交错分配结构，利用不同时间截面的数据约束敏感性参数空间。

三、主要定理 / 核心结果¶

核心发现的量化描述：在MSM人群HIV检测的SW-CRT实证中，社会规范作为连续中间变量，PCE的点估计及随敏感性参数$\eta$变动的区间估计（部分识别界）被量化。例如，在特定主层下，处理对HIV检测的因果效应估计为正，且在合理的$\eta$范围内稳健。
与 baseline 的对比：相比于将连续中间变量强行二值化（损失信息且引入主观割点偏误）或单纯计算意向治疗（ITT）效应，本文方法避免了信息损失，分离了中间变量的作用机制，并通过敏感性区间量化了不可识别性带来的不确定性。
结论的稳健性：稳健性高度依赖于敏感性参数$\eta$的合理范围。通过Tipping point分析，展示$\eta$在何种取值下会推翻原结论（如PCE跨越0）。

四、证明框架 / 方法设计¶

识别策略与估计量设计：
边际分布识别：利用SW-CRT的序列随机化，在未受处理和受处理的时间截面上，分别非参数/半参数识别出$M(0)$和$M(1)$的边际分布。
联合分布参数化：由于$M(1)$与$M(0)$从不共存，联合分布不可识别。引入敏感性参数$\eta$（如Copula关联参数或条件期望偏移量），将联合分布$P(M(1), M(0) \mid \eta, X)$参数化。
主层权重计算：在给定$\eta$下，主层$G$的分布可由联合分布导出，从而计算出每个个体落入特定主层的概率（权重）。
PCE估计：利用逆概率加权（IPW）或G-估计，结合主层权重构建PCE的估计方程，实现给定$\eta$下的点估计。
核心假设的可信度分析：Latent Ignorability在随机化试验中通常可接受，但连续主层的联合分布假设完全依赖$\eta$。$\eta$无法从数据中验证，只能通过专家知识限定范围或进行全谱系敏感性分析。
稳健性检验策略：变化$\eta$的取值，绘制PCE随$\eta$变化的等高线图或区间带；检验不同参数化形式（如Gaussian Copula vs. Clayton Copula）对PCE推断的敏感性。
计算/实现细节：采用贝叶斯框架（MCMC）进行后验推断，以自然地传递$M(z)$边际分布估计的不确定性到PCE的区间估计中；纵向混合效应模型用于处理SW-CRT中的集群相关性与时间效应。

五、与研究者兴趣的关联¶

连接到哪个子方向：longitudinal causal inference 下的 principal stratification 与 sensitivity analysis。
可借鉴的核心思路或技术工具：将连续型不可识别潜在结果联合分布通过 Copula 或条件模型参数化为敏感性参数，并结合 SW-CRT 的纵向时间交错结构提供部分识别界的思路。这一参数化校准技巧可直接迁移到其他具有连续型不可观测中间变量（如纵向中介分析、连续型未观测混杂代理变量）的因果识别问题中。
值得精读的关键参考文献：
Frangakis, C. E., & Rubin, D. B. (2002). Principal stratification in causal inference. Biometrics. （主分层框架的奠基之作，理解基本逻辑的必读）
Jiang, Z., & Ding, P. (2021). Identification of causal effects within principal strata using auxiliary variables. JRSS-B. （处理主分层不可识别问题的现代识别理论，对比本文敏感性分析思路的异同）

六、延伸思考与练习¶

假设扰动：若SW-CRT中存在非依从（non-compliance，即实际接受处理与分配处理不一致），识别策略如何修改？此时需要引入额外的敏感性参数，还是可以利用工具变量框架（以分配为IV）重新构建主层？
开放问题：如何在高维协变量下，利用DML或debias技术自动、稳健地估计连续主层的边际分布$P(M(z)\mid X)$，从而减少敏感性分析中因第一阶段模型误设带来的偏误？
理解检测题：假设连续中间变量满足严格单调性 $M(1) > M(0)$ 几乎处处成立。请说明为什么仅凭单调性假设仍无法非参数识别特定主层（如$M(1)=a, M(0)=b$）内的PCE，并指出引入敏感性参数$\eta$具体刻画了联合分布中的哪部分缺失信息。

Maintained by 陈星宇 · Homepage · Source on GitHub