Assessing time-varying causal effect moderation in the presence of cluster-level treatment effect heterogeneity and interference¶

作者: J Shi, Z Wu, W Dempsey
来源: Biometrika
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：在“微随机试验”（micro-randomized trial, MRT）这一纵向因果推断设计下，如何定义、识别并估计一个随时间变化的“因果游走效应”（causal excursion effect），并且允许该效应受到个体时变协变量（moderator）的调节。 MRT 是移动健康领域（mHealth）的核心实验设计——每个参与者在数百个决策点上被反复随机分配干预（如推送一条“走路吧”的消息），目标是评估该干预在推送后短时间窗内的“近端效应”（proximal effect）。该方向的成熟度处于“方法框架已建立、但正从个体独立向集群/网络干扰扩展”的阶段。

发展脉络¶

奠基工作：Liao et al. (2015) 与 Murphy 团队的微随机试验设计
- Liao et al. (2015) 提出了 MRT 的设计原型，并给出了一个用于检验近端效应的检验统计量和样本量计算器。这篇工作奠定了“以决策点为单元的序贯随机化”这一核心实验范式。
- Boruvka et al. (2016)（被引 [1]）正式引入“因果游走效应”（causal excursion effect）的定义——即在一组时间平均协变量上边缘化后的条件平均处理效应。他们提出了基于加权、居中最小平方法（weighted, centred least-squares）的半参数估计量，并证明了其根号 n 相合性与局部效率。这是本方向最关键的统计方法论基石。
- Klasnja et al. (2018)（被引 [4]）的 HeartSteps 试验是该方法的经典应用案例：给 44 名参与者每天最多 5 次随机推送活动建议，分析发现推送建议相对于不推送，30 分钟内步数增加约 14%（基线 253 步），且效果随时间衰减（从初期的 66% 降至后期的无显著差异）。
主要进展：扩展到二进制结局与更广泛的 moderators
- Qian et al. (2019)（被引 [11]）将因果游走效应推广到纵向二元结局，并发现直接从 Boruvka 等人公式出发的 estimator 在高维 nuisance 估计时存在问题，因此发展了一个修正的“目标最小损失估计”方案。
- Dempsey et al. (2017)（被引 [12]）针对 MRT 中的“分层随机化”（当决策时间点是由个体风险预测驱动而非固定时间时）发展了样本量计算公式，并提出了嵌套因果效应的定义。
- Luckett et al. (2020)（被引 [5]）从强化学习角度，提出 V-learning 方法估计最优动态治疗策略——该路线侧重于政策学习，而非直接建模因果游走效应。
当前 frontier：干预（interference）的存在

所有上述方法都假设个体之间独立、无干扰（即 SUTVA 中的“无干扰”部分）。然而，在许多实际 MRT 场景中这一假设面临挑战——例如本文动机中的美国“内科医生健康研究”（IHS）：1,565 名住院医生被随机分配到来自不同教学医院的集群（cluster）中。同一医院（集群）内的医生可能相互影响——如果一个医院的工作文化因干预而改变（如更鼓励休息），那么来自同一医院但未被推送消息的医生也可能受到间接影响。

在非 MRT 的因果推断文献中，已有大量关于干预的工作： - 基础框架：Robins (1986) 的“因果推断的标准假设”被引用作为识别的基础（被引 [3] 提及）。 - 干扰分类：Ogburn & VanderWeele (2014)（被引 [7]）区分了三种干扰机制——直接干扰（直接因果效应跨个体）、感染性干扰（效应通过结果传播）与分配性干扰（处理分配形成组内互动）。 - 部分干扰假设：Papadogeorgou et al. (2019)（被引 [9]）提出了“部分干扰”假设（可完全分割为互不干扰的集群），并定义了基于集群治疗分配策略的因果 estimands。这非常接近本文的设定。 - VanderWeele, Hong, Jones & Brown (2013)（被引 [8]）研究了组随机化试验中的中介与溢出效应，提供了处理集群内部关联的经验框架。
本文的位置：在上述工作中，干扰研究主要针对时间固定（cross-sectional）或只有少量时间点的试验。本文的贡献是将因果游走效应框架从个体独立设定拓展到集群干扰环境，即允许同一集群内部个体的潜在结果相互依赖。作者的选择是在保持 MRT 的序贯动态性（处理时间点→处理分配依赖于历史信息）的前提下，将 Ogburn & VanderWeele 的干扰分类中的“直接干扰”和 Ogburn 等人的“部分干扰”联想到 MRT 的集群设定中。

子线索聚类¶

MRT 设计与因果游走效应的定义与估计（核心线索）：Boruvka (2018), Liao (2015), Klasnja (2018), Qian (2019, 2020), Dempsey (2017)。这一簇的工作在个体独立假设下建立了完整的识别-估计-推断框架。
干扰的因果推断：Ogburn & VanderWeele (2014), Papadogeorgou (2019), VanderWeele (2013)。这些工作提供了处理干扰的识别因果图框架、部分干扰假设、与 estimand 定义。
精度医学/最优干预政策：Luckett (2020)。 V-learning 路线侧重于学习最优策略而非探讨 moderators 本身，与本文的因果游走焦点略有不同。

该方向在追问的核心问题与已知瓶颈¶

如何在 MRT 的纵向、序贯决策框架下，正式定义并识别一个“允许干扰”的因果游走效应？
在给定部分干扰假设下（即干扰仅限于预先定义的集群内部），原有的加权居中最小平方法统计推断（方差估计、渐近正态性）是否仍然成立？若不成立，如何修正？
集群层面的 moderators（比如医院类型、地区资源水平）如何被纳入 causal excursion effect 的定义与估计中，以回答“对于哪些类型的集群，治疗更有效”这一科学驱动问题？

⚠️ 作者的 framing¶

作者将缺口 frame 为：“现有 causal excursion effect 的定义与推断方法（Boruvka et al., 2018）隐含假设了——个体间的独立性与无干扰。但 MRT 中当一个试验内的参与者被嵌套于共享环境的集群（如学校、医院）时，这个假设就不合理了。” 因此，本文的卖点是：“我们将 causal excursion effect 重新定义在包含集群的时间平均协变量上，使得 effect 可以被集群水平的 moderator 调节，并且在合理的部分干扰假设下，仍可用加权居中最小平方法识别和推断。”

被淡化/回避的竞争路线：作者只提到“干扰的存在会给估计带来偏差”，但并没有处理如 Ogburn & VanderWeele (2014) 中更复杂的“感染性干扰”（即处理效果通过结果传染）或者“分配性干扰”的场景。作者默认集群内部的干扰主要是“直接干扰”，即个体 i 的结果也受到个体 j 的治疗分配的影响，但不太受个体 j 的结果的影响。这是一个很强的简化。另外，他们只处理“部分干扰”（cluster-level interference），而对跨集群的一般性干扰（如通过网络连接）完全不做讨论。
什么明显该被引/该存在、却没出现在 intro 里？ 本文未引用任何关于“随机矩阵理论”在高维推断中的应用，也未引用关于“更高阶 U 统计量”或“效率界”在干扰场景下的推导工作。实际上，对于治疗效应在同一集群内个体间存在关联时，传统的“夹心”方差估计有效性只是渐近有效的，但对于有限样本，特别是当集群数量比集群规模小很多时，效率损失可能很大——这点未被讨论或引用。（这是一个潜在的高价值信号：是否有更高效的方法来处理 cluster-level 依赖？）

张力¶

未见明显对立引用。所有的 MRT 文献都几乎在同一条“个体独立”路径上发展。干扰文献则在另一个（非纵向的）路径上发展。本文首次试图缝合这两条线。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号系统：
- 索引：i 表示个体（1, ..., n），c(i) 表示个体 i 所属的集群（cluster）。一共有 K 个集群，集群的索引用 k 表示。集群大小（每个集群中的个体数）可以是变化的，用 N_k 表示。
- 时间点：t = 1, ..., T 是决策点（times）。在 MRT 中，T 很大（几百到上千）。
- 治疗分配：个体 i 在时刻 t 是否被分配了“积极治疗”（如一条短信）。通常记作 A_{i,t}，为二元变量（1 = 治疗，0 = 对照）。可观测。
- 时间平均协变量：Z_{i,t}。这是个体 i 在时刻 t 之前观测到的历史信息（可能包括过去的治疗、过去的结局、时间、星期几等）。可观测。在 MRT 中，效应通常是给定了某一部分协变量（记为 S_t，一般是当前时间与一周中的星期）来边缘化的——即“时间平均”。
- 潜在结果：Y_{i,t+1}(a_i, a_{-i}, ...)，表示个体 i 在时刻 t+1 的结局，其中 . 里面包含了所有个体在时刻 t 的治疗分配信息 a_i 和 a_{-i}（-i 指除 i 以外的个体）。本文的重点是，对于同一集群内的个体 j ≠ i，其潜在结果可能也依赖于 A_{j,t}（即存在干扰）。这就是为什么符号如此复杂。不可观测。实际观测到的只是 Y_{i,t+1}。
- 集群指示：C_i 表示个体所属的集群（一个分类变量，取值 1 到 K）。
模型：
- 数据生成机制：数据由 MRT 的序贯随机化机制生成。在每个时间点 t，对于每个个体 i，有独立于所有历史和潜在结果的随机变量 R_{i,t}（通常称为“触发随机化”）用来决定是否让治疗机会出现。然后，以已知的概率（通常为 0.5）分配治疗 A_{i,t}。这保证了无未观测混杂（序贯可忽略性）与正性（所有治疗路径概率>0）。
- 潜在干扰（模型假设）：本文采用部分干扰假设：个体 i 的潜在结果只依赖于集群 c(i) 内所有个体的治疗分配，跨集群的个体完全不互相影响。
- 协变量：Z_{i,t} 集合分为“时间平均模块” S_t 和“集群水平协变量” C_i 与其他历史。
可观测数据：对于个体 i (i=1,…,n)，观测序列为 {C_i, Z_{i,t}, A_{i,t}, Y_{i,t+1}}_{t=1}^{T}。注意：我们不知道潜在结果，只观测到实际结果。没有任何关于个体间潜在结果的互动的直接观测证据。

第二步：讲最小内核——最简单的特例¶

考虑一个极简的 MRT 设定： - 只观测 2 个个体（i=1，2），且它们属于同一个集群（c(1) = c(2) = 1）。 - 只有单一决策点 t（T=1）。即只有在 t=1 时的随机化，结局在 t=2 被观测。 - 结果是二元的（Y = 0 或 1），且忽略过早的协变量（即我们关心无条件边缘效果，S_t 为空）。 - 治疗被视为随机分配（每个个体接受治疗的概率是 0.5）。

核心思路：在不考虑干扰（即观察个体 1 的潜在结果是否受到个体 2 治疗的影响）时，我们想估计的因果 excursion effect 是：

\[E[Y_{1,2}(A_{1,1}=1) - Y_{1,2}(A_{1,1}=0)]\]

即，当个体 1 收到处理而个体 2 没收到时的处理对个体 1 的平均效果。

但在有干扰的情况下，个体 1 的潜在结果还取决于个体 2 的治疗 A_{2,1}。因此，完整的潜在结果集合有 4 个：Y_{1,2}(a_1=1, a_2=1), Y_{1,2}(1, 0), Y_{1,2}(0, 1), Y_{1,2}(0, 0)。

现在，我们想定义一个聚类水平的 moderator V_{k}（这里 k=1），它可以是一个变量，如“集群规模”或“医院的方人员配置水平”。假设 V_1 是一个二元集群属性（比如 1 = 大型医院，0 = 小型医院）。

本文定义的因果 excursion effect 的个人版针对集群的简化：

\[\Psi(t=1, v) = E\left[Y_{1,2}(1, A_{2,1}) - Y_{1,2}(0, A_{2,1}) \mid V_1 = v \right]\]

这里有两点： 1. 部分干扰下的边缘效应：个体 1 的效应是个体 2 的治疗“被保留在其自然（实际观测）的水平上”的条件。因为 A_{2,1} 是随机分配的，不是给定的一个固定的值（如 1 或 0）。这被称为“个体 2 的自然治疗水平下的个体 1 的期望效应”。 2. 概念缩小：在给定集群属性 V 下。所以如果 V=1 vs V=0，效应不同，就意味着 V 是一个 moderator。

为什么这个特例不能直接推广？ - 真实 MRT 的时间点很多。虽然这里的估算可以用加权最小二乘法（通过 A_{1,1} - \pi_{1,1} 的逆概率加权），但实际应用中，Y_{i,t+1} 对 Z_{i,t}（过去的行为与状态）的依赖很强，导致了 nuisance 函数的复杂性。 - 我们的最小形态展示了本文的核心数学挑战：如何处理从 A_{j,t} 到 Y_{i,t+1} 的跨个体依赖性在估计中的“偏差抵消”机制。这个问题在 MRT 的序贯结构下变得更加复杂。

三、这篇论文做了什么¶

三句话¶

研究问题：在微随机试验（MRT）的设定下，如何定义、识别并估计一个允许集群内部干扰存在且受集群水平特征（cluster-level moderator）调节的“因果游走效应”（causal excursion effect）？
核心方法：作者将 Boruvka et al. (2018) 的“加权、居中最小平方法”扩展到集群水平。关键是修改了 estimand 的定义——不再是个体水平的“孤立”效应，而是将效应表达为“同一集群其他成员在自然（随机化）治疗水平下的条件期望”，从而在识别中自动扣除了干扰带来的偏差。
主要结论：提出的估计量是 \(\sqrt{n}\)-相合的，渐近正态的，且可以通过“夹心”方差估计（cluster-robust standard error）进行有效的推断。该方法在数值模拟和来自“内科医健康研究”（IHS）的真实数据分析中得到验证，显示了压力水平如何调节干预对后续身体活动的影响，且这种调节效应在不同的医院（集群）间存在显著的异质性。

关键设定与假设¶

假设 1：部分干扰（Partial Interference）。个体的潜在结果仅依赖于其所属集群内部其他个体的治疗分配，集群间独立。这是处理干扰时的“黄金标准”假设之一。与 Papadogeorgou (2019) 和 Ogburn & VanderWeele (2014) 的概念一致。
假设 2：序贯无条件可忽略性 & 正性。MRT 的标准设定：治疗分配 A_{i,t} 相对于所有历史和潜在结果是条件随机且在决策点之间的正性概率（>0）上有条件独立的。
假设 3：推断的核心。作者没有强加一个复杂的模型来指定集群内部的干扰模式（如每个人对同一个集群内他人的影响的“影响函数”）。相反，他们利用加权中心化最小二乘法的内在偏移抵消机制绕过了对干扰进行完全建模的需要。也就是说，只要治疗是随机分配的且部分干扰成立，即便是使用简单的线性工作模型，估计量也自动消除了由 cluster-level 共享环境产生的混淆（如医院的文化、资源等）。
因果效应记号的扩展：
- 传统的因果游走效应（无干扰）：
  \[\Psi^*(t, s) = E[Y_{i,t+1}(A_{i,t}=1, \bar{A}_{-i,t}) - Y_{i,t+1}(0, \bar{A}_{-i,t}) \mid S_t = s]\]
  其中 \bar{A}_{-i,t} 是 i 所在集群中其他人的自然（随机化）治疗水平。这里已经意识到需要条件在其他人的随机分配上。
- 加入集群 moderator 后的效应：
  \[\Psi(t, s, v) = E[Y_{i,t+1}(A_{i,t}=1, \bar{A}_{-i,t}) - Y_{i,t+1}(0, \bar{A}_{-i,t}) \mid S_t = s, V_{c(i)} = v]\]
  其中 V_{c(i)} 是集群 c(i) 的一个水平特征（如医院规模、类型）。这允许效应随集群属性变化。

主要结果¶

定理 1（识别）：在假设 1-2 下，\Psi(t, s, v) 可被表达为可观测数据的函数：

\[\Psi(t, s, v) = \frac{E[W_{i,t} \cdot Y_{i,t+1} \cdot A_{i,t} \mid S_t = s, V_{c(i)} = v ]}{E[W_{i,t} \cdot A_{i,t} \mid S_t = s, V_{c(i)} = v]}\]

其中 W_{i,t} 是在基准估计中使用的逆概率权重，用于校正由于 S_t 不同导致的治疗机会不平等（虽然 MRT 通常等概率，但若触发随访受到过去截尾的影响，W 校正了这一点）。

直觉：分子是加权后的治疗条件下的期望结果；分母是相同的加权下的治疗概率——结果被重写为条件均值。

定理 4（估计量的渐近性）：假设使用一个参数工作模型（working model）来拟合 \Psi(t, s, v)，如：

\[\Psi(t, s, v) = \beta_0 + \beta_1 s + \beta_2 v + \beta_3 s \times v\]

通过加权居中最小平方法（WCLS）估计出 \hat{\beta}。那么，hat{β} 是 β 的 \(\sqrt{n}\)-相合且正态的估计量，并且协方差可以用“三明治”矩阵（sandwich estimator）来估计，该矩阵考虑到了集群内部的依赖当（即个体 i 和 j 在同一集群时，(ε_{i,t}, ε_{j,t}) 是相关的）。

条件要求：工作模型不需要正确（即模型可以指定错误，估计量仍然对参数 β 相合）。它保证了即使完全忽略干扰结构，在部分干扰下，估计也是稳健的。这是关键的渐近性质。

证明路线与技术技巧¶

第一步：将原始双倍复杂的因果量转化为矩条件。通过精心定义的权重 W_{i,t} 和治疗指示 A_{i,t}，作者的识别公理实际上将估计量变成了个体水平估计方程的和。这是 WCLS 的标准设计。
第二步：建立渐近正态性。在集群数量 K 趋于无穷而集群大小固定的序列设定下，可以通过对集群内残差的和应用 Lindeberg-Feller 中心极限定理来证明。关键是认证残差是均值为零且序列无关（在时间点上，通过 MRT 的序贯随机化）。
第三步：干扰项的处理。同一集群内的两个个体 (i, j) 的残差不是独立的（因为存在共享环境和干扰）。但作者在“夹心”方差估计中使用“集群聚类”来捕捉这种相关性：cov(ε_i, ε_j) ≠ 0 对于 c(i) = c(j)。证明中需要证明方差估计的一致性，这依赖于对矩阵的 Lowner-阶的正确估计和一个稳健的方差公式。

技术技巧： - 加权与中心：将线性回归目标 Y 中心化后，干扰的影响被“吸收”到偶发项（intercept）中，而不影响斜率（参数 β）。这是关键技巧——不是建模干扰，而是利用设计（随机化）与工作模型的灵活性使干扰不影响核心效应的估计。 - 鞅差序列：利用 MRT 的序贯随机化，确认“A_t - π_t”与“残差”是时间鞅差序列，从而在新点上不允许偏差累积。 - 夹心方差：虽然是传统工具，但用于紧密地捕捉同一集群内个体的相关结构。

真实例子与应用¶

数据：美国多机构“内科医生健康研究”（IHS）的数据。样本：1,565 名内科住院医生，分布在 13 个医学教学机构（集群），每人被随访 6 个月（约 180 个每天决策点）。其中，一个关键的集群水平特征是疲劳程度/压力（用每日自我报告的“压力水平”测量）。目标是测试是否推送“进行喘息活动”（如提醒休息、做心理放松练习）能够降低随后 2 小时内的主观压力。

方法应用： - 定义集群水平的 moderator V 为“医院类型”（大型教学医院 vs 社区医院）或“医院内的压力文化”（用医院访间出的平均值作为代表）。 - 拟合了一个时间累积效应，来估计在处于高压环境中的集群（大型医院）里，微量推送的效应是否优于低压力环境的集群。 - 在模型中纳入交互项 (V × A_t) 来捕捉调节效应。

结果： - 总体上，推送“喘息活动”在推送后 2 小时内显著降低了主观压力水平（约降低 0.05 个标准差）。 - 这种减压效果在院区水平显著异质：在大型教学机构，减压效果更强（降低 0.10 到 0.15 个标准差）；而在社区医院，效果不显著甚至相反。 - 进一步展示，当 cluster moderator 为人际交互（“我是否被超负荷工作包围？”）时，集群水平的调节效应对研究结论提供了实质性洞察：对医疗环境文化的了解，对于决定何时、对谁推送微干预是有帮助的。

这个例子要说明：忽视集群水平的异质性与干扰，可能会导致对整体平均效果的过度简化（甚至可能是错误的）。“近端效果”并不是所有患者都一样的；作者的方法让研究者能够解码集群特征如何干涉治疗的有效性。

🔎 结论是否比证明窄？¶

窄的结论 1：理论证明要求集群数 K → ∞ 或集群数足够多（在模拟中 K ≥ 50 时约 0.05 的覆盖率和 0.05 的直径偏差）。但 IHS 数据只有 K=13。作者做了一个模拟，在 K=13 下模型覆盖“接近额定水平”——但这不是证明，只是模拟。理论上这种方式在有限集群下，夹心方差估计可能会严重欠估计方差（高估类型 I 错误）。原文中提及需要在集群数更大的情况下进一步验证真实数据。
窄的结论 2：假设部分干扰条件（假设1）成立，即集群内个体干扰模式是唯一的且对称的。现实世界中的医院，不同科室间医生的互动可能比同一科室更频繁，导致“集群”不是医院而是科室——这个边界是模糊的。作者没有拓展到“接触矩阵”干扰模式——这比部分干扰更复杂。他们写的结论（如“方法可以用于评估集群水平 moderators”）只在部分干扰的假设下被严格证明。

四、开放问题（点到为止，扎根具体语句）¶

超有限集群数下的推断：原文在模拟部分提到 K = 13 时“coverage is near nominal”，但没有任何理论提供有限集群的 Berry-Esséen 界或 bootstrap 修正。这是一个缺口：能否给出更严格的有限 K（比如 K <= 30）下的偏差-方差补偿？（扎根于Section 6 模拟：仅有 13 clusters 时覆盖概率的图 2 和 3）。
跨集群的干扰（而不是部分干扰）：本文假设干扰被完美地限制在预先定义的集群边界；若存在跨集群的网络干扰（如医院 A 的医生朋友在 B 医院），理论会彻底崩溃。（扎根于Assumption 1：部分干扰）。
效率界的推导：本文对 estimator 是根号 n 相合的，但未 claim 它是 efficient。给定 cluster 水平的干扰，这里的半参数效率界是什么？估计量是否能够达到？如果能用 HOIF 方法推导其 influence function，则可能得出更优的、在集群数少时更稳定（更小估计方差）的估计量。（扎根于Section 5：没有讨论效率界，仅讨论了相合性与方差估计）。
时间上更复杂的干扰模式：假设干扰模式是不随时间变化的（不依赖于过去的结果）？这篇文章的所有推导都是基于同一时刻的交叉干扰（contemporaneous interference）。如果存在“延迟干扰”（个体 i 对个体 j 的结果影响持续多天），则时间序列上的依赖更复杂，当前的 WCLS 方法可能失效。（扎根于Section 2：在同一时序内定义的潜在结果依赖同一时间点的处理，未涉及延迟效应）。

顺带提醒：要确认上面第1条（有限 K）是否为真 gap，找5-10篇关于聚类因果推断（特别是 cluster-RCT 和 group-randomized trial）的近年论文的引言——如果大部分都在强调有限集群下的推断问题，说明这是共识，是一个值得直接下手的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub