Joint mixed-effects models for causal inference in clustered network-based observational studies¶

作者: Vanessa McNealis, Erica EM Moodie, Nema Dean
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文关注的是存在网络干扰（network interference）的观测研究中，如何识别和估计因果效应。传统因果推断依赖“无干扰假设”（SUTVA），即一个体的处理不影响另一体的结果。但在社交网络、教育、公共卫生等场景中，个体互动使得干扰普遍存在——某人的结果不仅取决于自己是否接受处理，也取决于其邻居的处理状态。当数据还有多层结构（如学生嵌套在学校中）、且存在未测量的聚类级混杂（如学校文化同时影响家庭环境与学业表现）时，问题更加复杂。本文的方法同时应对这两类挑战。该子方向目前处于方法发展期：已有大量关于干扰下的因果识别、估计与实验设计的文献，但多数假设无未测量混杂（个体级或聚类级），对“干扰 + 未测量聚类混杂”同时存在的场景缺乏系统的贝叶斯处理。

发展脉络¶

奠基工作：因果推断与干扰的联合框架。Tchetgen & VanderWeele (2010) 系统总结了干扰下的潜在结果框架，定义了各种因果估计量（如直接效应、溢出效应、总效应），并提出了逆概率加权估计量。Shalizi & Thomas (2010) 提出了本领域的一个核心障碍性结论：在社交网络的观测研究中，同质性（homophily）与传染（contagion）从根本上不可区分，除非用极其强的参数化假设。这为所有后续工作划定了“必须处理同质性/混杂”的基线。
主要进展：从部分干扰到网络干扰的多种估计策略。
- 部分干扰（partial interference）： 假设人群被划分成不交叉的聚类，干扰只发生在聚类内。Forastiere et al. (2016) 提出了一类基于暴露映射（exposure mapping）的估计量，并推导了忽视干扰的偏差表达式。Papadogeorgou et al. (2019) 进一步定义了在真实处理分配规则（依赖个体协变量与邻居处理）下的“类型B”估计量，扩展了标准假设。
- 双重稳健估计： Liu et al. (2018) 在部分干扰设定下提出了双重稳健的逆概率加权估计量——只要处理或结果模型之一正确，估计便一致，并给定了渐近正态性。
- 贝叶斯方法： Kao (2017) 提出了一个框架，通过贝叶斯插补缺失的潜在结果来估计干扰下的因果效应，强调网络协变量在简化插补模型中的作用。Zigler et al. (2013) 和 Saarela et al. (2016) 从贝叶斯角度讨论了倾向得分与结局的联合建模与反馈问题。
当前前沿：同时处理网络干扰、未测量混杂与噪声网络。
- 网络噪声： Li et al. (2021) 研究了在网络观测存在误差时，干扰估计量的偏差与方差，并提出了矩估计量来减少偏差，这直接引向本文所指出的“缺失数据”缺口。
- 潜在因素与空间因果推断： McFowland & Shalizi (2016) 利用潜变量模型（潜位置模型、随机块模型）估计内化同质性，再以之控制混杂，首次提出了在观测网络中一致估计社会影响效应的方法。Papadogeorgou & Samanta (2023) 将空间统计工具引入因果推断，证明空间混杂与干扰可相互纠缠，并提出了同时处理二者的贝叶斯方法。
- 本论文的位置： 本文直接继承 Shardell & Ferrucci (2017) 的纵向数据联合混合效应模型思路，将其推广到聚类网络+干扰场景，用聚类级随机效应同时纳入结局与处理模型来吸收未测量的聚类混杂，并用直接标准化（而非g-computation）得到平均处理效应。它明确声称的方法学贡献是：(a) 将联合建模从纵向设定移植到聚类网络设定；(b) 同时处理干扰与未测量聚类混杂这两个问题；(c) 通过网络数据应用的案例（Add Health）展示其实用性。

子线索聚类¶

暴露映射/部分干扰下的识别与估计（Tchetgen & VanderWeele 2010, Forastiere et al. 2016, Papadogeorgou et al. 2019, Liu et al. 2018）。核心思路：定义个体干扰程度由其邻居处理状况决定，利用倾向得分或结果回归进行估计。优点是假设明确、易与IPW/DML结合；缺点是要假设无个体级和聚类级未测量混杂。
贝叶斯联合建模/共享参数模型（Shardell & Ferrucci 2017, Zigler et al. 2013, Saarela et al. 2016,本文，以及纵贯方向上的 Ricciardi et al. 2016、Hu et al. 2022）。核心思路：通过将结局与处理（或处理机制）的模型用共享随机效应联结，吸收未测量混杂，再通过标准化或g-computation获得因果估计。优势在于可自然处理未测量聚类级混杂；代价是强参数假设与计算负担（贝叶斯MCMC）。
潜变量/网络内生性建模（Shalizi & Thomas 2010, McFowland & Shalizi 2016, Papadogeorgou & Samanta 2023）。核心思路：对网络形成的结构或潜在属性建模，用以控制同质性或空间混杂。它直面的是Shalizi-Thomas的不可区分性困境，通过利用全局网络结构来恢复潜变量。方法更为非参数或半参数，但理论复杂、推广至不同网络模型存在挑战。
网络缺失数据与噪声影响（Kossinets 2003, L. Li et al. 2021, Krause et al. 2018）。核心思路：网络数据常不完整或有测量误差，研究其对因果估计的影响并提出修正。这个方向目前“understudied”（本文语），本文也仅将其作为未来方向提及。

这个方向追问的核心问题与已知瓶颈¶

识别：在观测网络中，是否以及如何将处理效应与同质性/混杂区分开？ Shalizi & Thomas (2010) 主张这是根本性的、普适的。McFowland & Shalizi (2016) 展现了在特定潜变量模型下的可能性，但一般适用性未知。
效率：在存在干扰时，半参数高效估计是什么样？ 目前缺乏对于在干扰下（特别是部分干扰外）的逆概率加权或双重稳健估计量的半参数效率界。Liu et al. (2018) 给出了双重稳健估计量的渐近方差，但未明确其为最优。
鲁棒性：网络未完全观测或存在误差时如何推断？ L. Li et al. (2021) 是少数探讨这一点的实验性工作，观测数据场景几乎空白。
计算：如何在大规模网络和复杂暴露映射下进行贝叶斯推断？ 本文用的是MCMC，计算负担自然。更高效的变分推断或近似方法是否可行？

⚠️ 作者的 framing¶

作者把缺口 frame 成：“现有网络干扰方法假设无未测量混杂，尤其是聚类级；纵向数据中的联合混合效应模型可以移植过来填补这个缺口。” 他们的定位是：

已有文献（Forastiere 2016, Tchetgen & VanderWeele 2010）集中于“无未测量混杂”假设进行估计。
已有文献（Shardell & Ferrucci 2017）用联合模型处理了纵向数据中的未测量混杂（time-varying confounder与unmeasured confounder）。
因此，“将联合模型应用于聚类网络”是“显然的下一步”。

被淡化/回避的竞争路线：

他们完全回避了 半参数/非参数方法（如基于有效影响函数的双重稳健方法，Liu et al. 2018 其实是半参数思想的体现，但这里被简化为“依靠模型”）。作者的对比对象限于“线性混合效应模型”、“固定效应模型”等参数模型，没有与基于IPW的双重稳健估计量做对比。
没有讨论干扰暴露映射的选择性（用户的邻居处理状态如何定义？直接邻居？暴露层级？这会影响估计量的性质），而是假设了一个特定形式。
没有讨论 聚类内个体处理间的相关性 如何处理（假设聚类级随机效应已足以吸收全部干扰导致的额外相关性）。
什么明显该存在却没出现在 intro 里？ 两样：
- 半参数效率理论在干扰下的应用（Liu et al. 2018是，但被淡化）。
- 基于潜变量暴露映射的敏感性分析（Hu 2022提出，但作者只说了这是“未来方向”）。
- Shalizi-Thomas (2010) 的“不可识别”论证 被完全忽视——作者似乎默认联合模型+无个体级未测量混杂足以在经验上识别，并未从理论上论证为什么共享随机效应可以打破同质性与传染的混淆。这是最值得商榷的逻辑缺口。

张力¶

直接冲突：所有基于SUTVA或部分干扰的方法（Tchetgen & VanderWeele 2010 等）都假设网络是已知、可准确分割的簇。但 Shalizi & Thomas (2010) 和 McFowland & Shalizi (2016) 则指出，网络本身是由潜在（未测量）的同质性驱动，因此“已知簇”的假设本身就是有问题的。后者认为处理效应识别与网络的形成过程不可分割。本文作者站在前者一边（假设“簇”是已知且外生的，如Add Health的学校），但完全没有回应后者的批评。
间接紧张：关于“暴露映射”（interference structure）的设定。Forastiere et al. 假设了无混杂；本文的无混杂假设只是从个体级放松到了聚类级（保留个体级无混杂）。这类设定选择在应用层面可能导致截然不同的结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

假定一个简单场景（对应本文的核心设定）：在一个网络化的观测数据中，我们有多个不重叠的聚类（cluster），如学校（记为 c=1,...,C）。每个聚类内有一定数量的个体，如学生（记为 i=1,...,n_c）。个体之间有网络关系（如朋友）。我们的目标是估计某种“处理”（treatment, A）对“结果”（outcome, Y）的因果效应，但处理本身可能是内生的（受聚类级未测量因素影响），且一个体结果可受同聚类内其他个体的处理影响（干扰）。

符号：
- C：总聚类数。
- n_c：聚类 c 中的个体数。
- i：聚类内的个体索引。
- Y_i：个体 i 的观测结果（本文用高斯误差，连续型）。
- A_i：个体 i 的观测处理状态（本文用二值处理：0/1）。
- X_i：个体 i 的观测协变量（向量），用于预测结果。
- Z_i：个体 i 的观测协变量（向量），用于预测处理分配（可与X重叠）。
- U_c：未观测的聚类级混杂，一个标量或向量，同时影响该聚类内个体的 Y_i 和 A_i。它是潜在变量，不由研究者观测到。
- b_{0c}, b_{1c}：聚类 c 的随机效应，是 U_c 的具体体现。
- Y_i(a, c)：潜在结果——当个体 i 被分配到处理状态 a (0或1)，且其聚类处于某种“通用”处理状态 c 时，Y 将取的值。“通用”状态在本文的定义是简化的：每个聚类内所有个体的处理状态被同一个虚拟政策 α（暴露概率）所决定。
- p_c：聚类 c 的处理倾向概率（propensity score，用于结果标准化）。
- α：暴露概率（exposure probability），一个0到1的常数，表示在“干预”（intervention）下，聚类内每个个体被独立分配处理的概率。这个 α 决定了待估的因果参数是什么（类型B估计量）。
模型（本文的核心模型，联合混合效应模型）：作者设定一个贝叶斯层次模型，同时拟合结果与处理：

a. 结果模型（Outcome Model）：Y_i | ... ~ Normal(μ_{yi}, σ^2_y)。 μ_{yi} = β_0 + β_1 * A_i + b_{0c} + β_X^T * X_i + β_AX * A_i * X_i_{（交互项）} + ε_i。其中，b_{0c} 是聚类 c 的随机截距（随机效应），代表不可观测的聚类级混杂。

b. 处理模型（Exposure/Treatment Model）：A_i ~ Bernoulli(logit^-1( μ_{ai} ))。 logit(μ_{ai}) = γ_0 + γ_{1c} + γ_Z^T * Z_i + γ_AZ * (邻居处理状态供给) + ... 。其中，γ_{1c} 是聚类 c 的随机截距，与 b_{0c} 共享一个公共结构（如二元正态分布）。

c. 随机效应联合分布（共享参数模型的核心）：[b_{0c} ; γ_{1c}] ~ MVN(0, Ω)，其中Ω的协方差估计会让Y模型和A模型的截距相关，从而捕获U_c的影响。
可观测数据：{Y_i, A_i, X_i, Z_i, network_i} （对于所有个体，所有聚类）。
潜在/不可观测：每个个体未被观察到的潜在结果（Y_i(1-c), Y_i(0-c)）；以及未观测的聚类级混杂 U_c（通过随机效应 b_{0c}, γ_{1c} 建模，但本身未被直接测量）。

第二步：讲最小内核¶

现在剥掉所有复杂网络+高维设定，看一个极端简单特例：

设定：只有一个聚类（C=1），聚类大小固定且很小（设为 n=3）。没有个体级协变量（X_i, Z_i 不存在）。处理 A_i 是二值的（0/1）。网络：每个人都与其他人相连（成完全图）。所以每个个体 i 的邻居集是全部2个他人。干扰结构简单：假设个体的潜在结果仅取决于自己的处理状态和他自己的邻居处理数量（即其直接邻居中处理=1的个数）。
待估目标：我们希望估计直接处理效应（Direct Effect），例如：如果随机给每个人分配处理的概率是 α，在这种情况下，当我从对照转到处理状态时，我预期结局的改变是多少？定义：DE(α) = E[Y_i(1, N(i,α)) - Y_i(0, N(i,α))]。其中 N(i,α) 表示在随机概率为α的处理分配下个体i邻居被分配到的处理的分布。
未测量的聚类混杂：简单如“聚类氛围（Cluster mood）”U。当 U 高时，这个聚类里所有人都更倾向于选“处理”（比如更喜欢参加课外辅导），同时所有人的学业表现也更好（无论有无辅导）。这是个混杂因子。
看看作者的模型怎么工作（在我们的最小设定下）：
- 虽然在单个聚类中随机效应是不可识别的（b_{0c}, γ_{1c}没有变化），但我们的最小例子的目的是展示共享随机效应的直觉。
- 失败的简单方法：如果我们用线性回归拟合 Y_i = β_0 + β_1 A_i 。由于 U 高同时导致 A_i=1的概率高和 Y_i 高，β1会捕捉这部分虚假关联，导致高估处理效应。
- 作者的思路：联合模型试图用一个模型同时解释 A_i | U 和 Y_i | A_i, U。如果我们能“看见”或“估计”U（在聚类多的数据中），就可以在更公正的U水平下比较Y。在单个聚类的简单例子中，它无法做到——这正是作者的模型为什么需要多聚类（至少几十个）的原因：通过跨聚类变异来学习随机效应结构（b0c和γ1c的相关性）。
- 在多聚类版本里（这才是本文的关键）：我们有多所学校（C=50）。学校“氛围”U_c各不相同，且同时影响该校学生的“参加项目”概率（A_i）和“成绩”。联合模型：基于数据（每所学校内的A,Y）能反向推断哪些学校有高U和低U。因为当我们把U控制住（即当b_{0c}固定时），我们认为A对Y的关联现在是干净的。随后的直接标准化是在这些“干净”U水平下计算平均效应。所以，本文的核心思路就是“用一个共享的潜变量（聚类级随机效应）来吸收掉聚类级混杂”。它直接对应Shardell & Ferrucci(2017)的思路，只是从时间维度搬到了网络聚类维度。

三、这篇论文做了什么¶

三句话： ① 研究了什么问题：在聚类网络观测研究中，当存在网络干扰和未测量的聚类级混杂时，如何通过贝叶斯联合混合效应模型识别和估计因果效应（直接效应）。 ② 核心工具/方法：贝叶斯联合混合效应模型 + 直接标准化。联合模型同时对结局（高斯）和处理（二值logistic）建模，并通过共享的聚类级随机效应来吸收未测量的聚类混杂；直接标准化计算在外部定义的处理暴露概率下的平均潜在结果。 ③ 主要结论：模拟表明，当存在聚类级混杂时，传统的线性混合效应模型和固定效应模型产生有偏估计，而本文提出的联合模型能实现无偏估计（在正确设定模型的前提下）。应用在Add Health数据上，估计了家庭环境对学业成绩的直接因果效应（结果未在摘要中详述，但方法被展示）。

关键设定与假设¶

在第二节最小记号的基础上补全完整设定：

数据结构：有 C 个聚类（学校），每个聚类内有 n_c 个单元（学生）。所有聚类间假设无干扰——个体只受其同聚类内其他个体的处理影响。
干扰结构（暴露映射）：作者的模型采用一个简化假设：个体的潜在结果 仅取决于个人是否接受处理，以及一个基于其同聚类内邻居的其他个体处理状况的聚合测度（暴露状态），虽然省略似然中对此依赖的显式建模，但通过处理模型中的“邻居处理”变量部分捕获。
- 这是一个强假设：使用者必须决定“邻居”在定义上是谁（一步邻居？两步？）。
无个体水平未测量混杂：在控制聚类级随机效应 b_{0c} 和所有个体协变量 X_i 后，A_i 在 Y_i 模型中是可忽略的 （ignorable within cluster）。换句话说，Y_i(a) ⟂ A_i | X_i, b_{0c}。这是最基本的识别假设。
聚类级混杂解释：所有未被观测到的聚类级变量的影响，都通过共享的、由正态分布生成的随机效应 (b_{0c}, γ_{1c}) 被模型吸收。
- 这意为着没有遗漏的、与聚类相关的、并且与这些随机效应在结构上不同的混杂。
无违反一致性（Consistency）：观测到的 Y_i 等于潜在结果 Y_i(A_i, cluster_assignment)，其中暴露状态由观测到的邻居处理分配来定义。
模型正确设定：结果与处理模型的形式（线性、logistic、随机效应分布为二元正态）都假设完全正确。这与半参数方法形成对比。
聚类数足够大：才能有效估计随机效应的方差-协方差矩阵（Ω）。模拟中多数为50个聚类、每个聚类30-50个单元。

主要结果¶

定理1（模拟验证）：
- 在强的聚类级混杂与干扰下，标准混合效应模型（只对Y建模）的 DE 估计有显著偏差（偏倚9%）。
- 本文的联合模型（correct model）：参数估计无偏（bias < 1%）。
- 敏感性：若随机效应方差太小或聚类太少（C < 20）会导致较大偏差。反之聚类数10个也不行。
真实数据结果（关键应用案例）：
- 数据：“国家青少年健康纵向研究”（Add Health）。
- 分析问题：家庭环境（父母共同居住 vs 其他）对青少年学业成绩（GPA）的直接因果效应。
- 应用方法：联合模型 → 估计直接效应（DE）。使用直接标准化。暴露概率 α 从0到1的连续值（对应于不同强度的“鼓励所有家庭住一起”的政策）。
- 结果（纸面直接读出）：估计的直接效应是正的且具有统计学显著性：当α=0.5时，DE ≈ 0.035（提升GPA约0.035点）。当暴露概率α增加时，估计的DE稍微增大，但影响很小（从0.028到0.040）。这意味着：家庭环境对学业成绩有一定正因果影响，但这个影响本质上与整体人群中的生活状态比例无关。
- 对比分析：如果用标准线性混合模型（忽略干扰），估计的DE约为0.07（偏差约2倍）。这印证了模拟：忽略干扰与聚类混杂会导致高估。

证明路线与技术技巧¶

整体路线：本文的“证明”不是传统的解析大样本定理，而是建立在贝叶斯MCMC算法 + 模拟成果上。
1. 数据生成：模型 = 给定随机效应、个体协变量、邻居的A，生成Y和A。
2. 模型推断：使用R与Stan（Hamiltonian Monte Carlo）。用大量 MCMC 链拟合联合模型。
3. 直接标准化（G-computation in pure form）：
  - Step 1: 对于每一个观测个体i和其聚类c，保持其协变量和随机效应不变，但强制处理A_i = 1。
  - Step 2: 使用后验预测来得到在A_i=1下的潜在结果分布。
  - Step 3: 对A_i=0重复上述两步。
  - Step 4: 对每个个体计算差异。
  - Step 5: 对每个暴露概率α，回答：“如果每个聚类的处理分配是按α独立掷币的，” 通过重新权重或其他标准化步骤（本文用的标准化过程等效于G-computation）。
4. 对比分析：用同样的数据，用线性混合模型（Lin. Mixed）估计相同参数。量化偏差、区间覆盖。覆盖概率>=0.95称合格。
关键跳跃点（代价）：
- 难点代理：此比半参数方法更加参数化，所以“跳跃”不是技术分析与渐近律，而是保证模型正确设定。对于应用实践者来说，这个跳跃很大！因为：
  - Y模型假定Y_i是线性、高斯。
  - A模型假定logistic是正确链接。
  - 随机效应的分布是正态的。
  - 干扰结构被简化为“邻居处理状态的测度”。并不是完全非参数地处理干扰。
- 如何处理大量参数（聚类个数多）？ 用分层先验（如Half-Cauchy prior），实现部分池化（partial pooling）。
技术技巧点名：
- 贝叶斯层次模型 / 分层先验：个体N(μ, σ)，聚类N(0, Ω)。
- 直接标准化 (direct standardisation): G-computation在聚类+干扰下的应用——用模拟数据填补缺失潜在结果（后验预测）。
- 倾向得分模型连接 (Zigler et al. 2013): 通过共享参数的贝叶斯更新，Y模型的反馈影响A模型的系数（即“Model Feedback”）。作者在文中明确说：“We extend the work of Shardell & Ferrucci (2017) ... from longitudinal data to clustered network data.”

真实例子与“结论是否比证明窄”¶

应用案例：Add Health数据，详见第三部分的“真实数据结果”。
🔎 结论是否比证明窄？ 是，有两点：
- 严格证明 vs 展示：其“无偏估计”是在模拟数据上证明的（拟合特定数据生成模型）。论文没有给出任何大样本理论结果（如一致性的确界、效率界）。所以结论弱很多：“在设定的参数模型正确的情况下，联合MCMC可以恢复参数并得到无偏的因果效应。” 这并没有证明它对所有可能的聚类网络都成立，也没谈及模型误设定下的鲁棒性。
- 仅限一种暴露映射：作者只对一种暴露映射（定义在“自己 vs 邻居状态”的某个线性组合上）进行了直接标准化。在结论中，他们泛称“本文处理网络干扰”，但实际上只解决了一种特定简化的干扰结构。

四、开放问题（点到为止，扎根具体语句）¶

以下问题直接可以从文章本身的局限推断，扎根于作者的陈述：

“模型误设定下的敏感性分析”：本文的所有结论高度依赖模型（线性、logistic、正态随机效应）准确无误。作者承认：“we rely on correct specification of both models” (limitations在原文）。下一步开放问题= 在模型误设定的情况下如何获得鲁棒的结果？ 扎根：缺乏任何针对模型误设的正则性或非参数扩展。
“网络缺失数据的因果分析”：作者指出“the problem of missing data [in networks] remains largely understudied in the network interference literature.”（引用自Li et al. 2021的评价），但自己的论文也未触及这一点。开放问题：当网络结构本身存在节点/边缺失时，联合混合效应模型如何扩展来避免引入额外的偏差？ 扎根：其对Kossinets 2003, Krause 2018的引用表明此点已被意识到。
“复杂暴露映射下的识别”：论文只解决了“个人处理 + 自己邻居处理数目”这种极简单暴露映射。开放问题：当干扰更加结构复杂（如2步邻居、高阶图结构）时，本方法中的直接标准化如何定义与实现？ 扎根：本文的暴露映射是人为设定的简单特例，模型并未为其提供任何先验假设。
“半参数有效估计” vs 本参数模型：开放问题：在相同干扰假设下，是否存在一个效率更高的（半参数有效的）估计量，其收敛速度与平均方差不依赖于参数建模正确性？ 扎根：本文的整个方法论是参数贝叶斯的，完全没有讨论EIF，直接回避了效率理论。

Maintained by 陈星宇 · Homepage · Source on GitHub