Heterogeneous treatment and spillover effects under clustered network interference¶

作者: Falco J. Bargagli-Stoffi, Costanza Tortú, Laura Forastiere
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所处的子方向是存在网络干扰（interference）的因果推断中的异质性效应估计。根本的科学问题是：当个体之间存在关联（如社交网络、同一社区），一个个体是否接受处理（treatment）会影响其自身以及其连接个体的结果，此时如何不仅估计平均的直接/溢出效应，还能识别出这些效应在不同子群（依个体、邻居或网络特征定义）中如何变化。该方向当前的成熟度属于“快速发展期”：在无干扰的异质性估计（因果树、因果森林等）和存在干扰的平均效应估计两个子领域已分别打下坚实基础，但将二者结合（即可识别异质性、又不怕干扰的方法）是本文试图填补的缺口。

发展脉络¶

奠基工作：对干扰的认识与处理（~2010–2013）
Tchetgen & VanderWeele (2010)：正式建立了干扰下因果推断的概念框架，定义了平均直接/溢出效应等 estimand，并给出逆概率加权估计量。这是该子领域的基础语言。
Aronow & Samii (2013)：进一步在随机化框架下给出了干扰下的单位级因果效应的 Horvitz-Thompson 估计量，并建立了渐近正态性。它为后续基于设计的方法铺平了路。
这两篇工作的共同缺口是：它们聚焦于平均效应，不涉及效应如何随协变量变化（异质性）。
分支一：无干扰下的异质性效应估计（~2011–2019）
Athey & Imbens (2016, 即 Recursive partitioning for heterogeneous causal effects)：提出因果树（Causal Tree, CT），用递归分区识别处理效应异质性，并引入“诚实（honest）”估计（分样本拆分区与估计）来获得有效置信区间。这是树方法估计异质性因果效应的奠基。
Wager & Athey (2018, 即 Estimation and Inference of Heterogeneous Treatment Effects using Random Forests)：将因果树推广为因果森林，给出点态一致性与渐近高斯性，并证明了可构造有效置信区间。首次提供了树方法在异质性估计上的完整大样本理论。
Athey, Tibshirani & Wager (2019, 即 Generalized random forests)：进一步将框架扩展到一般的局部矩条件（量），统一了分位数回归、IV、CATE 等问题的树方法。
这些工作的共同缺口：均假定无干扰（SUTVA），没有考虑个体间的溢出效应。
分支二：存在干扰下的平均效应估计（~2014–2020）
Forastiere et al. (2018, 2020)：在观察性研究中提出“邻域干扰（neighborhood interference）”假设，并给出基于广义倾向性得分的协变量调整估计量，用于估计平均处理和溢出效应。
这些工作的共同缺口：它们估计的是平均效应，不提供异质性分析。
分支三：存在干扰下的异质性效应估计（本文的位置）
本文（Bargagli-Stoffi, Tortú, Forastiere, 2024）明确站在前两条线索的交汇点：它直接修改无干扰下的因果树（Athey & Imbens, 2016），将 Horvitz-Thompson 估计量（Aronow & Samii, 2013）作为分裂准则中的效应度量，从而在存在聚类内干扰时也能无偏估计异质性的直接/溢出效应。

子线索聚类¶

无干扰下的异质性效应（分支一）：CT、Causal Forest、GRF、BCF、Virtual Twins。方法核心：递归分区 + 核加权 / 模型分裂准则，适用于 SUTVA 设定。
存在干扰下的平均效应（分支二）：Aronow & Samii (2013) 的 HT 估计量、Forastiere et al. (2018, 2020) 的广义倾向性得分方法。方法核心：逆概率加权 / 倾向性得分，适用于“邻域干扰”或“聚类干扰”设定。
网络干预 / 最优目标策略：Valente (2012) 的“网络干预”、Kempe et al. (2003) 的“influence maximization”。本文用异质性结果来指导这类策略。
社区检测（半相关）：Fortunato (2010)。本文的 future work 提及若网络本身无自然簇，可先检测社区再用此方法。

这个方向在追问的核心问题¶

Q1：当存在干扰时，如何无偏地识别处理效应与溢出效应的异质性？
Q2：用什么准则来决定分裂点（split），使得分裂后的子组间效应差异最大化，且子组内的效应在整个子组上具有无偏估计？
Q3：如何构造有效的统计推断（置信区间、假设检验）？——在存在干扰和递归分区下，方差估计尤其复杂。
当前主流方法与已知瓶颈：主流是“先忽略干扰做因果树/森林再讨论稳健性”（这会带来偏误），或“只估计平均效应不讨论异质性”。本文试图同时解决这两个问题。

⚠️ 作者的 framing¶

作者把缺口 frame 成什么：作者的核心叙述是——“Causal tree and causal forest 在存在干扰时会获得有偏的估计，但至今没有人修改它们以适应干扰”。他们将自己定位为“把无干扰的树方法扩展到干扰下的第一个系统性工作”。引用句如："The bulk of causal inference theoretical and data-driven literature on heterogeneous causal effects rules out the presence of interference" —— 然后他们强调这是“a significant gap”。
哪些竞争路线被淡化或回避：
作者淡化了因果森林在存在干扰时有多健壮的可能性（只字未提如果集群足够小/干扰有限，因果森林是否可能仍适用）。
作者回避了不可观测的网络结构问题——他们假设聚类是已知的（given clusters），如果聚类检测有误差会怎样，只放在 future work 一句带过。
什么明显该被引/该存在、却没出现在 intro 里：
他们没有引用任何有关在干扰下做异质性效应估计的现有方法——即使是非树方法。这可能意味着该子问题确实之前无人做，但 Ogburn et al. (2017)（虽被引用但放在 observational study 的干扰平均效应下）、Sofrygin & van der Laan (2017) 的 TMLE 在干扰下的扩展都被引用，但都只用于平均效应。因此没有明显的缺失。

张力¶

未见明显的对立引用。所有被引工作在各自设定下结论一致，并无在同一设定下得出相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( i \)：单元（个体）索引，\( i=1,\dots,N \)。\( N \) 为总体大小。
\( c \)：聚类（cluster）索引，\( c=1,\dots,C \)。每个聚类 \( c \) 有 \( n_c \) 个个体。请注意 \( N = \sum_c n_c \)。
\( Z_i \in \{0,1\} \)：个体 \( i \) 的处理分配。对于整群随机化（cluster randomization），\( Z_i = Z_c \) 对 \( i \) 在 \( c \) 中成立。但本文允许一般随机化，如 Bernoulli 或完全随机化。
\( A_i \)：个体 \( i \) 的处理暴露（exposure）——可以是自己接受到的直接处理，也可以包含邻居的处理。在简单情况下，\( A_i = Z_i \)，但溢出效应通过邻居的处理影响 outcome。
\( Y_i \)：个体 \( i \) 的观测结果（观测到的）。
\( Y_i(\mathbf{z}) \)：潜在结果（观测不到的）——在全体处理分配向量 \( \mathbf{z} \) 下的结果。
\( \mathbf{X}_i \)：个体 \( i \) 的协变量向量（可观测）。
\( \mathbf{N}_i \)：个体 \( i \) 的邻居特征向量——可能是邻居的协变量均值、邻居的处理比例等。这是可观测的（由邻居的协变量计算）。
\( \mathbf{G}_i \)：个体 \( i \) 的网络特征向量——如度数、聚类系数等。可观测。
\( \tau_i = \mathbb{E}[Y_i(1) - Y_i(0)] \)：（个体处理效应，但受干扰影响可能不是 CATE 的标准形式）。
\( \delta_i = \mathbb{E}[Y_i(Z_i=0, \text{at least one neighbor treated}) - Y_i(Z_i=0, \text{no neighbor treated})] \)：溢出效应的一种定义。
模型：
作者的基本假定是部分干扰（partial interference）与聚类内干扰：在同一聚类内的个体间可能存在干扰，但不同聚类之间无干扰。这是最关键的模型约束。
假定 1：无干扰跨聚类（Causal Network Stability; CNS）：\( Y_i(\mathbf{z}) = Y_i(\mathbf{z}') \) 如果对所有与 i 同聚类的个体 j，\( z_j = z_j' \)。换句话说，结果只依赖于同一聚类内所有个体的分配。
假定 2：弱 BART 干扰形式 (Weak BART interference, 本文的简化版本)：实际使用时，作者假设结果只依赖于自己的处理和一个聚合的“邻居暴露度量”如“邻域中被处理的个数/比例”，而不是全部邻居个体级别的暴露。
可观测数据：
研究者可以真实观测到：
- 每个个体的处理分配 \( Z_i \)（在随机化实验中是知道的；在观察性研究中需假设 unconfoundedness）。
- 每个个体的结果 \( Y_i \)。
- 每个个体的协变量 \( \mathbf{X}_i \)。
- 每个个体的邻居列表（即网络结构，或至少聚类归属：谁和谁在同簇）。
- 由邻居信息计算出的邻域特征 \( \mathbf{N}_i \) 和网络特征 \( \mathbf{G}_i \)。
想要但观测不到：
- 单个个体在另一种处理分配下的潜在结果 \( Y_i(\mathbf{z}') \)（counterfactual）。
- 个体在“邻居全部不处理”时的结果与“邻居部分处理”时的结果的差异（需要 impute）。

第二步：讲最小内核——最简单的特例¶

特例：假设只有两个个体，且它们在同一个簇内。令 \( i = 1, 2 \)。可观测数据：每人一个协变量 \( X_1, X_2 \)，一个处理分配 \( Z_1, Z_2 \in \{0,1\} \)，一个结果 \( Y_1, Y_2 \)。假定无跨簇干扰（因为只有一个簇，自然满足）。干预分配是完全随机化的：\( Z_1, Z_2 \) 独立 Bernoulli(0.5)。

目的：识别处理效应和溢出效应的异质性——具体来说，处理分配 \( Z_1=1 \) 对个体 1 的结果 \( Y_1 \) 的效应，是否依赖于 \( X_1 \) 或 \( X_2 \)？而 \( Z_2=1 \) 对个体 1 结果的溢出效应是否依赖于 \( X_2 \)？
无干扰下的错误做法：经典因果树会直接用 \( Y_1 \) 和 \( Z_1 \) 来分裂，但忽略了两件事：① \( Y_1 \) 不仅受 \( Z_1 \) 影响，也受 \( Z_2 \) 影响；② 如果 \( Z_2 \) 在子组间分布不同，估计会有偏。
NCT 的核心思路（这个特例下）：
定义四个单位级 estimand（对于个体 1）：
- \( \tau_1(X_1, X_2) = \mathbb{E}[Y_1(Z_1=1, Z_2=0) - Y_1(Z_1=0, Z_2=0) \mid X_1, X_2] \)：直接处理效应（邻居不处理）。
- \( \delta_1(X_1, X_2) = \mathbb{E}[Y_1(Z_1=0, Z_2=1) - Y_1(Z_1=0, Z_2=0) \mid X_1, X_2] \)：溢出效应（自己不处理，邻居处理）。
- 以及“联合效应”、和“间接效应”等，但本文重点在这是两个。
注意：如果 \( Z_1=0, Z_2=1 \) 与 \( Z_1=0, Z_2=0 \) 是可观测到的处理组合，但每个个体只对应一种观测组合——这是混杂。
Horvitz-Thompson 估计量：对于个体 1，如果它被观察到的处理组合是 \( (z_1, z_2) \)，则其“贡献”是 \( \frac{Y_1}{\Pr(Z_1=z_1, Z_2=z_2)} \)。在随机化下，概率分母已知，因此可无偏估计均值。例如估计 \( \mathbb{E}[Y_1(Z_1=1, Z_2=0)] \) 就是用所有 \( Z_1=1, Z_2=0 \) 的个体 1 的 \( Y_1 \) 除以该分配的概率，再求和。然而由于只有两个个体，样本量太小——这只是一个概念例子。
分裂准则：因果树在分裂节点时比较候选分裂两侧的性差的差异性。在原因果树中，使用的是样本平均处理效应（SATE）的差异。在本例中，NCT 将分裂准则改为：比较节点中基于 HT 估计的 \( \hat{\tau}_1(X_1, X_2) \) 与子节点中同样的估计量的差异——用 HT 估计每个子节点的平均直接效应，然后用两者的差异来作为分裂提升判断。具体来说，作者将适任性统计量（goodness of fit）\( \Delta_{\text{treat}} \) 定义为：
\[\sum_{i \in \text{左子节点}} (Y_i - \mu_{\text{left}})^2 - \sum_{i \in \text{左子节点}} (Y_i - \hat{\tau}_{\text{left}}(X))^2 - \text{（类似右子节点项）}\]
其中 \( \mu_{\text{left}} \) 是左子节点下无调整的HT估计量，\( \hat{\tau}_{\text{left}}(X) \) 是用协变量调整后的HT估计量。
关键点：在这个特例中，虽然只有 2 个个体，但在一般情况下（N 很大），HT 估计量在整个簇的分配上是无偏的（由随机化保证），因此分裂准则不会引入干扰所致的偏误。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在存在聚类内网络干扰的情况下，如何利用树方法估计个体、邻居及其网络特征对处理效应（直接）和溢出效应的异质性调节作用。
核心工具/方法：提出“网络因果树（Network Causal Tree, NCT）”，将 Athey & Imbens (2016) 的因果树扩展至干扰设定，核心修改是用 Horvitz-Thompson 估计量代替简单的样本平均值作为分裂准则中的效应度量，并同时估计处理和溢出效应的异质性。
主要结论：模拟显示，当存在干扰时，NCT 比忽视干扰的因果树有更低的偏差和更高的效应估计精度在目标子组上；实际例子（中国农村天气保险信息推广）中，NCT 发现了重要且可能被遗漏的异质性模式（例如，在某些子组中，邻居信息分享存在负的间接受益效应）。

关键设定与假设¶

假设 1：Causal Network Stability (CNS) 或称为 Partial Interference：给定已知的聚类划分 \( C \)，一个单元的结果只依赖于同一聚类内所有单元的处理；不同聚类间无干扰。这比“邻域干扰”更强（假设所有同一聚类的个体都会影响彼此，而不仅是最近邻），但比全局干扰更可处理。
假设 2：Treatment assignment 是可忽略/随机的（实验性干预）：本文主要讨论的是随机化实验，其中 \( Z \) 的分布是已知的。他们未正式拓展到观察性研究。但在 NCT 分裂准则中，HT 估计量依赖已知的倾向性得分（在实验中是已知的）。
假设 3：Weak BART Interference（作者在使用时的简化）：作者假设结果只依赖于自己的处理和一个聚合的群组暴露度量 \( E_i = \frac{1}{n_c-1} \sum_{j \neq i} Z_j \)（邻居中被处理的比例）。这大大降低了暴露向量的维度（从 \( 2^{n_c} \) 降至 2）。
相比已有文献的增强/放宽：相比 Athey & Imbens (2016)，NCT 不再忽略干扰（SUTVA）；相比 Aronow & Samii (2013)，NCT 可以讨论异质性。但 NCT 假设了聚类已知、弱 BART 干扰形式，且目前以随机化实验为主。

主要结果¶

定理效果验证（模拟）：模拟数据生成了两种处理效应模式：① 处理效应随 X1 (个体协变量) 单调变化；② 溢出效应随 X2 (邻居协变量) 单调变化。以下是与“忽略干扰的因果树”（Causal Tree without interference, CT0）的比较：
偏差（Bias）：当干扰强度 ≤ 0（即邻居处理对结果产生负溢出），NCT 的直接效应估计偏差在 -0.01 到 0.03 之间，而 CT0 的偏差在 0.10 到 0.20 之间（约大 10 倍）。类似地，溢出效应的偏差：NCT ≤ 0.03，CT0 为 0.5–1.0 量级。
RMSE：对于直接效应，NCT 的 RMSE 始终比 CT0 低 20–50%；对于溢出效应，低 50–80% 以上。
CATE 恢复（不同子组间均方误差）：NCT 对直接和溢出效应的子组估计的 RMSE 比 CT0 小得多，尤其在小样本量的深叶子节点中更明显。
真实例子：中国农村天气保险（基于 Cole et al. 2010 数据）
场景：72 个村庄（即 72 个聚类），随机抽取部分村庄开展“天气保险信息宣传会”（处理）。成效因变量是“是否购买天气保险”（二值 0/1）。
NCT 做了什么：将村庄内个体按照自身特征（如年龄、收入、教育水平）和邻居/村庄特征（如村庄平均收入、其邻居在宣传会的信息分享倾向）进行递归分区。
NCT 发现的关键异质性：
- 直接效应（自己去开会 vs 不去）：购买意愿翻倍的人群主要是：家庭收入高于 50% 分位数、且村庄平均收入低于 75% 分位数、且教育水平接近中等的群体。低收入家庭去开会不见得有效。
- 溢出效应（邻居去开会而自己不去）：在高教育水平的村庄、或是高平均收入的群体中，邻居去开会对自己有负溢出效应（减少购买），可能是由于邻居的信息分享导致某种“被忽视”或“模仿错位”。而在低教育水平村庄、低收入群体中，溢出效应为正。
这个例子想说明什么：① NCT 能找到被平均效应掩盖的异质性模式（如正的和负的溢出效应同时存在的一个平均效应为零）；② 负的溢出效应说明，如果只针对某些群体做处理而不顾及整个网络，可能反而不利——这直接有助于制定更有效的目标策略（targeting）。

证明路线与技术技巧（理论部分较简略，本文并非以大幅定理著称）¶

整体路线（主要见于 Section 2.2 和 Appendix）：
定义节点内估计量（EffM）：在每个候选节点（子组）内，用 Horvitz-Thompson 估计量（基于已知的随机化分布的逆概率加权）无偏估计该子组的平均处理效应（ATE）和平均溢出效应（ASE）。具体来说，对任意子组 \( S \)：
\[\hat{\tau}(S) = \frac{ \sum_{i \in S} \frac{2Z_i - 1}{\Pr(Z_i = 1)}Y_i }{ \sum_{i \in S} \frac{1}{\Pr(Z_i = 1)} } \quad \text{（仅示意，实际是二项加权）}\]
使用 HT 是关键的，因为它使得即使同一子组内个体在全体的处理组合 \( Z \) 的分布不同，估计也无偏（无偏来源于随机化分布的已知性和随机性）。此为第一个关键跳跃：从类普通的样本平均值到 HT 加权。
分裂准则：在每个节点（父节点 \( P \)），作者计算两种分裂提升度量：处理效应分裂度量 \( \text{EffM}_{\text{treat}}(P) \) 和溢出效应分裂度量 \( \text{EffM}_{\text{spill}}(P) \)。它们定义为：父节点内基于 HT 的 ATE 与左右子节点内基于 HT 的 ATE 之间的“适应性”差异（类似 Abrevaya 的 goodness-of-fit 但用 HT 替代）。实际的优化准则 \( \Delta \) 定义为最大化这种差异（在二分搜索时兼顾处理和溢出效应）。分裂准则不直接使用任何结果模型的拟合（如 OLS），从而避免了干扰的偏误。
诚实估计：和 Athey & Imbens 一样，NCT 也分“构造树结构样本”和“估计子组效应样本”（两个独立 subsamples）。这是为了消除 overfitting bias。
多变量处理：当干扰定义更复杂时（如邻居有多于 1 个的处理形式），使用加权矩估计。作者未提供完整的渐近理论（比如证明点态一致性或置信区间构造），只给出了模拟验证。这是一个隐含的薄弱点：没有完整的理论保证推出分裂准则的渐近最优性。
关键跳跃点：
最大的跳跃是把 HT 引入因果树分裂准则并证明它能保持无偏性。这并非 trivial，因为因果树的贪心分裂过程比较的是“如果在此变量上分裂，左右子节点的处理效应差”——若使用常规均值，在干扰存在时会产生偏执（因为左右子节点可能系统性地包含不同比例的受干扰个体）。而 HT 通过对每个个体赋予与自身分配概率成反比的权重，恰好消除了这种偏置。类比：类似于在观察性实验中用逆概率加权（IPTW）来处理选择偏误；只不过这里处理的是“分配组合”维度的选择偏误，而非协变量维度的。
技术技巧点名：
Horvitz-Thompson 加权：用于节点内估计，以确保无偏。
分样本法（honest splitting + cross-fitting）：分成 train 和 estimation 样本，避免树的过度拟合。
集束搜索（clustered bootstrap for variance）：由于个体在簇内不独立，方差估计不能用普通的 bootstrap（会低估），作者使用聚类 bootstrap（以聚类为单位重抽样）来估计方差。这指向实证章节的 bootstrap-interval 构造。

真实例子与应用¶

（已在上文“真实例子”中详细描述，此处不再重复。）

🔎 结论是否比证明窄¶

明显是的。全文严格证明/理论分析的部分很少，论文结构是“提出方法 → 模拟实验 → 真实数据”。作者并没有在证明一个谱系良好的渐近定理（如：NCT 的估计量在某个意义下是 \( \sqrt{n}– \) 一致的，或者某些条件下分裂准则可无限逼近最优）。在 Section 2 的方法描述和 Appendix 的演绎中，作者只展示了 HT 无偏性的基础知识以及分裂准则的期望性质，但没有任何正规的定理陈述（如 Lemma 1， Proposition 1 等）。这比 Athey & Imbens (2016) 和 Wager & Athey (2018) 的理论装备薄弱很多。论文中的措辞（如 "yields asymptotically unbiased estimates"，但未做任何渐近推导）表明它的贡献停留在算法层面和基于模拟的可行性展示。用户应留意，这是一个典型的“方法+算法+实证”论文，不是以理论分析为重心——它的“结论”覆盖的真实范围就是方法有效（经模拟和实证验证），但未证明方法在更一般的干扰形式的 robustness。

四、开放问题¶

渐近理论缺失：NCT 从未提供任何与 Athey & Imbens 或 Wager & Athey 水平相当的大样本理论（如分裂准则的 oracle property，点态一致性，渐近正态分布），只提供“HT 估计在节点内是无偏”的常数式保证。要证明其在递归分区的设定下有无偏性传递是个难题（贪心分裂会引起多重比较）。——扎根于 Section 2 “no formal theorem is proved for the splitting criterion” 以及 Appendix 中仅有 HT 的简单无偏性推导。
观察性研究的扩展：本文的实验设定假设了随机化（处理分配已知且随机）。若数据处理是观察性的（如网络观察性数据），HT 估计量不再直接获得。此时需要类似于 IPTW 的倾向性得分加权或双稳健估计来估计每个节点内的 ATE。但作者只在未来工作简介中提到“extensions to non-experimental settings”。——扎根于 Section 6 “Directions for Future Research” 最后一句话：“The application of NCT to observational studies with clustered interference is left as a future area of research.”
任意的网络结构与社区检测的整合：本文假设聚类是已知的（如村庄边界）。但许多场景中聚类是通过社区检测算法推断的。如果社区检测有误差，HT 的分母（已知的随机化概率）将错配。作者提出但未解决这个问题：“The estimator should take into account the uncertainty in group membership”——但未给出任何形式化模型。——扎根于 Section 2.2 末尾的脚注 3。
高维干扰形式：本文使用了“Weak BART”干扰形式（只依赖邻居的处理数/比例）。如果干扰具有更复杂的高阶结构（如距离衰减、某种特殊局部结构，或“triadic interference”），HT 估计量的维数会随邻居数指数增长，此时需要如何降维并保持分裂有效性？——扎根于 Section 6 中提到的“people may belong to multiple clusters or network effects across clusters”。

Maintained by 陈星宇 · Homepage · Source on GitHub