Talk #1: Random Graph Asymptotics for Treatment Effect Estimation under Network Interference¶

讲者: Shuangning Li ; Michael Oberst
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-29
主题: 因果推断
视频: https://youtu.be/Sz4Q7xGdTpU · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：网络干扰（Network Interference）下的因果推断

经典因果推断的"无干扰"（no interference）假设在实践中常被违反：一个单位的处理可能通过社会网络影响其他单位的结果。这个子方向要回答的核心问题是：当跨单位干扰存在时，如何定义、识别并估计有意义的因果效应？ 有哪些能效（efficiency）与识别（identification）条件？

已有工作的两条主流路线：

基于随机化推断的固定图设定 —— 将网络、潜在结果均视为固定、非随机的对象，推断的唯一随机性来自处理分配。代表工作如 Sävje, Aronow & Huddleston (2021, Biometrika) 在稀疏图（degree bounded）下证明 Horvitz-Thompson 与 Hájek 估计量对直接效应具有一致性，收敛速率依赖于节点度。更早的 Manski (1993) 提出"反射问题"并讨论线性-in-means 模型。Leung (2020, JASA) 研究单一网络下邻居数有界（常数阶）时直接/间接效应的参数速率。此路线的主要限制是：当图变密（邻域数随 n 增长时），基于固定图 + 单一随机化源的推断会迅速失去效力，收敛速率退化，甚至无法构造一个一致的估计量。
基于多重网络的实验或观测研究 —— 假设我们有大量独立的小型网络（例如多个教室、医院病房），对每个网络独立分配处理，从而通过跨网络对比识别平均效应。代表工作如 Hudgens & Halloran (2008, Biometrics)。然而许多实际场景中仅有单个大网络（如一个微信朋友圈）。

当前 frontier 与本报告的站位：

当网络是巨型且密集（每个节点有大量邻居）并且研究者仅有一个网络时，此前的图论/渐近工具几乎空白。报告的创新在于提出了一个全新的分析框架——将网络自身上的不确定性纳入模型：假设网络是来自一个未知图论（graphon）的随机实现。通过这种额外的随机性（平均化），可以得出比固定图渐近下强得多的保证。该方法属于"随机图渐近（random graph asymptotics）"的谱系。关键奠基工作包括 Lovász (2012, Large Networks and Graph Limits)，但将其与因果推断中的干扰结合起来在该报告之前尚无人系统做过。

报告的主要贡献： - 在随机图论假设下，证明直接效应在稠密与稀疏两种设定下均以 1/√n 速率（参数速率）被估计，不依赖图稀疏参数 ρn。 - 针对间接效应，发现无偏 IPW 估计量为不收敛（方差∝ n ρn²），提出一种基于图论主成分平衡（PC balancing）的新估计量，在稀疏图并假设图论为低秩的情况下获得 √ρn 收敛速率与渐近正态性。

二、最小内核 / 一个最简例子¶

假设结构（最简特例：Erdős–Rényi 图 + 二值处理 + 匿名干扰）：

我们有 n 个单位，每个单位 i： - 处理 Wᵢ ∈ {0, 1}，独立服从 Bernoulli(π)。 - 潜在结果模型（匿名干扰）： - 每个单位 i 有一个"类型" Uᵢ ~ Unif[0,1] 和一个"个体特征" θᵢ = θ(Uᵢ)。 - 结果仅依赖自身处理 Wᵢ 和邻居中处理的比例： Yᵢ(W) = f_{θᵢ}(Wᵢ, ∑{j ≠ i} E{ij} Wⱼ / ∑{j ≠ i} E{ij})。 - 图结构（单个最简图论）：设对任意 i ≠ j，独立地产生边 Eᵢⱼ ~ Bern(ρn)，其中 ρn 是稀疏参数（ρn = 1 对应稠密图，ρn → 0 且 √n ρn → ∞ 对应稀疏图）。 - 核心可观测数据：对每个单位 i，观测 (Wᵢ, Yᵢ, 邻居列表 {所有 j: Eᵢⱼ=1})。

这样设置下，研究的几个因果量是： - 直接效应 τDIR(π) = E[ f_{θᵢ}(1, π) - f_{θᵢ}(0, π) ]（自身处理效应，固定邻居处理比例为总体均值π）。 - 间接效应 τIND(π) = E[ (π f'{θᵢ}(1, π) + (1-π) f'{θᵢ}(0, π)) ]（效应对邻居的边际影响）。 - 总效应 τTOT(π) = τDIR(π) + τIND(π)（这是定比处理概率变化对总平均结果的影响）。

对直接效应的估计（如 Horvitz-Thompson 估计）在此设定下极其简单： τ̂^{HT}_{DIR} = (1/n)∑ᵢ (WᵢYᵢ / π - (1-Wᵢ)Yᵢ/(1-π))。报告证明，即使图非常稠密（ρn=1），该估计量的收敛速度仍为 1/√n，且服从渐近正态分布——这与经典无干扰情景速率相同，说明直接效应估计几乎不受网络干扰的速率影响。

对间接效应的估计则困难得多。一个无偏但不可用的 IPW 估计量是： τ̂^{U}_{IND} = (1/n)∑ᵢ Yᵢ [ Mᵢ / π - (Nᵢ - Mᵢ) / (1-π) ]，其中 Nᵢ 是节点 i 的邻居数，Mᵢ 是这些邻居中处理组的个数。之所以"不可用"是因为它的方差 ∝ n ρn²，当 ρn 固定或缓慢收敛到0时，方差爆炸且不趋于0。原因是该估计量的权重与图论的主特征向量有非零内积，注入大量噪声。报告的缓解办法是构造PC平衡估计量：通过将权重与估计出的图论前 r 个主成分正交化来消除噪声项，并在低秩图论条件下证明收敛速率 √ρn（稀疏时较慢，但至少一致）。

三、报告主体：讲者讲了什么¶

[0:00:05 - 0:01:52] 引言与问题设置 - 开场：讲者 Shuangning Li（斯坦福大学五年级博士生）。介绍这是与导师 Stefan Wager 的合作工作，论文已为 Annals of Statistics 接受（arXiv 可查）。 - 动机：经典因果推断假设无干扰，但在很多真实场景（如 Cai et al. 2015 的天气预报营销实验）中干扰明显存在：农民通过社交网络互相传播信息，一个被随机分配去听保险讲座的农民可能影响其朋友的决定。

[0:01:52 - 0:02:50] 模型假设逐步建立 - 网络干扰模型：设定图（邻接矩阵 E_{ij}），单位 i 的结果 Yᵢ 仅通过边连接的邻居的处理值 Yⱼ 受影响。同时假设无定向边。 - 三个核心假设： 1. 随机图假设：每个单位有随机类型 Uᵢ ~ Unif[0,1]，边由未知图论 Gₙ(Uᵢ, Uⱼ) 独立生成。本质上假设了节点的异质性与依概率连接。 2. 匿名干扰假设：结果只关心邻居中处理的比例而不是具体是哪些邻居——这等价于 potential outcome 对邻居身份可交换。 3. 图论序列假设：Gₙ(·,·) = ρₙ G(·,·)，其中 G(·,·) 不随 n 缩放。考虑两种情形：ρₙ = 1（稠密图），或 ρₙ → 0 但 √n ρₙ → ∞（稀疏图，即平均度趋于∞但慢于n）。

[0:02:50 - 0:04:15] 三种估计量定义 - 直接效应：个人处理改变对其自身结果的平均影响。 - 间接效应：个人处理改变对其所有邻居结果（求和后平均）的影响。 - 总效应：改变处理概率 π 对整体平均结果的导数。一个关键命题（Hu, Li, Wager 2022+）：总效应 = 直接效应 + 间接效应（在任何 Bernoulli 实验中成立）。

[0:04:15 - 0:06:20] 直接效应估计与渐近正态性 - 内容：使用 Horvitz-Thompson（IPW）与 Hájek（均值差）两种估计量。对比前人结果（Sävje et al. 2021）：他们在稀疏图且固定图设定下证明一致性，收敛速率依赖于节点的度，仅在 "度有界" 情形达到 1/√n。 - 报告的核心发现（幻灯片定理 1）：在随机图假设下，两个估计量在稠密或稀疏图中均以 1/√n 收敛到直接效应，统计量有渐近正态分布。方差中出现一项 Qᵢ，捕捉因干扰引入的额外方差项。干扰不伤害收敛速率，但会放大方差（除非 Rᵢ 与 Qᵢ 强负相关）。无需图知识即可计算该估计量。

[0:06:30 - 0:08:30] 为何间接效应估计更困难？ - 文献基线：许多独立网络的方法不适用；单网络下 Leung (2020) 仅在邻居数恒定（常数阶）时取得 1/√n 速率，对于稠密图无结果。 - 讲者引入识别关键命题：间接效应 ≈ (1/n)∑ᵢ [π f'{θᵢ}(1,π) + (1-π)f'{θᵢ}(0,π)] + Oₚ(1/√(nρₙ))。即它可以被理解为邻居处理比例的变化对结果的平均边际效应。

[0:08:30 - 0:10:00] 无偏 IPW 估计量的失败 - 提出的无偏估计量 τ̂^{U}_{IND} 的方差 ≈ ν n ρₙ²（ν 为正常数，依赖于 f 与 G）。由于我们要假设 √n ρₙ → ∞，当 ρₙ = n^{-α} 且 α < 1/2，方差发散。即使在简单 Erdős–Rényi 图中也如此。 - 诊断：通过将 Yᵢ 分解为 µ（期望值）与 (Yᵢ - µ)，发现第一项 µ·(Mᵢ - πNᵢ) 的均值为0但方差极大、含零信号；第二项 (Yᵢ - µ)(Mᵢ - πNᵢ) 含有全部信号且方差可控。因此问题本质是希望消除权重向量与常数向量（也就是图论首特征向量）的相关性。

[0:10:00 - 0:12:00] PC平衡估计量（核心方法设计） - 更一般的随机块模型案例：每个社区具有不同平均结果 µₖ。无偏估计量的偏差σ等价于权重向量与社区指示向量（图论主成分）的内积。必须"平衡"这些方向。 - 理想平衡估计量（幻灯片公式）：在原权重 (Mᵢ/π - (Nᵢ - Mᵢ)/(1-π)) 基础上，加上一个图论主成分的线性组合，使得新权重与每一前 r 个特征向量内积为0。 - 实际估计量：用邻接矩阵的特征向量 ˆψₖ(Uᵢ) 替代未知的 ψₖ(Uᵢ)，然后回归求解调整系数 ˆβₖ。得到的权重ˆγᵢ = 原权重 + Σₖ ˆβₖ ˆψₖ(Uᵢ) 对估计出的前 r 个主成分平衡，即 Σᵢ ˆγᵢ ˆψₗ(Uᵢ) = 0 对 l = 1,...,r。

[0:12:00 - 0:14:30] PC平衡估计量的理论保证 - 定理（CLT，幻灯片"Theorem (CLT for PC Balancing Estimator)"）： - 假设：稀疏图 (n^{-α₁} ≤ ρₙ ≤ n^{-α₂}, 0 < α₁ < 1/2, α₂ > 0)；图论为低秩（秩 r）；匿名干扰成立；加上一些正则性。 - 结论：√ρₙ ( ˆτ^{PC}{IND} - τ{IND} ) ⇒ N(0, σ²_{IND})，其中 σ²_{IND}依赖 f 和 G。 - 含义：估计量在ρₙ不太小的条件下（即图不完全稀疏到底）一致且渐近正态；与直接效应的 1/√n 相比，收敛速率 √ρₙ 更慢，反映了间接效应问题本质更难。报告明确点出："The problem is much harder compared to estimating direct effect (√ρₙ vs 1/√n)"。

[0:14:30 - 0:15:30] 数值实验与结论 - 模拟实验（n = 1e6，SBM 图，中等稀疏）证实：PC 平衡估计量的分布与 CLT 预测的常态分布吻合得很好。 - 另一组实验显示，无偏 IPW 估计量的 MSE 按 n^{0.6} (当 ρₙ = n^{-0.2}) 或 n^{0.2} (当 ρₙ = n^{-0.4}) 增长，而 PC 平衡估计量的 MSE 按 ρₙ 量级下降，符合理论预测，且只要 ρₙ ≈ n^{-0.2} 速率就能给出很小的 MSE。

※ 注：转写中提及的其它细节： - 讲者在 [0:15:30] 结束后因时间原因没有展示剩下的模拟结果。 - Q&A 部分（视频稍后）涉及一些关于低秩图论假设的必要性讨论——但转写简略，此处未展开。

四、对应论文与开放问题¶

(a) 论文信息 - 论文标题：Random Graph Asymptotics for Treatment Effect Estimation under Network Interference - 作者：Shuangning Li 与 Stefan Wager - 状态：Annals of Statistics forthcoming（[2024]年）。arXiv 版已可查。 - 合作论文：报告中提到一个配套分解结果"Hu, Li, Wager (2022+)"，证明总效应 = 直接 + 间接效应，待确认具体标题与发表状态。此外，转写中提及的"Liang 2020" (应当是 Leung 2020, JASA)、"Sˇavje et al. 2021" (应当是 Sävje, Aronow & Huddleston 2021, Biometrika)。

(b) 开放问题（基于转写与幻灯片中的线索）

以下每条对应后跟[时间点]与转写线索：

图论非低秩时的处理：PC平衡估计量的 CLT 要求图论具有有限秩 r。当图论不可被有限个特征函数很好近似时（例如核奇异值缓慢衰减），估计间接效应的速率与最优性如何？ [0:12:10] 讲者提到"If the graphon is low rank with rank r"作为假设，暗示这是关键但被假设的简化的结构。
更优的下界：间接效应的收敛速率 √ρₙ 是否是最优？有无信息论下界能说明不可能超过该速率？报告未构造 minimax 下界。[0:12:20]
图论未知时的替代策略：当图论维数 r → ∞ 或无法通过前 r 个特征向量充分捕捉结构，能否使用核方法或平滑化的 graphon 估计进行平衡？ [0:11:50] 讨论 "estimate the principal components" 的部分暗示这是瓶颈。
直接效应方差中 Qᵢ 项的实际解释与估计：幻灯片给出的方差公式含 Rᵢ 和 Qᵢ，但其实现需知道 f 与 G（或估计一个 graphon）。没有给出可以直接使用的、无需额外建模的方差估计。这给实践中构建置信区间留下问题。[0:05:30]
Hájek 版本的 PC 平衡：直接效应有 Horvitz-Thompson 与 Hájek 两种形式；间接效应仅考虑了« 类似HT »的权重形式，能否构造一个类似 Hájek 的比估计及其渐近性质？（幻灯片中未提及，但可类比）。
多个处理水平或连续处理：幕后的潜在结果 f_{θᵢ} 假设匿名干扰仅使用处理比例，如何处理更复杂的处理函数（如多元处理、剂量反应）？[0:02:10] 匿名干扰假设明确用于二值处理与比例，扩展至连续或多元设定未讨论。

Maintained by 陈星宇 · Homepage · Source on GitHub

Talk #1: Random Graph Asymptotics for Treatment Effect Estimation under Network Interference¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论