跳转至

Talk #1: Random Graph Asymptotics for Treatment Effect Estimation under Network Interference

讲者: Shuangning Li ; Michael Oberst
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-03-29
主题: 因果推断
视频: https://youtu.be/Sz4Q7xGdTpU · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:网络干扰(Network Interference)下的因果推断

经典因果推断的"无干扰"(no interference)假设在实践中常被违反:一个单位的处理可能通过社会网络影响其他单位的结果。这个子方向要回答的核心问题是:当跨单位干扰存在时,如何定义、识别并估计有意义的因果效应? 有哪些能效(efficiency)与识别(identification)条件?

已有工作的两条主流路线:

  1. 基于随机化推断的固定图设定 —— 将网络、潜在结果均视为固定、非随机的对象,推断的唯一随机性来自处理分配。代表工作如 Sävje, Aronow & Huddleston (2021, Biometrika) 在稀疏图(degree bounded)下证明 Horvitz-Thompson 与 Hájek 估计量对直接效应具有一致性,收敛速率依赖于节点度。更早的 Manski (1993) 提出"反射问题"并讨论线性-in-means 模型。Leung (2020, JASA) 研究单一网络下邻居数有界(常数阶)时直接/间接效应的参数速率。此路线的主要限制是:当图变密(邻域数随 n 增长时),基于固定图 + 单一随机化源的推断会迅速失去效力,收敛速率退化,甚至无法构造一个一致的估计量。

  2. 基于多重网络的实验或观测研究 —— 假设我们有大量独立的小型网络(例如多个教室、医院病房),对每个网络独立分配处理,从而通过跨网络对比识别平均效应。代表工作如 Hudgens & Halloran (2008, Biometrics)。然而许多实际场景中仅有单个大网络(如一个微信朋友圈)。

当前 frontier 与本报告的站位:

当网络是巨型且密集(每个节点有大量邻居)并且研究者仅有一个网络时,此前的图论/渐近工具几乎空白。报告的创新在于提出了一个全新的分析框架——将网络自身上的不确定性纳入模型:假设网络是来自一个未知图论(graphon)的随机实现。通过这种额外的随机性(平均化),可以得出比固定图渐近下强得多的保证。该方法属于"随机图渐近(random graph asymptotics)"的谱系。关键奠基工作包括 Lovász (2012, Large Networks and Graph Limits),但将其与因果推断中的干扰结合起来在该报告之前尚无人系统做过。

报告的主要贡献: - 在随机图论假设下,证明直接效应在稠密与稀疏两种设定下均以 1/√n 速率(参数速率)被估计,不依赖图稀疏参数 ρn。 - 针对间接效应,发现无偏 IPW 估计量为不收敛(方差∝ n ρn²),提出一种基于图论主成分平衡(PC balancing)的新估计量,在稀疏图并假设图论为低秩的情况下获得 √ρn 收敛速率与渐近正态性。

二、最小内核 / 一个最简例子

假设结构(最简特例:Erdős–Rényi 图 + 二值处理 + 匿名干扰):

我们有 n 个单位,每个单位 i: - 处理 Wᵢ ∈ {0, 1},独立服从 Bernoulli(π)。 - 潜在结果模型(匿名干扰): - 每个单位 i 有一个"类型" Uᵢ ~ Unif[0,1] 和一个"个体特征" θᵢ = θ(Uᵢ)。 - 结果仅依赖自身处理 Wᵢ 和邻居中处理的比例: Yᵢ(W) = f_{θᵢ}(Wᵢ, ∑{j ≠ i} E{ij} Wⱼ / ∑{j ≠ i} E{ij})。 - 图结构(单个最简图论):设对任意 i ≠ j,独立地产生边 Eᵢⱼ ~ Bern(ρn),其中 ρn 是稀疏参数(ρn = 1 对应稠密图,ρn → 0 且 √n ρn → ∞ 对应稀疏图)。 - 核心可观测数据:对每个单位 i,观测 (Wᵢ, Yᵢ, 邻居列表 {所有 j: Eᵢⱼ=1})。

这样设置下,研究的几个因果量是: - 直接效应 τDIR(π) = E[ f_{θᵢ}(1, π) - f_{θᵢ}(0, π) ](自身处理效应,固定邻居处理比例为总体均值π)。 - 间接效应 τIND(π) = E[ (π f'{θᵢ}(1, π) + (1-π) f'{θᵢ}(0, π)) ](效应对邻居的边际影响)。 - 总效应 τTOT(π) = τDIR(π) + τIND(π)(这是定比处理概率变化对总平均结果的影响)。

对直接效应的估计(如 Horvitz-Thompson 估计)在此设定下极其简单: τ̂^{HT}_{DIR} = (1/n)∑ᵢ (WᵢYᵢ / π - (1-Wᵢ)Yᵢ/(1-π))。 报告证明,即使图非常稠密(ρn=1),该估计量的收敛速度仍为 1/√n,且服从渐近正态分布——这与经典无干扰情景速率相同,说明直接效应估计几乎不受网络干扰的速率影响

对间接效应的估计则困难得多。一个无偏但不可用的 IPW 估计量是: τ̂^{U}_{IND} = (1/n)∑ᵢ Yᵢ [ Mᵢ / π - (Nᵢ - Mᵢ) / (1-π) ], 其中 Nᵢ 是节点 i 的邻居数,Mᵢ 是这些邻居中处理组的个数。 之所以"不可用"是因为它的方差 ∝ n ρn²,当 ρn 固定或缓慢收敛到0时,方差爆炸且不趋于0。原因是该估计量的权重与图论的主特征向量有非零内积,注入大量噪声。报告的缓解办法是构造PC平衡估计量:通过将权重与估计出的图论前 r 个主成分正交化来消除噪声项,并在低秩图论条件下证明收敛速率 √ρn(稀疏时较慢,但至少一致)。

三、报告主体:讲者讲了什么

[0:00:05 - 0:01:52] 引言与问题设置 - 开场:讲者 Shuangning Li(斯坦福大学五年级博士生)。介绍这是与导师 Stefan Wager 的合作工作,论文已为 Annals of Statistics 接受(arXiv 可查)。 - 动机:经典因果推断假设无干扰,但在很多真实场景(如 Cai et al. 2015 的天气预报营销实验)中干扰明显存在:农民通过社交网络互相传播信息,一个被随机分配去听保险讲座的农民可能影响其朋友的决定。

[0:01:52 - 0:02:50] 模型假设逐步建立 - 网络干扰模型:设定图(邻接矩阵 E_{ij}),单位 i 的结果 Yᵢ 仅通过边连接的邻居的处理值 Yⱼ 受影响。同时假设无定向边。 - 三个核心假设: 1. 随机图假设:每个单位有随机类型 Uᵢ ~ Unif[0,1],边由未知图论 Gₙ(Uᵢ, Uⱼ) 独立生成。本质上假设了节点的异质性与依概率连接。 2. 匿名干扰假设:结果只关心邻居中处理的比例而不是具体是哪些邻居——这等价于 potential outcome 对邻居身份可交换。 3. 图论序列假设:Gₙ(·,·) = ρₙ G(·,·),其中 G(·,·) 不随 n 缩放。考虑两种情形:ρₙ = 1(稠密图),或 ρₙ → 0 但 √n ρₙ → ∞(稀疏图,即平均度趋于∞但慢于n)。

[0:02:50 - 0:04:15] 三种估计量定义 - 直接效应:个人处理改变对其自身结果的平均影响。 - 间接效应:个人处理改变对其所有邻居结果(求和后平均)的影响。 - 总效应:改变处理概率 π 对整体平均结果的导数。一个关键命题(Hu, Li, Wager 2022+):总效应 = 直接效应 + 间接效应(在任何 Bernoulli 实验中成立)。

[0:04:15 - 0:06:20] 直接效应估计与渐近正态性 - 内容:使用 Horvitz-Thompson(IPW)与 Hájek(均值差)两种估计量。对比前人结果(Sävje et al. 2021):他们在稀疏图且固定图设定下证明一致性,收敛速率依赖于节点的度,仅在 "度有界" 情形达到 1/√n。 - 报告的核心发现(幻灯片定理 1):在随机图假设下,两个估计量在稠密或稀疏图中均以 1/√n 收敛到直接效应,统计量有渐近正态分布。方差中出现一项 Qᵢ,捕捉因干扰引入的额外方差项。干扰不伤害收敛速率,但会放大方差(除非 Rᵢ 与 Qᵢ 强负相关)。无需图知识即可计算该估计量。

[0:06:30 - 0:08:30] 为何间接效应估计更困难? - 文献基线:许多独立网络的方法不适用;单网络下 Leung (2020) 仅在邻居数恒定(常数阶)时取得 1/√n 速率,对于稠密图无结果。 - 讲者引入识别关键命题:间接效应 ≈ (1/n)∑ᵢ [π f'{θᵢ}(1,π) + (1-π)f'{θᵢ}(0,π)] + Oₚ(1/√(nρₙ))。即它可以被理解为邻居处理比例的变化对结果的平均边际效应

[0:08:30 - 0:10:00] 无偏 IPW 估计量的失败 - 提出的无偏估计量 τ̂^{U}_{IND} 的方差 ≈ ν n ρₙ²(ν 为正常数,依赖于 f 与 G)。由于我们要假设 √n ρₙ → ∞,当 ρₙ = n^{-α} 且 α < 1/2,方差发散。即使在简单 Erdős–Rényi 图中也如此。 - 诊断:通过将 Yᵢ 分解为 µ(期望值)与 (Yᵢ - µ),发现第一项 µ·(Mᵢ - πNᵢ) 的均值为0但方差极大、含零信号;第二项 (Yᵢ - µ)(Mᵢ - πNᵢ) 含有全部信号且方差可控。因此问题本质是希望消除权重向量与常数向量(也就是图论首特征向量)的相关性

[0:10:00 - 0:12:00] PC平衡估计量(核心方法设计) - 更一般的随机块模型案例:每个社区具有不同平均结果 µₖ。无偏估计量的偏差σ等价于权重向量与社区指示向量(图论主成分)的内积。必须"平衡"这些方向。 - 理想平衡估计量(幻灯片公式):在原权重 (Mᵢ/π - (Nᵢ - Mᵢ)/(1-π)) 基础上,加上一个图论主成分的线性组合,使得新权重与每一前 r 个特征向量内积为0。 - 实际估计量:用邻接矩阵的特征向量 ˆψₖ(Uᵢ) 替代未知的 ψₖ(Uᵢ),然后回归求解调整系数 ˆβₖ。得到的权重ˆγᵢ = 原权重 + Σₖ ˆβₖ ˆψₖ(Uᵢ) 对估计出的前 r 个主成分平衡,即 Σᵢ ˆγᵢ ˆψₗ(Uᵢ) = 0 对 l = 1,...,r。

[0:12:00 - 0:14:30] PC平衡估计量的理论保证 - 定理(CLT,幻灯片"Theorem (CLT for PC Balancing Estimator)"): - 假设:稀疏图 (n^{-α₁} ≤ ρₙ ≤ n^{-α₂}, 0 < α₁ < 1/2, α₂ > 0);图论为低秩(秩 r);匿名干扰成立;加上一些正则性。 - 结论:√ρₙ ( ˆτ^{PC}{IND} - τ{IND} ) ⇒ N(0, σ²_{IND}),其中 σ²_{IND}依赖 f 和 G。 - 含义:估计量在ρₙ不太小的条件下(即图不完全稀疏到底)一致且渐近正态;与直接效应的 1/√n 相比,收敛速率 √ρₙ 更慢,反映了间接效应问题本质更难。报告明确点出:"The problem is much harder compared to estimating direct effect (√ρₙ vs 1/√n)"。

[0:14:30 - 0:15:30] 数值实验与结论 - 模拟实验(n = 1e6,SBM 图,中等稀疏)证实:PC 平衡估计量的分布与 CLT 预测的常态分布吻合得很好。 - 另一组实验显示,无偏 IPW 估计量的 MSE 按 n^{0.6} (当 ρₙ = n^{-0.2}) 或 n^{0.2} (当 ρₙ = n^{-0.4}) 增长,而 PC 平衡估计量的 MSE 按 ρₙ 量级下降,符合理论预测,且只要 ρₙ ≈ n^{-0.2} 速率就能给出很小的 MSE。

※ 注:转写中提及的其它细节: - 讲者在 [0:15:30] 结束后因时间原因没有展示剩下的模拟结果。 - Q&A 部分(视频稍后)涉及一些关于低秩图论假设的必要性讨论——但转写简略,此处未展开。

四、对应论文与开放问题

(a) 论文信息 - 论文标题Random Graph Asymptotics for Treatment Effect Estimation under Network Interference - 作者:Shuangning Li 与 Stefan Wager - 状态Annals of Statistics forthcoming([2024]年)。arXiv 版已可查。 - 合作论文:报告中提到一个配套分解结果"Hu, Li, Wager (2022+)",证明总效应 = 直接 + 间接效应,待确认具体标题与发表状态。此外,转写中提及的"Liang 2020" (应当是 Leung 2020, JASA)、"Sˇavje et al. 2021" (应当是 Sävje, Aronow & Huddleston 2021, Biometrika)。

(b) 开放问题(基于转写与幻灯片中的线索)

以下每条对应后跟[时间点]与转写线索:

  1. 图论非低秩时的处理:PC平衡估计量的 CLT 要求图论具有有限秩 r。当图论不可被有限个特征函数很好近似时(例如核奇异值缓慢衰减),估计间接效应的速率与最优性如何? [0:12:10] 讲者提到"If the graphon is low rank with rank r"作为假设,暗示这是关键但被假设的简化的结构。

  2. 更优的下界:间接效应的收敛速率 √ρₙ 是否是最优?有无信息论下界能说明不可能超过该速率?报告未构造 minimax 下界。[0:12:20]

  3. 图论未知时的替代策略:当图论维数 r → ∞ 或无法通过前 r 个特征向量充分捕捉结构,能否使用核方法或平滑化的 graphon 估计进行平衡? [0:11:50] 讨论 "estimate the principal components" 的部分暗示这是瓶颈。

  4. 直接效应方差中 Qᵢ 项的实际解释与估计:幻灯片给出的方差公式含 Rᵢ 和 Qᵢ,但其实现需知道 f 与 G(或估计一个 graphon)。没有给出可以直接使用的、无需额外建模的方差估计。这给实践中构建置信区间留下问题。[0:05:30]

  5. Hájek 版本的 PC 平衡:直接效应有 Horvitz-Thompson 与 Hájek 两种形式;间接效应仅考虑了« 类似HT »的权重形式,能否构造一个类似 Hájek 的比估计及其渐近性质?(幻灯片中未提及,但可类比)。

  6. 多个处理水平或连续处理:幕后的潜在结果 f_{θᵢ} 假设匿名干扰仅使用处理比例,如何处理更复杂的处理函数(如多元处理、剂量反应)?[0:02:10] 匿名干扰假设明确用于二值处理与比例,扩展至连续或多元设定未讨论。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论