跳转至

Exploiting Neighborhood Interference with Low Order Interactions under Unit Randomized Design

讲者: Christina Yu
讨论人: Chencheng Cai - Q&A moderator: Mayleen Cortez and Matt Eichhorn
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-02-28
主题: 因果推断
视频: https://youtu.be/pskRH11mADI · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:网络干扰下的因果推断——如何从实验数据中估计全局处理效应。

在因果推断中,经典假设是 SUTVA(稳定单元处理值假设),即个体结果只依赖其自身处理。但在社交网络、市场干预、在线平台等场景中,个体的处理会影响他人的结果,这称为干扰 (interference)。当干扰存在时,估计“如果所有人都接受处理 vs. 所有人都接受对照”的总处理效应 (TTE) 变得困难。

该领域沿两条轴发展:

  • 实验设计轴:从最简单的个体随机化 (unit-randomized/Bernoulli design),到更复杂的聚类随机化 (cluster-randomized design),后者需依赖图结构的先验知识。
  • 模型结构轴:从完全一般 (fully general) 不做任何假设的潜在结果模型(此时可用的 Horvitz-Thompson 估计量方差随度指数增长),到施加结构假设的模型,如:
  • 部分干扰 (partial interference) — 图可分解为互不连通的分组,在此分组上随机化 [Sobel 2006; Hudgens & Halloran 2008]。
  • 线性/参数化模型 — 假设结果以已知方式(如受处理邻居数/比例)依赖于处理 [Toulis & Kao 2013; Basse & Airoldi 2015];但通常要求匿名干扰 + 特征工程,且参数数量不能随 n 增长。
  • (?) 低阶交互模型 (low-order interaction model) — 本场报告的核心贡献,用一个多项式度 (Polynomial degree) β 来度量模型复杂度。

报告的起点是文献中一块未被系统处理的空白:

在个体随机化(Bernoulli design)设计的实验下,能否设计一个估计量,使其方差由潜在结果模型中交互的“阶数” (β) 决定,而不是完全由图的度 (d) 决定?

该问题将图复杂度 (d)模型复杂度 (β) 分开。若真实交互阶数 β ≪ d,则方差可大幅降低,且不需要改变实验设计(仍用简单的 Bernoulli 随机化),也不需要网络信息以外的数据。

报告对应 arXiv:2208.05553 (Cortez-Rodriguez, Eichhorn, Yu, 2022),并在讨论中关联到作者另外两篇工作: - Yu, Airoldi, Borgs, Chayes (PNAS, 2022; arXiv:2205.12803) — 利用更丰富的测量放松网络知识要求; - Cortez-Rodriguez, Eichhorn, Yu (NeurIPS, 2022; arXiv:2205.14552) — 利用分期推出 (staggered rollout) 设计实现图未知下的推断。


二、最小内核 / 一个最简例子

符号与设定:

  • 固定大小为 \(n\) 的总体,图或邻接结构已知,定义个体 \(i\)邻域 \(\mathcal{N}_i\)(包含 \(i\) 自身,大小 ≤ \(d\))。
  • 潜在结果函数 \(Y_i: \{0,1\}^n \to \mathbb{R}\)
  • 可观测数据:仅从一个实验(一次处理分配 \(\mathbf{z} \in \{0,1\}^n\))中获得观测值 \(Y_i^{\text{obs}} = Y_i(\mathbf{z}) + \epsilon_i\)\(\epsilon_i \overset{iid}{\sim} N(0, \sigma^2)\)
  • 处理分配:Bernoulli 设计,\(\Pr(z_j = 1) = p_j\),独立。
  • 目标 estimand
    \[\text{TTE} = \frac{1}{n} \sum_{i=1}^n \big[ Y_i(\mathbf{1}) - Y_i(\mathbf{0}) \big].\]

最简例子(β = 1,线性模型):

假设邻域干扰下,潜在结果可分解为个体主效应 + 可加的网络效应(这是 Heterogeneous Additive Network Effects 模型,即 β=1 的特例):

\[Y_i(\mathbf{z}) = \alpha_i + c_{ii} z_i + \sum_{k \in \mathcal{N}_i \setminus \{i\}} c_{ik} z_k.\]
此时: - 每个个体 \(i\) 对应的未知系数向量 \(w_i = (\alpha_i, c_{ii}, c_{ik})_{k \in \mathcal{N}_i \setminus \{i\}}\)\(|\mathcal{N}_i|+1\) 个分量,大于其单个观测值,因此每个个体的回归问题是不可识别的。 - 核心思想:从处理分配 \(\mathbf{z}\)随机性中借信息。将 \(Y_i^{\text{obs}}\) 写为:
\[Y_i^{\text{obs}} = w_i^\top \tilde{z}_i + \epsilon_i,\quad \tilde{z}_i = (1, z_{i}, \{z_k\}_{k \in \mathcal{N}_i \setminus i}).\]
“想象如果有 M 次独立的实验复制”:在每次复制 \(m\) 中观测到 \((\tilde{z}_i^{(m)}, Y_i^{\text{obs}, (m)})\),则对每个个体 \(i\) 可用 OLS 得到 \(w_i\) 的无偏估计。但现实只有一个复制(\(M=1\)),OLS 不可行。

伪逆估计量的绕过方式:直接对每个个体的系数向量构造无偏估计,而不是通过回归。

  1. 定义 \(W_i = \mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]^{-1} \cdot \mathbb{E}[\tilde{z}_i Y_i^{\text{obs}}]\)。由于随机化已知,\(\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]\) 可解析计算(并证明对 Bernoulli 设计可逆)。
  2. 用单次样本 \(\tilde{z}_i, Y_i^{\text{obs}}\) 替换第二个期望,得到无偏估计:
    \[\widehat{W}_i = \mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]^{-1} \cdot (\tilde{z}_i Y_i^{\text{obs}}).\]
  3. TTE 是 \(w_i\) 的线性泛函:\(\text{TTE} = \frac{1}{n} \sum_i \theta^\top w_i\),其中 \(\theta = (0, 1, 1, \dots, 1)\)(屏蔽基线,对所有 c 系数加权求和为 1)。于是:
    \[\widehat{\text{TTE}} = \frac{1}{n} \sum_{i=1}^n \theta^\top \widehat{W}_i.\]

对 β=1 且 Bernoulli 设计(概率 \(p_j\)),\(\theta^\top \widehat{W}_i\) 可解析化为:

\[\widehat{\text{TTE}} = \frac{1}{n} \sum_{i=1}^n Y_i^{\text{obs}} \sum_{j \in \mathcal{N}_i} \left( \frac{z_j}{p_j} - \frac{1-z_j}{1-p_j} \right).\]
该形式等于 Li & Wager (2022) 中的 Horvitz-Thompson 型估计量。注意:其估计量是用自身的观测值 \(Y_i^{\text{obs}}\) 乘以 邻域中每项的反概率权重,而非仅用自己的权。

推广到一般 β: 将特征 \(\tilde{z}_i\) 替换为所有大小 ≤ β 的子集 S 上的乘积 \(\prod_{j \in S} z_j\),其余步骤完全平行。系数数量为 \( \sum_{t=1}^\beta \binom{|\mathcal{N}_i|}{t} \)。方差随 β 指数增长(\(\sim d^{2\beta} / (n p^{\beta})\)),但不再依赖于度 d 的高次项。


三、报告主体:讲者讲了什么

[0:00–0:11] 引言与动机 - 数据来自 OCIS 2023/02/28,讲者 Christina Yu (Cornell),讨论人 Chengcheng Cai (Temple)。 - 动机问题:社交媒体平台要评估新推荐算法,如果只随机分配用户到新/旧算法,但由于用户间相互影响,对照用户接收到来自受处理朋友的内容——即干扰

[0:11–0:20] 问题设定与困难 - 框架:从 n 个用户构成的网络中,观测一次随机实验(单个处理向量 \(\mathbf{z}\)),预算限制使处理比例 p 常较小。 - 目标 estimand: TTE = 全部处理 vs. 全部控制的平均差异。 - 假设:邻域干扰 — 个体 i 的结果只依赖其邻域 \(\mathcal{N}_i\) 的处理向量。 - 在 SUTVA 下,差均估计量有意义;在干扰下,由于观测来自混杂的处理配置,差均估计量有严重偏倚。

[0:20–0:30] 文献全景 - 讲者用二维矩阵总结文献:X轴 = 模型结构(从一般到特定),Y轴 = 图结构(从一般到特定)。 - 各角落的代表:
- 完全一般 + Bernoulli 设计 → Horvitz-Thompson (H-T) 估计量,方差指数于度。
- 部分干扰 + 聚类随机化 → H-T 型,方差依赖社区数。
- κ-限制增长图 + 聚类随机化 → H-T 型,方差多项式于度(利用 3-net 聚类 [Ugander et al.])。
- 线性模型 + Bernoulli → OLS,但需要匿名干扰 + 特征工程 + 同质性假设,参数数不随 n 增长。 - 本报告定位:引入低阶交互模型 (β-阶多项式),提出在标准 Bernoulli 设计下的伪逆估计量,方差由 β 而非度 d 控制。

[0:30–0:55] 模型形式与可视化 - 在任何邻域干扰下,潜在结果可写为 \(\mathcal{N}_i\) 上的多项式(度 ≤ \(|\mathcal{N}_i|\))。 - 低阶交互假设:多项式度 ≤ β ≪ \(|\mathcal{N}_i|\),即系数 \(c_{i,S} = 0\) 对所有 \(|S| > \beta\)。任一该假设对应于潜在结果函数中只存在不超过 β 个个体之间的交互效应。 - 在 β=1 时退化为 Heterogeneous Additive Network Effects (HANE) 模型:\(Y_i = \alpha_i + c_{ii} z_i + \sum_{k \neq i} c_{ik} z_k\)。该模型允许每个个体-个体对都具有自己的效应系数 c_{ik},比常见的线性回归(对所有人共享一个 γ 系数)更灵活。 - 举例:社区内干扰(β = 最大子社区大小);“聚会室”特征(β = 5);结果是对邻域处理的线性组合的非线性函数(β = 该非线性函数的度);三元交互(β = 3)。

[0:55–1:12] 伪逆估计量的构建 (β=1 起) - 核心思路:对每个个体 i,构造其局部系数向量 w_i 的无偏估计 \(\widehat{W}_i\)。 - 关键工具:已知随机化矩阵 \(\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]\) 对 Bernoulli 设计可逆。 - 构造:\(\widehat{W}_i = (\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top])^{-1} \cdot (\tilde{z}_i Y_i^{\text{obs}})\)。 - 注意:\(\widehat{W}_i\) 跨 i 非独立(因共享邻域),但在 TTE 估计量中求平均后,方差分析需处理相关性。 - 得到 β=1 的闭式估计量:

\[\widehat{\text{TTE}} = \frac{1}{n} \sum_i Y_i^{\text{obs}} \sum_{j\in \mathcal{N}_i} \left( \frac{z_j}{p_j} - \frac{1-z_j}{1-p_j} \right).\]
方差:\(O\big( (Y_{\max}^2 d^3 + \sigma^2 d) / (n p) \big)\) 当 p 均匀。 - 无偏性验证:展开期望,利用独立性引理。

[1:12–1:20] 推广到一般 β - 将特征从 \(\{z_j\}\) 替换为所有大小 ≤ β 的子集乘积 \(\prod_{j \in S} z_j\)。 - 推导完全平行:系数数量 = \(\sum_{t=0}^\beta \binom{|\mathcal{N}_i|}{t}\);方差闭式:\(O\big( (Y_{\max}^2 d^{2\beta} + \sigma^2 d^{\beta}) / (n p^{\beta}) \big)\)。 - 当 β = \(|\mathcal{N}_i|\),退化为 Horvitz-Thompson 估计量(方差指数于度)。 - 结论:模型复杂度 β 直接控制了方差对图的依赖(从指数于 d 降到多项式于 d,指 β 固定时)。

[1:20–1:27] 下界与最优性讨论 - 下界构造:均匀 p 的 d-正则图,构造式使 β-阶交互项交替 ±δ,推导出 MSE ≥ Ω(···),显示对 β 和 p 的指数依赖是必要的。 - 但下界在 p 较大时松弛:下界不含 d,而上界有 \(d^{2\beta}\),暗示可能存在改进空间(或构造较宽松)。讲者称在小 p 极限下(期望受处理邻居数 < 1)是紧的。

[1:27–1:37] 对观测研究的启示 - 若处理和选择满足无混杂性(给定协变量后处理分配条件独立),则可先估计倾向 \(\hat{p}_j\) 再代入估计量。 - 举非依从性 (noncompliance) 为例 [DiTraglia et al., 2023]:鼓励设计的接受概率可被估计。 - (字幕可能有误:“DiTraglia” 在转写中被听为“De Chaggia”,待确认。)

[1:37–1:46] 合成实验 - 设定:ER 图(期望度 = 10);β-degree 潜在结果模型(Quadratic on \(\sum w_{ij} z_j\)),控制网络效应/直接效应比 r。 - 基准:OLS(全局同质) + 差均估计量。 - 结果(仅 β=1,2 展示):伪逆估计量是唯一近似无偏的,虽方差略大,但 RMSE 优于基准。β 取大时方差暴涨,需更大 n 才能控制,验证了理论。

[1:46–1:59] 结论与 Q&A

讨论人 (Chengcheng Cai) 的回应与开放问题: - 讨论了模型选择(β 的选取)——过指定 vs. 欠指定的偏倚-方差权衡。讲者回应:对方差的指数依赖意味着盲目增大 β 代价大,实践中可能优先考虑 β=1。 - 是否达到均匀最小方差无偏估 (UMVUE)?讲者:未证明,仅展示了均方误差的正确标度。 - Q&A 中关于非多项式、非线性模型的问题:讲者指出,其模型(低阶多项式)与匿名干扰+非参数回归是不同方向的假设,没有包含关系。


四、对应论文与开放问题

对应论文:

  1. 主论文(本场报告直接对应的贡献)
    Mayleen Cortez-Rodriguez, Matthew Eichhorn, Christina Lee Yu.
    Exploiting Neighborhood Interference with Low Order Interactions under Unit Randomized Design.
    arXiv:2208.05553 (2022). (讲者明确提到"joint work with Mayleen Cortez-Rodriguez, and Matthew Eichhorn",且标题与 arXiv 编号匹配。)

  2. 关联论文(报告中提及但未展开):

  3. Christina Lee Yu, Edo Airoldi, Christian Borgs, Jennifer Chayes.
    Estimating Total Treatment Effect in Randomized Experiments with Unknown Network Structure.
    PNAS, 2022. arXiv:2205.12803.
  4. Mayleen Cortez-Rodriguez, Matthew Eichhorn, Christina Lee Yu.
    Staggered Rollout Designs Enable Causal Inference Under Interference Without Network Knowledge.
    NeurIPS, 2022. arXiv:2205.14552.

开放问题(从转写和 Q&A 中提取,每条标注来源时间点):

  1. 如何选择 β 最优? [H: 0:05 讲者回应 discussant 提问]
    转写中讲者说:"choosing beta is probably the most interesting practically relevant question"。过指定引起方差指数增长,欠指定带来偏倚,存在 bias-variance tradeoff,但目前缺少可操作的模型选择程序。

  2. 能否将方法扩展到观测研究(unconfoundedness)下的网络干扰? [H: 0:27–0:30]
    讲者提到某种倾向评分插件法,并引用 DiTraglia et al. (2023) 的非依从性场景,但表示需要系统性理论扩展,特别是如何应对未观测混杂。

  3. 伪逆估计量是否在某个意义上最优(UMVUE 或最小方差无偏)? [H: 讨论人提问 + 讲者回应 0:05]
    讲者明确回答 "I wouldn't claim that as UMVUE"。证明在正则图+均匀 p 下的 MSE 下界暗示必要性,但非紧;是否可达到 Cramér-Rao 下界不清楚。

  4. 非线性 / 非多项式模型下的推广? [H: Q&A 提问]
    如何将低阶交互的假设融入到更丰富的(如匿名干扰+非参数)模型中,使两个假设方向可以统一或并行。

  5. 对每个个体 i,能否利用其邻域以外的额外测量(如时间序列、多轮试验)来进一步放松对网络知识的要求?[关联到 arXiv:2205.14552,但报告中未深入]。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论