Exploiting Neighborhood Interference with Low Order Interactions under Unit Randomized Design¶

讲者: Christina Yu
讨论人: Chencheng Cai - Q&A moderator: Mayleen Cortez and Matt Eichhorn
来源: OCIS (Online Causal Inference Seminar)
日期: 2023-02-28
主题: 因果推断
视频: https://youtu.be/pskRH11mADI · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：网络干扰下的因果推断——如何从实验数据中估计全局处理效应。

在因果推断中，经典假设是 SUTVA（稳定单元处理值假设），即个体结果只依赖其自身处理。但在社交网络、市场干预、在线平台等场景中，个体的处理会影响他人的结果，这称为干扰 (interference)。当干扰存在时，估计“如果所有人都接受处理 vs. 所有人都接受对照”的总处理效应 (TTE) 变得困难。

该领域沿两条轴发展：

实验设计轴：从最简单的个体随机化 (unit-randomized/Bernoulli design)，到更复杂的聚类随机化 (cluster-randomized design)，后者需依赖图结构的先验知识。
模型结构轴：从完全一般 (fully general) 不做任何假设的潜在结果模型（此时可用的 Horvitz-Thompson 估计量方差随度指数增长），到施加结构假设的模型，如：
部分干扰 (partial interference) — 图可分解为互不连通的分组，在此分组上随机化 [Sobel 2006; Hudgens & Halloran 2008]。
线性/参数化模型 — 假设结果以已知方式（如受处理邻居数/比例）依赖于处理 [Toulis & Kao 2013; Basse & Airoldi 2015]；但通常要求匿名干扰 + 特征工程，且参数数量不能随 n 增长。
(?) 低阶交互模型 (low-order interaction model) — 本场报告的核心贡献，用一个多项式度 (Polynomial degree) β 来度量模型复杂度。

报告的起点是文献中一块未被系统处理的空白：

在个体随机化（Bernoulli design）设计的实验下，能否设计一个估计量，使其方差由潜在结果模型中交互的“阶数” (β) 决定，而不是完全由图的度 (d) 决定？

该问题将图复杂度 (d)与模型复杂度 (β) 分开。若真实交互阶数 β ≪ d，则方差可大幅降低，且不需要改变实验设计（仍用简单的 Bernoulli 随机化），也不需要网络信息以外的数据。

报告对应 arXiv:2208.05553 (Cortez-Rodriguez, Eichhorn, Yu, 2022)，并在讨论中关联到作者另外两篇工作： - Yu, Airoldi, Borgs, Chayes (PNAS, 2022; arXiv:2205.12803) — 利用更丰富的测量放松网络知识要求； - Cortez-Rodriguez, Eichhorn, Yu (NeurIPS, 2022; arXiv:2205.14552) — 利用分期推出 (staggered rollout) 设计实现图未知下的推断。

二、最小内核 / 一个最简例子¶

符号与设定：

固定大小为 \(n\) 的总体，图或邻接结构已知，定义个体 \(i\) 的邻域 \(\mathcal{N}_i\)（包含 \(i\) 自身，大小 ≤ \(d\)）。
潜在结果函数 \(Y_i: \{0,1\}^n \to \mathbb{R}\)。
可观测数据：仅从一个实验（一次处理分配 \(\mathbf{z} \in \{0,1\}^n\)）中获得观测值 \(Y_i^{\text{obs}} = Y_i(\mathbf{z}) + \epsilon_i\)，\(\epsilon_i \overset{iid}{\sim} N(0, \sigma^2)\)。
处理分配：Bernoulli 设计，\(\Pr(z_j = 1) = p_j\)，独立。
目标 estimand：
\[\text{TTE} = \frac{1}{n} \sum_{i=1}^n \big[ Y_i(\mathbf{1}) - Y_i(\mathbf{0}) \big].\]

最简例子（β = 1，线性模型）：

假设邻域干扰下，潜在结果可分解为个体主效应 + 可加的网络效应（这是 Heterogeneous Additive Network Effects 模型，即 β=1 的特例）：

\[Y_i(\mathbf{z}) = \alpha_i + c_{ii} z_i + \sum_{k \in \mathcal{N}_i \setminus \{i\}} c_{ik} z_k.\]

此时： - 每个个体 \(i\) 对应的未知系数向量 \(w_i = (\alpha_i, c_{ii}, c_{ik})_{k \in \mathcal{N}_i \setminus \{i\}}\) 有 \(|\mathcal{N}_i|+1\) 个分量，大于其单个观测值，因此每个个体的回归问题是不可识别的。 - 核心思想：从处理分配 \(\mathbf{z}\) 的随机性中借信息。将 \(Y_i^{\text{obs}}\) 写为：

\[Y_i^{\text{obs}} = w_i^\top \tilde{z}_i + \epsilon_i,\quad \tilde{z}_i = (1, z_{i}, \{z_k\}_{k \in \mathcal{N}_i \setminus i}).\]

“想象如果有 M 次独立的实验复制”：在每次复制 \(m\) 中观测到 \((\tilde{z}_i^{(m)}, Y_i^{\text{obs}, (m)})\)，则对每个个体 \(i\) 可用 OLS 得到 \(w_i\) 的无偏估计。但现实只有一个复制（\(M=1\)），OLS 不可行。

伪逆估计量的绕过方式：直接对每个个体的系数向量构造无偏估计，而不是通过回归。

定义 \(W_i = \mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]^{-1} \cdot \mathbb{E}[\tilde{z}_i Y_i^{\text{obs}}]\)。由于随机化已知，\(\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]\) 可解析计算（并证明对 Bernoulli 设计可逆）。
用单次样本 \(\tilde{z}_i, Y_i^{\text{obs}}\) 替换第二个期望，得到无偏估计：
\[\widehat{W}_i = \mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]^{-1} \cdot (\tilde{z}_i Y_i^{\text{obs}}).\]
TTE 是 \(w_i\) 的线性泛函：\(\text{TTE} = \frac{1}{n} \sum_i \theta^\top w_i\)，其中 \(\theta = (0, 1, 1, \dots, 1)\)（屏蔽基线，对所有 c 系数加权求和为 1）。于是：
\[\widehat{\text{TTE}} = \frac{1}{n} \sum_{i=1}^n \theta^\top \widehat{W}_i.\]

对 β=1 且 Bernoulli 设计（概率 \(p_j\)），\(\theta^\top \widehat{W}_i\) 可解析化为：

\[\widehat{\text{TTE}} = \frac{1}{n} \sum_{i=1}^n Y_i^{\text{obs}} \sum_{j \in \mathcal{N}_i} \left( \frac{z_j}{p_j} - \frac{1-z_j}{1-p_j} \right).\]

该形式等于 Li & Wager (2022) 中的 Horvitz-Thompson 型估计量。注意：其估计量是用自身的观测值 \(Y_i^{\text{obs}}\) 乘以 邻域中每项的反概率权重，而非仅用自己的权。

推广到一般 β： 将特征 \(\tilde{z}_i\) 替换为所有大小 ≤ β 的子集 S 上的乘积 \(\prod_{j \in S} z_j\)，其余步骤完全平行。系数数量为 \( \sum_{t=1}^\beta \binom{|\mathcal{N}_i|}{t} \)。方差随 β 指数增长（\(\sim d^{2\beta} / (n p^{\beta})\)），但不再依赖于度 d 的高次项。

三、报告主体：讲者讲了什么¶

[0:00–0:11] 引言与动机 - 数据来自 OCIS 2023/02/28，讲者 Christina Yu (Cornell)，讨论人 Chengcheng Cai (Temple)。 - 动机问题：社交媒体平台要评估新推荐算法，如果只随机分配用户到新/旧算法，但由于用户间相互影响，对照用户接收到来自受处理朋友的内容——即干扰。

[0:11–0:20] 问题设定与困难 - 框架：从 n 个用户构成的网络中，观测一次随机实验（单个处理向量 \(\mathbf{z}\)），预算限制使处理比例 p 常较小。 - 目标 estimand: TTE = 全部处理 vs. 全部控制的平均差异。 - 假设：邻域干扰 — 个体 i 的结果只依赖其邻域 \(\mathcal{N}_i\) 的处理向量。 - 在 SUTVA 下，差均估计量有意义；在干扰下，由于观测来自混杂的处理配置，差均估计量有严重偏倚。

[0:20–0:30] 文献全景 - 讲者用二维矩阵总结文献：X轴 = 模型结构（从一般到特定），Y轴 = 图结构（从一般到特定）。 - 各角落的代表：
- 完全一般 + Bernoulli 设计 → Horvitz-Thompson (H-T) 估计量，方差指数于度。
- 部分干扰 + 聚类随机化 → H-T 型，方差依赖社区数。
- κ-限制增长图 + 聚类随机化 → H-T 型，方差多项式于度（利用 3-net 聚类 [Ugander et al.]）。
- 线性模型 + Bernoulli → OLS，但需要匿名干扰 + 特征工程 + 同质性假设，参数数不随 n 增长。 - 本报告定位：引入低阶交互模型 (β-阶多项式)，提出在标准 Bernoulli 设计下的伪逆估计量，方差由 β 而非度 d 控制。

[0:30–0:55] 模型形式与可视化 - 在任何邻域干扰下，潜在结果可写为 \(\mathcal{N}_i\) 上的多项式（度 ≤ \(|\mathcal{N}_i|\)）。 - 低阶交互假设：多项式度 ≤ β ≪ \(|\mathcal{N}_i|\)，即系数 \(c_{i,S} = 0\) 对所有 \(|S| > \beta\)。任一该假设对应于潜在结果函数中只存在不超过 β 个个体之间的交互效应。 - 在 β=1 时退化为 Heterogeneous Additive Network Effects (HANE) 模型：\(Y_i = \alpha_i + c_{ii} z_i + \sum_{k \neq i} c_{ik} z_k\)。该模型允许每个个体-个体对都具有自己的效应系数 c_{ik}，比常见的线性回归（对所有人共享一个 γ 系数）更灵活。 - 举例：社区内干扰（β = 最大子社区大小）；“聚会室”特征（β = 5）；结果是对邻域处理的线性组合的非线性函数（β = 该非线性函数的度）；三元交互（β = 3）。

[0:55–1:12] 伪逆估计量的构建 (β=1 起) - 核心思路：对每个个体 i，构造其局部系数向量 w_i 的无偏估计 \(\widehat{W}_i\)。 - 关键工具：已知随机化矩阵 \(\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top]\) 对 Bernoulli 设计可逆。 - 构造：\(\widehat{W}_i = (\mathbb{E}[\tilde{z}_i \tilde{z}_i^\top])^{-1} \cdot (\tilde{z}_i Y_i^{\text{obs}})\)。 - 注意：\(\widehat{W}_i\) 跨 i 非独立（因共享邻域），但在 TTE 估计量中求平均后，方差分析需处理相关性。 - 得到 β=1 的闭式估计量：

\[\widehat{\text{TTE}} = \frac{1}{n} \sum_i Y_i^{\text{obs}} \sum_{j\in \mathcal{N}_i} \left( \frac{z_j}{p_j} - \frac{1-z_j}{1-p_j} \right).\]

方差：\(O\big( (Y_{\max}^2 d^3 + \sigma^2 d) / (n p) \big)\) 当 p 均匀。 - 无偏性验证：展开期望，利用独立性引理。

[1:12–1:20] 推广到一般 β - 将特征从 \(\{z_j\}\) 替换为所有大小 ≤ β 的子集乘积 \(\prod_{j \in S} z_j\)。 - 推导完全平行：系数数量 = \(\sum_{t=0}^\beta \binom{|\mathcal{N}_i|}{t}\)；方差闭式：\(O\big( (Y_{\max}^2 d^{2\beta} + \sigma^2 d^{\beta}) / (n p^{\beta}) \big)\)。 - 当 β = \(|\mathcal{N}_i|\)，退化为 Horvitz-Thompson 估计量（方差指数于度）。 - 结论：模型复杂度 β 直接控制了方差对图的依赖（从指数于 d 降到多项式于 d，指 β 固定时）。

[1:20–1:27] 下界与最优性讨论 - 下界构造：均匀 p 的 d-正则图，构造式使 β-阶交互项交替 ±δ，推导出 MSE ≥ Ω(···)，显示对 β 和 p 的指数依赖是必要的。 - 但下界在 p 较大时松弛：下界不含 d，而上界有 \(d^{2\beta}\)，暗示可能存在改进空间（或构造较宽松）。讲者称在小 p 极限下（期望受处理邻居数 < 1）是紧的。

[1:27–1:37] 对观测研究的启示 - 若处理和选择满足无混杂性（给定协变量后处理分配条件独立），则可先估计倾向 \(\hat{p}_j\) 再代入估计量。 - 举非依从性 (noncompliance) 为例 [DiTraglia et al., 2023]：鼓励设计的接受概率可被估计。 - (字幕可能有误：“DiTraglia” 在转写中被听为“De Chaggia”，待确认。)

[1:37–1:46] 合成实验 - 设定：ER 图（期望度 = 10）；β-degree 潜在结果模型（Quadratic on \(\sum w_{ij} z_j\)），控制网络效应/直接效应比 r。 - 基准：OLS（全局同质） + 差均估计量。 - 结果（仅 β=1,2 展示）：伪逆估计量是唯一近似无偏的，虽方差略大，但 RMSE 优于基准。β 取大时方差暴涨，需更大 n 才能控制，验证了理论。

[1:46–1:59] 结论与 Q&A

讨论人 (Chengcheng Cai) 的回应与开放问题： - 讨论了模型选择（β 的选取）——过指定 vs. 欠指定的偏倚-方差权衡。讲者回应：对方差的指数依赖意味着盲目增大 β 代价大，实践中可能优先考虑 β=1。 - 是否达到均匀最小方差无偏估 (UMVUE)？讲者：未证明，仅展示了均方误差的正确标度。 - Q&A 中关于非多项式、非线性模型的问题：讲者指出，其模型（低阶多项式）与匿名干扰+非参数回归是不同方向的假设，没有包含关系。

四、对应论文与开放问题¶

对应论文：

主论文（本场报告直接对应的贡献）
Mayleen Cortez-Rodriguez, Matthew Eichhorn, Christina Lee Yu.
Exploiting Neighborhood Interference with Low Order Interactions under Unit Randomized Design.
arXiv:2208.05553 (2022). (讲者明确提到"joint work with Mayleen Cortez-Rodriguez, and Matthew Eichhorn"，且标题与 arXiv 编号匹配。)
关联论文（报告中提及但未展开）：
Christina Lee Yu, Edo Airoldi, Christian Borgs, Jennifer Chayes.
Estimating Total Treatment Effect in Randomized Experiments with Unknown Network Structure.
PNAS, 2022. arXiv:2205.12803.
Mayleen Cortez-Rodriguez, Matthew Eichhorn, Christina Lee Yu.
Staggered Rollout Designs Enable Causal Inference Under Interference Without Network Knowledge.
NeurIPS, 2022. arXiv:2205.14552.

开放问题（从转写和 Q&A 中提取，每条标注来源时间点）:

如何选择 β 最优？ [H: 0:05 讲者回应 discussant 提问]
转写中讲者说："choosing beta is probably the most interesting practically relevant question"。过指定引起方差指数增长，欠指定带来偏倚，存在 bias-variance tradeoff，但目前缺少可操作的模型选择程序。
能否将方法扩展到观测研究（unconfoundedness）下的网络干扰？ [H: 0:27–0:30]
讲者提到某种倾向评分插件法，并引用 DiTraglia et al. (2023) 的非依从性场景，但表示需要系统性理论扩展，特别是如何应对未观测混杂。
伪逆估计量是否在某个意义上最优（UMVUE 或最小方差无偏）？ [H: 讨论人提问 + 讲者回应 0:05]
讲者明确回答 "I wouldn't claim that as UMVUE"。证明在正则图+均匀 p 下的 MSE 下界暗示必要性，但非紧；是否可达到 Cramér-Rao 下界不清楚。
非线性 / 非多项式模型下的推广？ [H: Q&A 提问]
如何将低阶交互的假设融入到更丰富的（如匿名干扰+非参数）模型中，使两个假设方向可以统一或并行。
对每个个体 i，能否利用其邻域以外的额外测量（如时间序列、多轮试验）来进一步放松对网络知识的要求？[关联到 arXiv:2205.14552，但报告中未深入]。

Maintained by 陈星宇 · Homepage · Source on GitHub

Exploiting Neighborhood Interference with Low Order Interactions under Unit Randomized Design¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论