Causal effect estimation under network interference with mean-field methods¶

作者: Sohom Bhattacharya, Subhabrata Sen
来源: Annals of Statistics
主题: 其他
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2547

核心问题与动机¶

本文解决的是观测数据中存在网络干扰时的因果效应估计问题。在现实网络中，个体结局不仅受自身处理影响，还受邻居结局（交互作用）及远距离个体处理（长程干扰）的影响，传统SUTVA假设失效。已有方法通常只能处理稀疏网络或局部干扰，无法应对稠密交互与长程干扰并存的场景，且在大规模网络上缺乏可扩展的计算方法。

主要贡献¶

提出基于平均场的迭代算法：针对“平均场”交互网络，开发了可扩展的因果效应迭代估计算法。
提出基于近似消息传递（AMP）的算法：针对高斯加权网络，引入统计物理与高维统计中的AMP算法进行因果效应估计。
建立最大伪似然估计（MPL）的 $\sqrt{n}$-相合性：在所有参数区间内证明了模型未知参数MPL估计的 $\sqrt{n}$-相合性。
突破稠密交互的理论瓶颈：在“高温”条件下，证明了代入估计量的下游因果效应估计具有相合性，使方法能处理现有技术无法应对的稠密交互网络。

方法框架¶

模型设定：采用 Tchetgen Tchetgen et al. (2021) 的链图框架。设 $Y_i$ 为结局，$A_i$ 为处理，网络为 $G$。允许：(1) 相连个体结局间的交互（如 $Y_i$ 依赖 $Y_j$）；(2) 长程干扰（$Y_i$ 依赖远距 $A_j$）。
关键假设：
高温条件：源自统计物理，实质是限制交互强度不能过强，避免系统发生相变，保证平均场近似/AMP的精确性及解的唯一性。
平均场网络/高斯加权网络：网络结构满足特定谱或权重分布性质，使得平均场方程或AMP状态演化可追踪。
方法步骤：
基于链图模型写出联合分布。
使用最大伪似然（MPL）估计模型中的交互参数与处理效应参数。
将参数估计代入平均场迭代方程或AMP迭代算法中，求解个体在不同反事实处理分配下的期望结局，从而估计全局/局部平均处理效应。

主要理论结果¶

定理1（参数估计）：基于最大伪似然的参数估计量在所有参数区间（无论是否满足高温条件）均具有 $\sqrt{n}$-相合性。
定理2（下游因果效应估计）：在高温条件下，将MPL估计量代入平均场/AMP算法得到的下游因果效应估计量是相合的。
理论突破：现有网络干扰文献多聚焦于稀疏网络上的 $\sqrt{n}$ 渐近正态性，本文通过引入高温条件，首次在稠密交互网络下给出了相合性保证。

实验 / 数值仿真¶

摘要未提供具体仿真或实证细节。但基于方法特性，预期实验设计会包含：稠密网络与稀疏网络的对比、不同交互强度（高温 vs 低温/相变点）下的表现、以及算法在大规模网络上的运行时间对比。评估指标应为因果效应估计的偏差与均方误差。

与研究者兴趣的关联¶

因果推断：直接关联网络干扰下的因果识别与估计，突破了传统SUTVA和局部干扰假设。
高维统计与随机矩阵理论：高斯加权网络上的AMP算法是RMT与高维统计的核心工具，本文展示了其在因果推断中的前沿应用。
统计计算：平均场变分推断与AMP为大规模网络因果计算提供了极具潜力的矩阵/张量迭代算法思路。
可借鉴思路：将统计物理中的“高温条件/相变”概念作为正则条件引入因果推断，以及用伪似然处理网络依赖结构，对处理复杂依赖结构下的半参数/效率理论有启发。

局限性与开放问题¶

高温条件的限制：理论保证在高温条件（弱交互）下成立，若网络存在强交互（低温/相变区），平均场近似失效，下游估计量的相合性未知。
半参数效率界限缺失：目前仅建立相合性，未给出网络干扰下因果效应的半参数效率下界，也未探讨估计量是否渐近有效。
网络模型假设较强：高斯加权网络或平均场网络假设在真实社交网络中可能过于理想化，如何推广到一般稀疏图（如度分布重尾）是开放问题。
Debiased ML的缺失：参数估计目前基于MPL，未结合去偏机器学习处理高维混杂，可能是在高维协变量下的扩展方向。

Maintained by 陈星宇 · Homepage · Source on GitHub