Causal effect estimation under network interference with mean-field methods¶
作者: Sohom Bhattacharya, Subhabrata Sen
来源: Annals of Statistics
主题: 其他
相关性: 8/10
链接: https://doi.org/10.1214/25-aos2547
核心问题与动机¶
本文解决的是观测数据中存在网络干扰时的因果效应估计问题。在现实网络中,个体结局不仅受自身处理影响,还受邻居结局(交互作用)及远距离个体处理(长程干扰)的影响,传统SUTVA假设失效。已有方法通常只能处理稀疏网络或局部干扰,无法应对稠密交互与长程干扰并存的场景,且在大规模网络上缺乏可扩展的计算方法。
主要贡献¶
- 提出基于平均场的迭代算法:针对“平均场”交互网络,开发了可扩展的因果效应迭代估计算法。
- 提出基于近似消息传递(AMP)的算法:针对高斯加权网络,引入统计物理与高维统计中的AMP算法进行因果效应估计。
- 建立最大伪似然估计(MPL)的 $\sqrt{n}$-相合性:在所有参数区间内证明了模型未知参数MPL估计的 $\sqrt{n}$-相合性。
- 突破稠密交互的理论瓶颈:在“高温”条件下,证明了代入估计量的下游因果效应估计具有相合性,使方法能处理现有技术无法应对的稠密交互网络。
方法框架¶
- 模型设定:采用 Tchetgen Tchetgen et al. (2021) 的链图框架。设 $Y_i$ 为结局,$A_i$ 为处理,网络为 $G$。允许:(1) 相连个体结局间的交互(如 $Y_i$ 依赖 $Y_j$);(2) 长程干扰($Y_i$ 依赖远距 $A_j$)。
- 关键假设:
- 高温条件:源自统计物理,实质是限制交互强度不能过强,避免系统发生相变,保证平均场近似/AMP的精确性及解的唯一性。
- 平均场网络/高斯加权网络:网络结构满足特定谱或权重分布性质,使得平均场方程或AMP状态演化可追踪。
- 方法步骤:
- 基于链图模型写出联合分布。
- 使用最大伪似然(MPL)估计模型中的交互参数与处理效应参数。
- 将参数估计代入平均场迭代方程或AMP迭代算法中,求解个体在不同反事实处理分配下的期望结局,从而估计全局/局部平均处理效应。
主要理论结果¶
- 定理1(参数估计):基于最大伪似然的参数估计量在所有参数区间(无论是否满足高温条件)均具有 $\sqrt{n}$-相合性。
- 定理2(下游因果效应估计):在高温条件下,将MPL估计量代入平均场/AMP算法得到的下游因果效应估计量是相合的。
- 理论突破:现有网络干扰文献多聚焦于稀疏网络上的 $\sqrt{n}$ 渐近正态性,本文通过引入高温条件,首次在稠密交互网络下给出了相合性保证。
实验 / 数值仿真¶
摘要未提供具体仿真或实证细节。但基于方法特性,预期实验设计会包含:稠密网络与稀疏网络的对比、不同交互强度(高温 vs 低温/相变点)下的表现、以及算法在大规模网络上的运行时间对比。评估指标应为因果效应估计的偏差与均方误差。
与研究者兴趣的关联¶
- 因果推断:直接关联网络干扰下的因果识别与估计,突破了传统SUTVA和局部干扰假设。
- 高维统计与随机矩阵理论:高斯加权网络上的AMP算法是RMT与高维统计的核心工具,本文展示了其在因果推断中的前沿应用。
- 统计计算:平均场变分推断与AMP为大规模网络因果计算提供了极具潜力的矩阵/张量迭代算法思路。
- 可借鉴思路:将统计物理中的“高温条件/相变”概念作为正则条件引入因果推断,以及用伪似然处理网络依赖结构,对处理复杂依赖结构下的半参数/效率理论有启发。
局限性与开放问题¶
- 高温条件的限制:理论保证在高温条件(弱交互)下成立,若网络存在强交互(低温/相变区),平均场近似失效,下游估计量的相合性未知。
- 半参数效率界限缺失:目前仅建立相合性,未给出网络干扰下因果效应的半参数效率下界,也未探讨估计量是否渐近有效。
- 网络模型假设较强:高斯加权网络或平均场网络假设在真实社交网络中可能过于理想化,如何推广到一般稀疏图(如度分布重尾)是开放问题。
- Debiased ML的缺失:参数估计目前基于MPL,未结合去偏机器学习处理高维混杂,可能是在高维协变量下的扩展方向。
Maintained by 陈星宇 · Homepage · Source on GitHub