跳转至

A dynamic additive and multiplicative effects network model with application to the United Nations voting behaviors

作者: Bomin Kim, Xiaoyue Niu, David Hunter, Xun Cao
来源: Annals of Applied Statistics
主题: 经济理论 / 应用
相关性: 6/10
机构绿灯: Pennsylvania State University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1214/23-aoas1762


一、领域脉络与小综述

这个方向是什么

这个子方向是动态网络回归建模,核心关注的是如何对随时间变化的、节点间存在依赖关系的二元关系(如国家间的投票相似性、社交网络中的好友关系)进行统计建模。它要解决的根本问题是:在考虑网络结构自身的相关性(如传递性、互惠性)以及时间相关性(如上一年的投票态度影响今年)的前提下,识别出节点层面的协变量(如国家GDP、民主程度)对二元响应变量(如两国投票是否一致)的因果/相关效应。当前成熟度属于方法应用型:已有较成熟的静态模型(AMEN),本文是将其推广到动态情形,并应用到政治经济学领域的具体数据集。

发展脉络(history)

根据论文引言和引用的文献,该方向的发展脉络如下:

  • 奠基工作(Latent space models)
  • Hoff, Raftery, Handcock (2002):开创性地提出用潜在空间(latent space)对网络依赖结构建模,假设节点在一个潜在空间中的位置距离决定了其连接概率。这奠定了用低维嵌入捕捉网络依赖的思想基础。
  • Hoff (2005):进一步提出加性与乘性效应网络模型(AMEN),将连接概率分解为节点自身的“活跃度”(sender/receiver additive effects)和节点对之间的“亲和度”(multiplicative effects,即潜在空间中位置的内积)。这使得节点间的“二阶交互”更灵活,例如可以处理传递性(“朋友的朋友是朋友”)。

  • 主要进展(纵向动态网络)

  • Sewell & Chen (2015):首次将潜在空间模型扩展到动态场景,允许节点的潜在位置随时间通过马尔可夫过程演化(如随机游走或自回归过程),从而捕捉网络结构的平滑变化。
  • Durante & Dunson (2014):提出了一个动态逻辑回归模型用于二元网络,但只包含了节点和时间的固定效应,缺失了AMEN中的乘性效应——即节点对之间的特定亲和性。这是本文定位的一个关键缺口:认为这类忽视“加性与乘性效应结合”的动态模型可能无法充分捕捉网络依赖。

  • 当前FRONTIER与本文定位

  • Hoff (2021):提出了静态AMEN的完整回归框架和MCMC估计方案。本文的出发点就是把这个模型“动态化”。
  • Zheng, Salganik, Gelman (2006):早期提出用潜在社会空间模型分析纵向网络数据,但模型结构较为简单。
  • 本文的位置:论文明确将其工作定位为“Hoff (2021)的动态扩展”,并特意区别于两种竞争路线:一是前述的“仅含固定效应的动态逻辑回归”(如Durante & Dunson),二是“允许节点位置随机游走但未包含加性效应”的模型。本文声称其贡献在于:同时保留了加性和乘性效应,并允许他们在时间上按线性自回归过程演化,同时在应用层面解决了网络规模随时间变化两种缺失数据处理的实操问题。

子线索聚类

这些被引文献大致落在以下3条子线索上:

  1. 基于潜在空间的网络模型(Latent space models):以Hoff等人的AMEN系列代表。中心思想是通过一个低维潜在向量对节点对之间的依赖进行参数化,用节点间的“距离”或“内积”作为链接概率的预测因子。本模型属于此线索下的“动态化”发展。
  2. 动态网络模型(Dynamic network models):以Sewell & Chen,Durante & Dunson,Zheng et al. 为代表。其共同核心是如何将时间结构(如一阶马尔可夫过程、结构化转移)融入网络相依性中。竞争点是参数化的复杂性:是只用节点随机效应(Sewell & Chen),还是加节点+时间固定效应(Durante & Dunson),还是同时加上矩阵分解(本文)。
  3. 具有特定缺失数据机制的网络模型:以Kaiser (2015) 及 Handcock and Gile (2010) 的隐参数网络模型。本文特别关注了网络规模变化非随机缺失,并在扩展中处理了类型I(完全随机缺失,如国家某年不存在于UN)类型II(可忽略缺失,如只记录可用记录)

这个方向在追问的核心问题

  • 核心问题1:如何在动态网络模型中,同时参数化解释变量对连接概率的“回归系数”网络内在的依赖结构(加性/乘性效应用来捕捉的“α_i”和“内积”部分)**?
  • 核心问题2:如何对随时间演化的潜在变量(如α_i(t), u_i(t))建模? 是独立于时间的“快照”还是平滑演化的马尔可夫过程?本文选择了一阶自回归(AR(1))作为平滑先验。
  • 核心问题3:如何处理动态网络中的缺失数据? 当网络节点(如国家)随时间进进出出,且缺失机制(如未投票)可能信息性时,如何避免估计偏倚?
  • 主流方法与瓶颈:主流方法倾向于在节点水平引入随机游走,但要么丢失了乘法效应(丢失了传递性/三维团簇参数的建模能力),要么计算量巨大(对于大网络,每次MCMC采样潜在位置的高斯分布极为困难)。瓶颈在于可扩展性:MCMC采样面对长时间、大网络时的计算时间。

⚠️ 作者的 framing

  • 作者的缺口 frame:作者将缺口定义为“现有加性与乘性效应网络模型仅限于静态情形”。因此,本文“显然的下一步”就是“静态->动态、引入时间结构”。这是ad-hoc型的扩展,而非理论框架的根本革新。
  • 被淡化的竞争路线:作者只提到“但缺少乘性效应”或“但有其他实体数量”作为定语草草带过,并未深入比较自己在MCMC收敛速度、模型拟合优度(AIC/BIC等)上的相对优势。本文定位是一个领域应用实例展示,而不是一个方法学竞赛论文。
  • 明显该被引/该存在却未出现的缺失了因果推断文献。网络数据中,因为存在“同伴效应”(如A国的投票倾向受B国影响),直接做regression会严重偏倚。关于网络干预/网络因果推断的work(如对特定机制断点/随机实验的假设)完全没有被引用。这可能是作者的政治学背景决定的,但对统计研究者(如陈星宇)而言,这是一个重要的视角缺口:为何不考虑工具变量、倾向分匹配、或某种形式的反事实识别?
  • 缺失的Benchmark:论文引用了Durante & Dunson (2014) 但未直接与其拟合进行比较。比较的模拟baseline是“去掉某模型成分”而非竞争动态模型。这一点表明应用的发表目标在于“示范模型功能”,而非证明模型优越。

张力

未见明显的对立引用。所有被引的工作都与本文保持一致——即都认可“潜在变量法”或“MCMC”作为网络建模的主流方式。分歧仅在于模型化时间的深度和缺失数据的处理。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据交代清楚

  • 可观测数据:研究者观测到一个时间序列网络\(\{Y_{i,j,t}\}_{t=1}^T\)。其中 \(Y_{i,j,t} \in \{0,1\}\) 是一个二元变量。例如,对国家i和国家j在第t年联合国大会上的投票,“1”表示两国投票一致(yes/yes 或 no/no),“0”表示不一致(一个yes一个no)。关键信息:这不是有向网络(如发消息),而是无向的二元关系(投票的相似性)。观测到节点集合是有一组国家 \(i=1,...,N_t\),且每年 \(N_t\) 不一定相等(UN新进会员国等所致失踪)。
  • 协变量:观测到一组节点层面或节点对层面的解释变量,储存在设计矩阵 \(X\)中,例如:GDP差异、是否同一联盟、是否西方国家、民主指数等。
  • 模型参数/潜在变量
  • \(\theta_{i,j,t}\) :在t年时国家i和国家j投票一致的经转换的概率。是模型的核心线性预测器(latent linear predictor),最终由logit(\(\theta_{i,j,t}\)) = \(f(\cdot)\)
  • \(\beta\): 解释变量的回归系数(需要估计的目标)。它反映协变量对投票一致性的“平均效应”。
  • \(\alpha_t\): 时间固定效应,每年的截距项。
  • \(a_{i,t}\):国家i在t年的加性发送/接收效应(Sender/Receiver additive effect)。它捕捉了该国家历年的“投票孤立程度”或“整体活跃度”。
  • \(u_{i,t} \in \mathbb{R}^d\):国家i在t年的乘性效应向量,是一个R^d中的潜在位置向量(典型d=2或3)。这个向量的内积 \(u_{i,t}^T u_{j,t}\) 捕捉了国家i和国家j之间“特殊的亲和性”或“盟友情”——即排除了截距和边际后,它们直接的投票相似度。越大、越正的“内积”意味着两国在该年有超乎平均的投票一致性。
  • \(\rho_{a}, \rho_{U}\): 自回归系数,控制加性和乘性效应在时间上的延续性。
  • \(\sigma_a^2, \sigma_u^2\): 驱动自回归过程的高斯白噪声的方差。

  • 模型总结(一条核心的logit回归公式)

    \[\text{logit}\big(P(Y_{i,j,t}=1)\big) = \alpha_t + \beta^T X_{i,j,t} + a_{i,t} + a_{j,t} + u_{i,t}^T u_{j,t}\]
    这就是完整的“动态AMEN”的线性预测器。其中,\(a_{i,t}\)\(u_{i,t}\) 在时间上的演化服从AR(1)过程:
    \[a_{i,t} \sim \mathcal{N}(\rho_a a_{i,t-1}, \sigma_a^2)\]
    \[u_{i,t} \sim \mathcal{N}(\rho_u u_{i,t-1}, \sigma_u^2 I_d)\]

  • 关键识别性假设:为了可从观测数据中识别\(a_{i,t}\)\(u_{i,t}\),模型假设了某种形式的先验Bail-in(如Hoff 2021,用截断高斯/保证唯一旋转不变性),以及对时间演化过程的马尔可夫+高斯噪声假设。不可观测的量就是这些\(a\)\(u\)——它们是latent变量,我们只能看见\(\{Y_{i,j,t}\}\),并依靠似然函数把它们“推”出来(就像因子模型中因子一样)。

第二步:讲最小内核

这个模型本质上是一个特例的推广:它把“静态的、节点不变的AMEN” (Hoff 2021)推广到了“随时间演化的AMEN”。它并非一个全新的数学框架。

最简特例:考虑 T=2, N=3 国家 (i=1,2,3)d=1 (乘性效应是一维标量),假设没有协变量 X时间固定效应 \(\alpha_t\)。那么模型退化成:

  • 在时间1:
    \(\text{logit}(\pi_{12,1}) = a_{1,1} + a_{2,1} + u_{1,1} u_{2,1}\) \(\text{logit}(\pi_{13,1}) = a_{1,1} + a_{3,1} + u_{1,1} u_{3,1}\) \(\text{logit}(\pi_{23,1}) = a_{2,1} + a_{3,1} + u_{2,1} u_{3,1}\)

  • 在时间2: 公式同,但参数为 \(a_{i,2}, u_{i,2}\)

  • 时间动态:\(a_{i,2} = \rho_a a_{i,1} + \epsilon_{i,a}\) (\(\epsilon\)是高斯噪声); \(u_{i,2} = \rho_u u_{i,1} + \epsilon_{i,u}\).

在这个特例下,核心数学问题是:给定可观测的6个二元变量 \(\{Y_{12,1}, Y_{13,1}, Y_{23,1}, Y_{12,2}, Y_{13,2}, Y_{23,2} \}\),估计参数 \(\beta\) (此处无), 潜在变量 \(a_{i,1}, u_{i,1}\) 和演化参数 \(\rho_a, \rho_u\)

证明/估计怎么走: - Bayesian MCMC:既然不可直接进行极大似然估计(因潜在变量维度随N增加),本文依靠贝叶斯框架。其“核心想法”不是通过解析解,而是通过先验(对初始时间\(t=1\)点的\(\alpha\)\(u\)做弱信息先验,如Normal(0,1))和似然函数MCMC采样。 - 关键的“轻松”部分:在给定\(t-1\)年的\(a,u\)和参数\(\rho\)时,\(t\)年的\(a,u\)的先验分布是已知的高斯(AR(1)的作用)。这使得MCMC可以通过Gibbs采样的方式,交替采样 \(a\)\(u\)(给定\(\beta\)\(\rho\))以及 \(\beta\)\(\rho\)(给定 \(a\)\(u\))。 - 困难部分:乘性效应 \(u\) 的采样,特别是对MCMC的匹配。因为\(u_{i,t}\)的似然由logit(\(u_{i,t}^T u_{j,t}\))的非线性方式进入所有边,一个全条件分布是复杂的非标准分布。作者用了一个Metropolis-Hastings步骤(如随机游走抽样)来应对。本文的动态化的另一大困难是:参数数量随着时间线性增长(每一年多出的\(\alpha,a,u\)都是要被采样的),导致链的混合难、自相关强。 - 解决办法:使用了数据增强(Data augmentation)技巧:引入连续潜变量\(Z_{i,j,t}\)使得logit回归可以视为Probit回归的处理,使得采样变得更容易(共轭高斯)。本文继承这一经典做法(Albert and Chib, 1993)。

一句话:就算是最简单的情况,这篇论文要做的数学工作也不是“证明一个漂亮定理”,而是“使用现有的MCMC工具,实现一个扩展了参数空间的贝叶斯动态网络回归模型”。其“新颖点”主要在于模型设定的扩展和具体应用实践。

三、这篇论文做了什么(重头戏)

三句话

  • ① 研究问题:本文提出一个动态加性与乘性效应网络模型(动态AMEN),用于分析联合国投票行为的时间序列网络数据,能够处理缺失数据(包括国家进/出UN的Type I缺失和年份内未投票的Type II缺失),并能识别影响投票行为的因素。
  • ② 核心工具/方法:扩展了Hoff (2021)的静态AMEN模型,在logit回归的线性预测器中加入了时间固定效应 (\(\alpha_t\)),并让加性效应 (\(a_{i,t}\))和乘性效应向量 (\(u_{i,t}\))随时间按照自回归过程AR(1) 演化。参数估计采用基于潜变量数据增强的MCMC方法(Gibbs + Metropolis-Hastings)。
  • ③ 主要结论
  • 方法论上:模拟证实,如果错误使用静态AMEN或去除了动态结构中任一成分(如只加节点自回归、或维持乘法效应独立于时间),会导致参数估计偏倚或拟合劣化。
  • 应用上:在1983-2014UN投票数据中,发现了民主水平贸易依存度同盟关系对投票一致性的显著正效应;模型揭示出如美国等国在加性效应 \(a_{i,t}\) 上的长期孤立趋势,以及中俄等国在乘性效应上的“盟友情”随时间变化模式。

关键设定与假设

  • 设定:研究者观测到的二元网络是无向的(投票一致/不一致),且同一时间点内边是条件独立的(给定潜在变量)。
  • 核心假设
  • 条件独立性假设\(P(Y_{i,j,t} | \beta, a, u, \alpha) = \prod_{t} \prod_{(i,j)} P(Y_{i,j,t} | \theta_{i,j,t})\)。即给定所有潜在变量和回归参数后,网络中的每一条边在不同时间点之间、以及同一时间点内不同节点对之间的响应是相互独立的。这是此类模型的核心辨识许可,但缺乏对“时间相依性”的其他复杂处理(如马尔可夫够模型)。
  • AR(1)先验\(a_{i,t} \sim N(\rho_a a_{i,t-1}, \sigma_a^2)\), 且类似的\(u_{i,t}\)演化。这是一种平滑的先验假设,加强了时间上的连续性,但实际上可能过于刚性。
  • 先验独立性假设:对于初始时间(t=1)的潜在变量赋予独立的高斯先验:\(a_{i,1} \sim N(0, \sigma_{a0}^2)\)\(u_{i,1} \sim N(0, \sigma_{u0}^2 I)\)
  • 缺失数据假定:类型I缺失(进/出网络)假设为完全随机(MCAR):国家某年缺席UN会议事件与未被观测值无关。类型II失(单个年份未投票)假设为可忽略缺失(MAR):给定观测数据,未投票的可能性与未知的待估参数独立(由投票行为本身的模型捕捉)。

主要结果(理论部分+应用部分)

理论/方法部分: - 文章没有提出任何新的统计检验或渐近定理。它的主要“结果”是证明了模型具有辨识性:由于加入了时间结构,避免了静态AMEN中的旋转不定性(静态AMEN中,如果全体乘性向量旋转一个酉矩阵,似然不改变)。但在动态中,加上 \(u_{i,t}\)的演化自回归先验,使得这个不变性被部分放松(旋转不再是保持样本路径的对数似然的证据)。但这部分作者没有给出严谨的数学解释,只是程序中默认使用了一个近似识别约束(对第一年初的u无约束)。

模拟部分(用于验证模型必要性): - 模拟设定: 模拟生成了N=30个节点 T=10年的网络,并以一个包含所有成分(加性+乘性+自回归)的真实模型生成数据。然后拟合了4个错误模型: 1. 静态AMEN (忽略时间)。 2. 动态模型, 但只对 \(a_{i,t}\)加自回归 (乘性效应彼此时不变)。 3. 动态模型, 但 \(a\), \(u\) 均不添加时间过程 (只保留 \(\alpha_t\))。 4. 正确的动态AMEN。 - 结果: 正确的模型在估计参数均为偏差最小、覆盖率高;不正确模型产生的估计值偏倚且宽区间。具体来说,如果乘性效应被视为恒常(N2),会高估其他效应的系数(因为乘性效应随时的波动被错误地归因到其他回归系数)。

应用部分(实证分析): - 数据:1983-2014年联合国大会决议投票记录(Voeten 2013),共18,607条决议,5,444个投票。处理了“国家在特定年份不投票”及“国家在某年不存在”两种缺失。 - 结果: - 回归系数:在国际关系理论所关注的变量中,"民主指数差的绝对值"和"贸易强度"(log of trade)与投票一致性显著正相关;"同一STO(如北约)成员国"或"两大国(美/俄/中)联盟"也有正效应。 - 加性效应动态: 本文向上估算了各国在时间上的2维载荷图及“互动国归零加性效应”图。一个关键现象是:美国随时间其加性效应在远离0(变得更负),解释为它在UN投票中的孤立性(高标准意见表达,被许多国家反对)。 相反,法国、英国趋近于0或正。 - 乘性效应动态:展示了一些国家在潜在空间的位置演化。中俄之间在两极内积效应巨大,这反映了“常设定的盟友情”。 - 论文还通过比较后验预测检验(PPC),检验了模型生成网络和真实网络的“平均一致性”和“同配性”的匹配度,发现模型拟合良好;相比之下,静态AMEN则高估了同配性。

证明路线与技术技巧(理论部分)

由于本文是应用方法型,没有“定理-引理”结构的证明,但可从算法路径上拆解:

  • 整体路线(MCMC演绎):
  • 初始化:给 \(a_{i,t}, u_{i,t}, \alpha, \beta\)赋予初始值(多数基于静态AMEN结果)。
  • 数据增强:对每个二元观测\(Y_{i,j,t}\),抽一个连续潜变量\(Z_{i,j,t}\),使其满足: \(Z_{i,j,t} \mid Y_{i,j,t} = 1\) 截断在大于0的正态;\(=0\) 截断在小于0的正态,其均值即为线性预测器\(\theta_{i,j,t}\)。这就把二项logit近似化了。
  • Gibbs采样循环
    • 步骤 A: 给定 \(Z\) 和所有其他潜在变量,采样 \(\beta\)\(\alpha_t\) (它们现在是高斯线性回归系数)。
    • 步骤 B: 对每个节点i和时间t,基于Hoff (2005)的“邻居”结构,从条件后验中采样\(a_{i,t}\)
    • 步骤 C: 对每个t,给出时间先验和观测,采样 \(u_{i,t}\) (这是一个非标准分布,采用Metropolis-within-Gibbs)。
    • 步骤 D: 给出所有 \(a\)\(u\) 的序列,利用简单的AR(1)多项式,采样演化参数\(\rho_a, \rho_u, \sigma_a^2, \sigma_u^2\)(由逆Wishart等共轭先验完成)。
  • 重复 直到链收敛(用Rhat/有效样本量判断)。

  • 关键跳跃点与技巧

  • 技巧1:数据增强的引入。这个技巧本质上精巧地将了logit过程中的非线性(logistic link)转化为线性高斯(潜变量)。这是一个已有技术(Albert & Chib),本文是其系统的应用。
  • 技巧2:乘性效应采样:即针对\(u_{i,t}\)的MH步。采样时,需要从条件后验\(\propto \prod_{j \neq i} \text{Bernoulli}(\cdot)^{-1} \times N(\rho_u u_{i,t-1} , …)\) 进行采样。因为似然涉及对其他N-1个节点的向量内积,计算复杂度是O(N^2)。作者采用了单变量MH(逐维度更新),并接受-拒绝它,这算是一种工程简化,避免了对整个向量的高维积分。

🔎 结论是否比证明窄?

  • 是的,多处结论宽于其证明或模拟
  • 模型声称能“识别重要因素”,但在因果意义上的识别依然很弱。由于“选择偏向”和“未观测的混淆变量”(如冷战联盟但数据中没列),本文的“效应”只能视为统计关联,不是因果效应。例如“民主系数”和投票一致性高度相关,但可能是由于民主国家同时是西方联盟(这是聚类,不是因果)。
  • 论文说模型能“处理两种缺失数据”,但类型I缺失的“完全随机缺失”假设(McAR,只看有没有参会)对UN成员几乎不可能成立(国家加入/退出UN不是随机事件)。实际上作者在文字中明确写道:“由于历史原因,UN会员国的变动不适合用我们的缺失数据模型解释”。这显然与结论相矛盾——该方法事实上只处理了年份内缺失的“未投票记录”,并没有正经建模会员国的进出。这一点对应用者来说很重要需要留意。
  • “加性效应的动态”是被模型泛化捕捉,还是被先验强制拉平?因为AR(1)过程参数\(\rho_a\)会驱动极端值回归均值,加上数据不丰富,这个效应很可能被模型平滑,导致论文声称的“波动”并不反映真实。

真实例子(UN投票)

  • 已详述于“应用”节。结构为:国家>年份>每个投票>票面记录>(一致/不一致)。
  • 方法的应用:对每个在籍国家逐年套用上述MCMC,产出潜在变量。
  • 结果:发现美国的“负向加性效应”随时间加大(解释为孤立);中俄内积增长(形成热点,而不只是截距平行项)。
  • 这个例子的意义:“展示方法能够复原已知的地缘政治事实,并能输出量化的、新的、如具体国家和时间点的潜在位置的变动”。这是应用论文的标准做法:用已知的“黄金”来展示可解释性。

四、开放问题(点到为止)

  1. 理论上的辨识性与渐近性质:本文放弃了对 \(a, u\)的辨识性证明(旋转不确定性未从根本上解决,只是用先验压制=不完全)。一个开放问题是:在异质性误差的AR(1)过程中,真正的收敛速度是什么?贝叶斯后验是否萎缩? (扎根于论文MCMC描述:仅说“收敛诊断可看”,未给出理论证明)。
  2. 缺失数据机制的严谨建模:如前述,类型I缺失(进出网络)被完全回避了。一个大问题是:如何建模“参与网络(如加入UN或成为APEC成员)”这个非随机的选择过程?可能有效的框架是Heckman selection model工具变量网络选择。 (扎根于论文缺失数据处理部分:作者坦承“模型不能处理会员国的系统性变动”)。
  3. 计算上的可扩展性:本文在处理干扰缺失时,计算O(N^2T)。当网络增长到几千个节点、例如大型社交网络数据库,这种MCMC就达不到90年代后可行的效果。一个开放问题:能否通过对高维动态AMEN进行共轭变分近似、或用 基于随机梯度的MCMC(SGLD)来减小计算开销? (扎根于论文计算部分:提到链的混合慢、一次跑会长达数天)。
  4. 多重比较与显著性检验的去罕见性:在大量回归系数(协变量)的同时检验下,本文未做多重比较校正(如Bonferroni)。一个有价值的拓展是把这一统计严谨性引入到该应用分析。

提醒:要确认最后一条是真gap,去读最近2-3年同类型应用网络政治学论文(如发表于American Political Science Review或Political Analysis上的网络回归分析),看他们如何处理多重比较——如果它们普遍也忽略了,那就更是一个值得研究的“方法学滞后”;如果有少数应用做过了,那这就是一个可复制的机会。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论