Heterogeneous Peer Effects with Endogenous Network Formation¶

作者: Duong Trinh, Santiago Montoya-Blandón
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.24850

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在个体通过社会网络相互影响（即存在同伴效应）的背景下，如何同时处理两个关键挑战——同伴效应的异质性（不同个体受同伴影响的程度和方向不同）和网络的内生性（个体选择与谁连接，且这种选择受与结果相关的未观测因素驱动）。这是一个典型的因果推断问题，其根本困难在于：网络结构本身是选择的结果，而非随机给定的，因此直接估计同伴效应会面临遗漏变量偏误。该子方向当前处于一个“方法整合”的阶段，即试图将处理异质性的模型（如有限混合模型、随机系数模型）与处理网络内生性的模型（如联合建模、控制函数）统一到一个框架内。

发展脉络¶

本文的引言将相关文献梳理为三条主线，并明确指出了每条主线的进展与缺口：

奠基工作：网络内生性的处理
- Goldsmith-Pinkham and Imbens (2013) 和 Hsieh and Lee (2016) 是本文的直接基石。他们提出了贝叶斯联合建模方法，通过引入潜变量来控制同时影响网络形成和结果的未观测因素。作者指出，他们的SCHSAR模型“nests Goldsmith-Pinkham and Imbens (2013) as a special case when the number of mixture components is reduced to one”，即当异质性消失时，本文模型退化为他们的模型。这是本文定位自身贡献的关键锚点。
- Qu and Lee (2015) 和 Johnsson and Moon (2021) 则从控制函数或工具变量的角度处理网络内生性。作者将本文的贝叶斯方法定位为与这些经典方法“aligns with the classical control function method”，但指出其优势在于不需要外部工具变量，且能自然地处理有限混合结构带来的复杂性。
主要进展：同伴效应异质性的建模
- Cornwall and Parent (2017) 提出的空间自回归混合模型（SAR-M）是本文在异质性方面的直接先驱。该模型将有限混合结构嵌入SAR模型，允许同伴效应在不同潜类别间变化。然而，作者明确指出其“common and significant limitation: the assumption that the spatial weights matrix ... is exogenously given and fixed”。本文的核心贡献之一就是“addresses this limitation by endogenizing the network formation process”。
- Aquaro et al. (2021) 和 LeSage and Chih (2016, 2018) 则从面板数据或随机系数的角度处理异质性，但同样依赖于外生给定的空间权重矩阵。
当前前沿：异质性与内生性的交叉
- 作者声称，据他们所知，“econometric models simultaneously accommodating heterogeneous peer effects and accounting for the endogeneity of network or spatial structure remain underdeveloped”。这正是本文试图填补的空白。他们将SAR-M模型（处理异质性）与Goldsmith-Pinkham and Imbens (2013)的联合建模框架（处理内生性）结合，并做了两项扩展：一是允许未观测的度异质性（degree heterogeneity）驱动网络形成，而不仅仅是未观测的同质性（homophily）；二是采用probit链接函数，便于贝叶斯数据增广。

子线索聚类¶

线索一：网络内生性的联合建模。核心思想是同时建模网络形成方程和结果方程，通过共享的潜变量（如个体随机效应a_i）来捕捉导致内生性的未观测混杂因素。代表工作：Goldsmith-Pinkham and Imbens (2013), Hsieh and Lee (2016), Johnsson and Moon (2021), Qu and Lee (2015), Auerbach (2022)。本文属于此线索，并为其增加了异质性维度。
线索二：异质性同伴效应的空间模型。核心思想是放松传统SAR模型中同伴效应参数λ为常数的假设，允许其随个体或群体变化。代表工作：Cornwall and Parent (2017)（有限混合），Aquaro et al. (2021)（面板数据），LeSage and Chih (2016, 2018)（面板数据），Masten (2018)和Peng (2019)（随机系数）。本文属于此线索，并为其增加了内生性修正。
线索三：基于可观测特征的异质性同伴效应。允许同伴效应根据性别、种族等可观测特征变化。代表工作：Arduini et al. (2020a, b), Beugnot et al. (2019), Houndetoungan (2026)。本文的方法与之不同，因为它处理的是未观测的异质性，更为灵活。

核心问题与瓶颈¶

该方向追问的核心问题包括： 1. 识别问题：在存在未观测混杂因素（同时影响网络形成和结果）的情况下，如何识别异质的同伴效应？当前主流方法是联合建模或控制函数，但瓶颈在于对潜变量分布和函数形式的假设较强。 2. 估计问题：联合模型通常涉及高维积分，极大似然估计不可行。当前瓶颈是计算复杂性。本文提出的贝叶斯数据增广MCMC算法是应对此瓶颈的一种策略。 3. 异质性的来源：异质性是由可观测特征还是未观测的潜类别驱动？当前方法各有侧重，但缺乏一个能同时处理多种异质性来源的统一框架。

⚠️ 作者的 framing¶

作者将缺口框架为：“econometric models simultaneously accommodating heterogeneous peer effects and accounting for the endogeneity of network or spatial structure remain underdeveloped”。这使得他们的SCHSAR模型成为“显然的下一步”——即把处理异质性的SAR-M模型和处理内生性的联合建模模型结合起来。

被淡化或回避的竞争路线：作者淡化了随机系数模型（Masten 2018, Peng 2019），仅指出它们“essentially require the network to be exogenously given”。这回避了一个问题：如果随机系数模型也能与内生网络模型结合，其灵活性与本文的有限混合方法相比如何？此外，作者也回避了工具变量方法在异质性设定下的应用，仅强调其贝叶斯方法“does not require external instruments”。
值得研究者去查的问题：引言中没有提及任何关于半参数或非参数识别的工作。例如，在更弱的假设下，异质性同伴效应是否可以被非参数地识别？是否存在类似于“线性矩条件”的识别策略？这可能是该领域的一个潜在缺口。另外，作者也未提及高维网络或稀疏网络下的挑战，这些场景下MCMC的收敛性和计算效率可能成为问题。

张力¶

未见明显对立引用。各条线索的工作在各自的假设下是自洽的，主要差异在于对异质性和内生性的处理方式不同。本文的贡献在于将它们整合，而非解决它们之间的矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- N: 网络中个体的数量（样本量）。
- W: N×N的邻接矩阵，w_ij = 1表示个体i和j有连接，否则为0。对角线为0。这是可观测的网络结构。
- Y: N×1的结果向量，Y_i是个体i的结果。这是可观测的。
- X: N×K的个体特征矩阵，X_i是个体i的K个特征。这是可观测的。
- λ: 同伴效应参数，标量。在标准SAR模型中为常数，在本文中为潜类别特定的λ_g。这是要估计的参数。
- β, δ: 个体特征和同伴特征（情境效应）的系数向量。这是要估计的参数。
- u_i: 结果方程中的随机误差项，假设为独立同分布的正态分布。这是不可观测的。
- G: 潜类别的数量。这是模型超参数，需要事先指定或通过模型选择确定。
- z_ig: 个体i是否属于潜类别g的指示变量。这是潜变量，是不可观测的。
- π_g: 个体属于潜类别g的概率。这是要估计的参数。
- a_i: 个体i的未观测异质性（随机效应），是驱动网络内生性的关键。这是潜变量，是不可观测的。
- w*_ij: 个体i和j之间形成连接的潜效用。这是潜变量，是不可观测的。
- C_ij: 影响网络形成的可观测的成对特征（如同行业、同技术类别）。这是可观测的。
- γ: 网络形成方程中C_ij的系数。这是要估计的参数。
- κ_g: 潜类别g中，未观测异质性a_i对结果Y_i的影响系数。这是要估计的参数。
模型：
- 数据生成机制：这是一个两阶段模型。
  1. 网络形成阶段：个体i和j基于潜效用w*_ij决定是否连接。w*_ij由可观测的成对特征C_ij、未观测个体特征a_i和a_j的函数f(a_i, a_j)，以及一个随机冲击ϵ_ij决定。当w*_ij >= 0时，连接形成（w_ij = 1）。
  2. 结果决定阶段：在给定网络W后，个体i的结果Y_i由其所属的潜类别g决定。Y_i受其自身特征X_i、其同伴的平均结果∑_j w_ij Y_j（同伴效应）、同伴的平均特征∑_j w_ij X_j（情境效应）、以及未观测特征a_i的影响。a_i同时出现在两个阶段，是导致网络内生性的根源。
- 统计模型：结果方程是一个带有潜类别结构的空间自回归（SAR）模型。网络形成方程是一个潜变量probit模型。
可观测数据：研究者能观测到的是：网络W、个体结果Y、个体特征X、成对特征C。
不可观测/潜在数据：研究者无法直接观测到的是：个体潜类别z_ig、个体未观测异质性a_i、网络形成的潜效用w*_ij。这些正是需要通过模型假设和贝叶斯推断来“恢复”的。

第二步：讲最小内核¶

本文的核心思路可以浓缩为一个最简特例：假设只有两个潜类别（G=2），且忽略情境效应（δ=0），同时假设网络内生性仅由未观测的度异质性驱动（f(a_i, a_j) = a_i + a_j）。在这个特例下，模型简化为：

网络形成方程：w*_ij = C_ij'γ + a_i + a_j + ϵ_ij，w_ij = 1{w*_ij >= 0}。
结果方程：Y_i = λ_{z_i} * (∑_j w_ij Y_j) + X_i'β_{z_i} + κ_{z_i} * a_i + u_i。

核心思路：如果a_i是可观测的，那么我们可以直接将其作为协变量加入结果方程，从而消除内生性偏误。但a_i不可观测。本文的关键想法是：利用网络形成方程的信息来“反推”或“学习”a_i。

具体来说，a_i同时出现在网络形成和结果方程中。通过联合建模，我们可以利用观测到的网络连接模式W来更新对a_i的信念。例如，一个与很多其他个体都建立了连接的个体（即度中心性高），其a_i很可能较大（因为a_i增加了形成连接的效用）。同时，这个a_i也会影响其自身的结果Y_i。

最小内核的数学问题：在给定可观测数据(W, Y, X, C)和模型假设下，我们能否同时识别出： 1. 每个个体属于哪个潜类别（z_i是1还是2）？ 2. 每个潜类别的同伴效应参数（λ_1和λ_2）？ 3. 每个个体的未观测异质性（a_i）？

本文的解法：采用贝叶斯方法，将z_i和a_i视为需要估计的潜变量。通过构建一个包含所有参数和潜变量的联合后验分布，并使用MCMC算法（特别是Gibbs采样和Metropolis-Hastings采样）从中抽样。在每次迭代中，算法会： 1. 根据当前对a_i的估计，更新网络形成方程的参数（γ）和潜效用（w*_ij）。 2. 根据当前对a_i和潜类别分配z_i的估计，更新结果方程的参数（λ_g, β_g, κ_g等）。 3. 根据更新后的参数，重新估计a_i和z_i。

通过反复迭代，MCMC算法最终会收敛到一个稳定的后验分布，从而实现对参数和潜变量的联合推断。这个过程的本质是利用网络结构信息作为a_i的“代理”或“工具”，来纠正结果方程中的内生性偏误。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：本文提出了一个名为“选择修正的异质性空间自回归模型”（SCHSAR）的统一计量框架，旨在同时解决社会网络分析中同伴效应的异质性和网络形成的内生性这两个核心挑战。
核心工具/方法：核心工具是贝叶斯数据增广MCMC算法。该方法将有限混合结构嵌入SAR模型以捕捉异质性，并通过引入潜变量（个体随机效应a_i、潜类别指示符z_i、网络形成潜效用w*_ij）来联合建模网络形成和结果决定，从而处理内生性。
主要结论：模拟研究表明，当网络内生性存在时，忽略它的HSAR模型会产生严重偏误，而SCHSAR模型能实现近乎无偏的估计和名义覆盖。对美国企业创新网络的实证分析发现，企业间的R&D投资存在显著但异质的正向同伴效应，并识别出“同伴驱动型”和“自我驱动型”两类企业，且控制内生性后效应大小和分布发生变化。

关键设定与假设¶

在第二节最小记号的基础上，完整设定如下：

结果方程（式19）：Y = LWY + Σ ˜β_k ◦ X_k + Σ ˜δ_k ◦ (WX_k) + ˜κ ◦ a + u。其中L = diag(˜λ)，˜λ = zˇλ。这个设定允许每个潜类别g有自己的一套参数{λ_g, β_g, δ_g, κ_g, σ²_ug}。
网络形成方程（式12）：w*_ij = C_ij'γ + f(a_i, a_j) + ϵ_ij，w_ij = 1{w*_ij >= 0}。f(a_i, a_j)可以是a_i + a_j（度异质性）或-|a_i - a_j|（未观测同质性）。
关键假设：
1. 潜类别结构：个体独立地属于G个潜类别之一，概率为π_g。这是一个有限混合模型假设，意味着异质性可以被离散的类别很好地近似。
2. 共享的未观测异质性：同一个潜变量a_i同时进入网络形成方程和结果方程。这是网络内生性的来源，也是本文需要处理的核心问题。假设a_i与ϵ_ij和u_i独立。
3. 误差项分布：结果方程误差u_i独立同分布于N(0, σ²_ug)。网络形成方程的冲击ϵ_ij独立同分布于N(0, 1)（probit设定）。
4. 稳定性条件：矩阵I_N - LW必须可逆，这要求所有λ_g的绝对值小于1/τ*，其中τ*是W的行或列和的最大值。对于行归一化的W，条件简化为|λ_g| < 1。
5. 识别条件：对于潜类别，通过排序混合权重π_g（π_1 > π_2 > ... > π_G）来解决标签交换问题。对于网络形成方程，参数在probit设定下通过尺度归一化（Var(ϵ_ij)=1）来识别。

与已有文献相比，本文放宽了Cornwall and Parent (2017) SAR-M模型中空间权重矩阵外生给定的假设，并扩展了Goldsmith-Pinkham and Imbens (2013)的模型，允许同伴效应异质性和更丰富的未观测异质性形式（度异质性）。

主要结果¶

理论结果：本文是方法论文，没有提出新的渐近理论或效率界。其主要“理论”贡献在于模型构建和贝叶斯估计算法的设计。核心结果是证明了所提出的MCMC算法（Algorithm 1 & 2）能够从SCHSAR模型的后验分布中进行有效采样。
模拟结果：这是验证方法有效性的核心部分。通过四个数据生成过程（DGP I-IV），系统比较了SCHSAR和忽略内生性的HSAR模型的表现。
- 核心量化结论：在所有DGP下，SCHSAR对同伴效应参数λ的估计近乎无偏（Bias接近0），RMSE较小，且95%可信区间的覆盖率接近名义水平（0.95）。例如，在DGP I（高信噪比）下，λ_2的真实值为0.15，SCHSAR估计的均值为0.149，Bias为-0.001，RMSE为0.010，覆盖率为0.94。
- 与baseline对比：相比之下，HSAR模型在所有DGP下对λ的估计都存在巨大偏误，覆盖率几乎为0。例如，在DGP I（高信噪比）下，HSAR对λ_2的估计均值为-0.502，Bias为-0.652，覆盖率为0.00。这有力地证明了忽略网络内生性会导致对同伴效应的严重错误推断。
- 稳健性：当链接函数被错误设定（DGP II & IV，用logit生成但用probit估计）时，SCHSAR对λ的估计性能虽有下降（RMSE增大），但仍保持可接受的覆盖率（>0.85），表明方法具有一定稳健性。

证明路线与技术技巧¶

本文没有传统意义上的“定理证明”，其“证明”在于MCMC算法的推导和有效性论证。整体路线如下：

构建完整数据似然：将模型参数θ和所有潜变量(w*, z, a)视为未知，写出它们的联合分布p(W, w*, Y, z, a | ...)。这个联合分布可以分解为网络形成部分、结果部分和潜变量先验部分的乘积（式21）。这是贝叶斯推断的起点。
指定先验分布：为所有参数选择共轭先验（如正态、逆伽马、狄利克雷），以便于推导条件后验分布。例如，为γ、β_g等指定正态先验，为σ²_a、σ²_ug指定逆伽马先验，为π指定狄利克雷先验。
推导条件后验分布：基于完整数据似然和先验，推导出每个参数和潜变量在给定其他所有变量下的条件后验分布。这是Gibbs采样的基础。
- 关键跳跃点：大多数条件后验都是标准分布（如正态、逆伽马、多项分布），可以直接采样。唯一的例外是λ_g。其条件后验分布（式41）包含一个雅可比项|I_N - LW|，导致其不属于任何已知分布族。
- 技术技巧：为了处理λ_g的非标准后验，作者采用了Metropolis-Hastings (M-H) 算法，并进一步使用了自适应缩放Metropolis (ASM) 算法（Algorithm 4）。ASM的核心思想是在MCMC运行过程中，根据历史接受率自动调整M-H提议分布的步长τ_g，目标是使接受率接近理论最优值（对于一维参数为0.44）。这避免了手动调整步长的繁琐工作，提高了采样效率。
实施MCMC采样：按照Algorithm 1（或2）的步骤，循环采样所有参数和潜变量：
- 采样个体随机效应a和其方差σ²_a（式37, 38）。
- 采样网络形成潜效用w*和参数γ（式39, 40）。
- 采样结果方程参数：π, β_g, δ_g, κ_g, σ²_ug（式42-45, 47），以及通过M-H步骤采样λ_g（式41）。
- 采样潜类别指示符z_i（式46）。
后验推断：MCMC收敛后，丢弃burn-in样本，利用剩余的样本进行参数估计（如后验均值）和不确定性量化（如可信区间）。

真实例子与应用¶

数据：使用了1980-2014年美国企业的专利交易数据（USPTO PAD）和财务数据（Compustat），构建了一个包含1,150家企业和5,576条连接的创新合作网络。
如何应用：将SCHSAR模型应用于该网络。网络形成方程中，C_ij包括是否同行业（sameSIC）、是否同技术类别（sameAAclass）等。结果变量Y_i是企业的R&D强度（R&D支出/销售额的对数）。关键解释变量X_i包括R&D税收价格、资本支出、EBIT、员工数、收入等。
结果：
- 网络效应：在控制内生性后，发现企业间R&D投资存在显著的正向同伴效应。异质性模型识别出两类企业：约34%的“同伴驱动型”企业（λ≈0.215，对税收价格弹性约-2.2）和66%的“自我驱动型”企业（λ≈0.127，对税收价格弹性约-9.5）。
- 政策分析：模拟了1%的R&D税收价格下降。通过计算直接效应、溢出效应（spillin）和溢出效应（spillout），发现：
  - “自我驱动型”企业直接效应大，是“响应型吸收者”。
  - “同伴驱动型”企业溢出效应大，是“影响型传播者”。
  - 高总溢出效应（total spillout）的企业通常是高科技行业（如计算机、通信）中的大型、高中心性企业，针对它们进行政策干预可以最大化网络范围内的创新扩散。
例子想说明什么：这个实证例子旨在展示SCHSAR框架的实用价值和政策相关性。它不仅验证了模型能够发现有意义的经济学模式（异质性、内生性偏误），还展示了如何利用模型输出（个体层面的直接、间接效应）来设计更具针对性的政策，这是传统同质性模型无法做到的。

🔎 结论是否比证明窄¶

结论比证明窄的潜在点：作者在结论部分声称“The proposed estimators exhibit near-unbiasedness and nominal coverage”。然而，这个结论是基于模拟实验得出的，而非严格的渐近理论证明。模拟仅在N=1000和特定的DGP下进行。在更小的样本量、更复杂的网络结构（如稀疏网络、有向网络）或更弱的信噪比下，该结论是否仍然成立，论文并未提供理论保证。作者在模拟部分也承认，在低信噪比下，精度会下降。
具体语句：在模拟结果部分，作者写道“Overall, across all data-generating processes (DGP I–IV) the proposed SCHSAR estimators produce near-unbiasedness and nominal coverage.” 这是一个基于有限模拟的实证声明，而非一个普遍成立的定理。在结论部分，这个声明被泛化地重复了。研究者需要意识到，这个“near-unbiasedness”的性质在理论上并未被证明，其成立依赖于模拟中的具体设定。

四、开放问题¶

潜类别数量G的选择：本文在实证中通过比较G=1,2,3的结果来选择G，但并未提供一个自动化的、基于模型选择的准则（如边际似然、WAIC、DIC等）。作者在结论中将其列为未来方向：“automatically selecting the number of mixture components”。（扎根于：Section 5.3, 脚注17；Section 6, 未来方向）
动态面板设定下的扩展：本文的模型是横截面设定。将SCHSAR扩展到动态面板数据（Y_{i,t}依赖于Y_{i,t-1}和W_t Y_t）是一个自然但非平凡的扩展。作者在结论中提到了这一点：“extending the framework to dynamic panel settings”。（扎根于：Section 6, 未来方向）
未观测同质性处理的改进：模拟结果显示，当网络内生性由未观测同质性（f(a_i, a_j) = -|a_i - a_j|）驱动时，SCHSAR对λ的估计偏误和变异性都大于度异质性情形。作者也承认这一点：“improving unobserved homophily handling”。（扎根于：Section 4.2, 模拟结果讨论；Section 6, 未来方向）
半参数/非参数识别的理论缺口：本文的识别依赖于参数化的有限混合模型和正态性假设。一个根本性的开放问题是：在更弱的半参数或非参数假设下，异质性同伴效应和网络内生性是否可以被非参数地识别？例如，能否构建类似于“线性矩条件”的识别策略，而不需要指定潜类别的数量或分布？这个问题在本文的引言和文献综述中未被提及，是一个值得研究者去探索的潜在理论缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub