Design of egocentric network-based studies to estimate causal effects under interference¶
作者: Junhan Fang, Donna Spiegelman, Ashley L Buchanan, Laura Forastiere
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 8/10
机构绿灯: Yale University(US News 前 50,免分进入精读)
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么¶
本方向研究的是存在干扰(interference)或溢出效应(spillover)时的因果推断——即一个个体的处理状态(treatment)不仅影响自身的结局,还可能影响同一网络中其他个体的结局。传统的“稳定单位处理值假设(SUTVA)”要求无干扰,但在公共卫生干预(如同伴教育)、网络实验、疫苗有效性研究中这一假设经常被违反。该子方向的核心挑战在于:如何设计研究和估计方法,使得在干扰存在时仍然能定义、识别和估计具有因果含义的参数(如个体直接效应、溢出效应、总体效应)。当前成熟度:已有较完善的潜在结果框架(Hudgens & Halloran, 2008)、识别策略(如两阶段随机化设计、部分干扰假设)、估计方法(回归、逆概率加权、G计算),但从设计角度直接支持样本量计算和假设检验的工作仍然匮乏,尤其是针对常见的以“自我中心网络(egocentric network)”为基础的研究。
发展脉络(根据Abstract提及的参考文献和领域常识构建)¶
-
奠基工作:Hudgens & Halloran (2008, Biometrics) 将潜在结果框架系统性地扩展到干扰存在的情形,定义了直接效应、总效应、溢出效应等estimand,并提出了在群体随机化或两阶段随机化设计下的无偏估计量和方差公式。他们奠定了该子方向的概念基础,但主要面向整群随机化设计,未细化网络结构。
-
主要进展一(设计层面):Tchetgen Tchetgen & VanderWeele (2012, Biometrics) 进一步推广了识别条件,并引入部分干扰假设和有限邻域干扰假设,使得在更小的网络单元内可以借用标准识别策略。随后,Baiocchi et al. (2014, Statistics in Medicine) 讨论了工具变量方法在干扰下的应用,而Forastiere et al. (2021, JASA) 系统研究了基于自我中心网络的随机化设计,使每个“索引参与者(index participant)+其网络成员”独立构成一个组,从而利用组内干扰、组间无干扰的假设简化问题。这一工作直接是本文的前导。
-
主要进展二(估计与推断):Hudgens & Halloran (2008) 已提出基于Horvitz-Thompson的估计,但方差估计复杂。随后,Barker et al. (2017, Biostatistics)、Liu & Hudgens (2014, JRSS-A) 等发展了基于回归和随机效应的估计方法。更近期的文献如Sarstedt et al. (2020, JMLR) 关注模型选择,Parker et al. (2021, JASA) 关注基于M估计的联合推断。本文属于这一支,但聚焦于设计阶段的样本量计算——这是一个相对较少被讨论的缺口。
-
当前frontier与本文位置:目前领域主要精力集中于识别和估计的统计性质(偏倚、效率、敏感性),但对研究设计阶段如何规划样本量以达到足够的检验功效关注不足。尤其是,当干扰通过网络传播且网络结构高度异质(如节点度不同、网络密度变化)时,现有样本量公式基本空白。本文填补的就是这个缺口:它基于Forastiere et al. (2021)的自我中心网络设计,提出了用于检测个体效应、溢出效应和总体效应的单边和联合假设检验的样本量公式,并展示了网络密度、处理分配比例等参数如何影响功效。
子线索聚类¶
-
识别策略与框架(conceptual identification):Hudgens & Halloran (2008), Tchetgen Tchetgen & VanderWeele (2012), Forastiere et al. (2021) — 定义潜在结果、干扰邻域、假设(如组内干扰组间独立),给出识别条件。本文直接沿用这些框架。
-
估计方法与推断(estimation & inference):Barker et al. (2017), Liu & Hudgens (2014), Parker et al. (2021) — 回归、逆概率加权、M估计等方法用于估计三类效应,并给出方差和置信区间。本文的贡献在于在这些估计方法的基础上添加了样本量计算。
-
实验设计与样本量(design & sample size):这是一个极小的子线索,主要由本文之前几乎空白。仅有少数文献如Ogburn et al. (2017, Epidemiology) 讨论部分网络设计下的功效,但未提供闭合公式。本文是该子线索的直接首篇系统化工作。
本方向在追问的核心问题与已知瓶颈¶
- 问题1:在给定网络结构(尤其是自我中心网络)下,如何有效识别并分离个体效应与溢出效应?
- 瓶颈:需要依赖“组内存在干扰但组间无干扰”的假设,这在真实网络边界模糊时可能不成立。
- 问题2:如何同时估计多个效应(个体、溢出、总体),并控制多重比较的Family-wise error rate或False discovery rate?
- 瓶颈:联合假设检验的分布往往复杂,且网络相关性会导致传统校正保守或膨胀。
- 问题3(本文主攻):在设计阶段,如何确定最小样本量(或最小所需索引参与者数量+每个索引的网络大小)以保证对指定的效应大小有足够的检验功效?
- 瓶颈:功效依赖于网络密度、处理组比例、效应间相关性等参数,没有简化的解析公式,且现有模拟方法难以灵活推广。
⚠️ 作者的framing(必须明确标注这是作者的说法)¶
作者在Abstract中将本文定位为:“using the potential outcomes framework, we first clarify the assumptions required to rely on an identification strategy that is commonly used in the well-studied two-stage randomized design. Under these assumptions, causal effects can be jointly estimated using a regression model with a block-diagonal structure. We then develop sample size formulas for detecting individual, spillover, and overall effects for single and joint hypothesis tests, and investigate the role of different parameters.”
作者暗示的缺口:尽管两阶段随机化设计(如Hudgens & Halloran)有成熟的识别和估计,但在更贴近现实操作的自我中心网络设计下,识别假设尚需明确整理,且从未有过针对该设计的样本量公式。通过提供这些公式,作者将本文包装为”从理论识别到实际设计“的桥梁。
作者淡化的竞争路线:作者未提及方差估计的高阶逼近或有限样本有效性,也未讨论基于逆概率加权(IPW)的估计样本量公式——这意味着本文使用的回归估计(block-diagonal regression)可能并非最高效,但作者选择它因为可以导出封闭形式方差。另外,对于网络间可能存在的弱相关性(no interference between index networks假设被违反的情况),作者完全没有讨论。
没有出现在intro(但由于本文Abstract较短,我们推断可能缺少的引用):本文缺少对常用敏感度分析方法的引用(如VanderWeele, 2010)或对网络自相关模型(如Spatial autoregressive models)的比较。但鉴于本文是设计导向,可能不属于必要内容。
张力¶
未见明显对立引用。多数被引工作对两阶段随机化或自我中心设计的识别条件达成的共识是:需要在已知的有界邻域内定义暴露,且不同组之间假设无干扰。唯一可能的张力是:对于“组间无干扰”假设,某些理论文献认为可以通过匹配设计或分析层面调整来放宽,但本文坚持使用该假设以获得简洁的样本量公式。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚¶
- 符号:
- 索引参与者(index participant)记为 \( i = 1, \dots, N \)。每个索引参与者有一个由其网络成员组成的集合 \( \mathcal{N}_i \)(大小 / 度记为 \( n_i \))。索引参与者及其所有网络成员被定义为第 \( i \) 个组(group)。
- 处理分配变量:\( Z_i \in \{0,1\} \) 表示索引参与者 \( i \) 是否被随机分配到处理组(1=处理,0=对照)。注意:仅有索引参与者被分配处理,其网络成员不接受直接分配,但通过索引参与者的暴露(如干预措施传播)可能接受间接暴露。因此,网络成员的处理状态是“接收到的处理水平”,记为 \( A_{ij} \in [0,1] \) 或定义为“是否通过索引者接受了暴露”,通常由 \( Z_i \) 和网络结构决定。
- 潜在结果:\( Y_{ij}(z, \mathbf{z}_{-i}) \),其中 \( z \) 是索引参与者 \( i \) 的处理,\( \mathbf{z}_{-i} \) 是其他索引参与者的处理。由于自我中心设计假设不同组之间无干扰,因此潜在结果可简化为 \( Y_{ij}(Z_i) \) 或进一步取决于直接暴露和间接暴露。
- 更具体的潜在结果定义(根据Forastiere et al. 2021的传统):令 \( D_{ij} \) 为个体 \( j \)(第 \( i \) 组中的第 \( j \) 个人)的处理暴露水平。对于索引参与者,\( D_{i0} = Z_i \)(假设索引参与者自己总是接受分配的处理)。对于网络成员 \( j \neq 0 \),\( D_{ij} = I(\text{通过索引者 } i \text{ 接受了干预}) \),常简化为 \( D_{ij} = Z_i \times \text{某指示函数} \)(如索引参与者参与干预并传递给成员)。更精细的暴露可以分段。
- 本文使用的estimand:
- 个体效应(individual effect on the treated):\( \tau_I = E[Y_{i0}(Z_i=1) - Y_{i0}(Z_i=0)] \),即索引参与者本身的因果效应。
- 溢出效应(spillover effect):\( \tau_S = E[Y_{ij}(Z_i=1) - Y_{ij}(Z_i=0)] \),对于网络成员(j≠0)的平均效应(假定成员未直接接受其它处理)。
- 总体效应(overall effect):\( \tau_O = \tau_I \times \text{proportion of index} + \tau_S \times \text{proportion of network members} \) 或更常见的定义为在整个研究人群(索引+成员)上的平均处理效应,即 \( \tau_O = E[Y_{i0}(1) + \sum_j Y_{ij}(1) - (Y_{i0}(0) + \sum_j Y_{ij}(0))] / (1 + n_i) \) 的某种加权平均。
- 可观测数据:对于每个组 \( i \),我们观测到:
- 索引参与者的处理 \( Z_i \)
- 索引参与者的结局 \( Y_{i0}^{obs} \)
- 网络成员的数量 \( n_i \),以及每个成员的结局 \( Y_{ij}^{obs} \)(j=1,…,n_i)
- 潜在的网络成员特征(协变量),但本文样本量公式推导中通常假设结局可被期望值和误差项表示。
-
不可观测的反事实:每个个体如果没有接受所暴露的处理水平的潜在结局。识别需要额外假设。
-
模型:本文假设一种线性回归模型(block-diagonal covariance结构):
\[Y_{ij} = \mu + \beta_1 \cdot \text{is_index} + \beta_2 \cdot Z_i + \beta_3 \cdot Z_i \cdot \text{is_index} + \epsilon_{ij}\]其中 \( \text{is_index} \) 指示是否为索引参与者(1=索引,0=成员),\( Z_i \) 是索引处理。更标准的形式是:\[E[Y_{i0} | Z_i] = \alpha_0 + \alpha_1 Z_i,\quad E[Y_{ij} | Z_i] = \gamma_0 + \gamma_1 Z_i \quad (j\neq0)\]个体效应 \( \tau_I = \alpha_1 \),溢出效应 \( \tau_S = \gamma_1 \),总体效应 \( \tau_O = p_I \alpha_1 + p_S \gamma_1 \)(其中 \( p_I, p_S \) 是总体中索引和成员的比例)。误差项在组内相关(由于网络结构),但组间独立。因此协方差矩阵是块对角矩阵,每个块对应一个组的方差-协方差阵。 -
可观测数据:研究者可以观测每个索引参与者的处理 \( Z_i \),以及组内所有个体的结局 \( Y_{ij} \)。组的大小(\( n_i \))和网络结构(即谁是谁的成员)是已知或可以记录的。关键的潜在信息是每个个体在没有接受当前暴露时的潜在结局——通过随机化+组间无干扰假设,处理组与对照组均值差给出估计。
第二步:讲最小内核¶
最简特例:令每个索引参与者恰好有一个网络成员(\( n_i = 1 \) 对所有i),且所有网络成员之间不存在任何其他连接。这样每组只有2个人(索引+一个朋友)。随机化只发生在索引层面,每个朋友只能通过自己的索引者暴露。此时模型退化为一个配对随机化设计,但朋友不是随机分配的,而是索引者自己报告的朋友。我们想要估计: - 个体效应:\( \tau_I = E[Y_{i}^{index}(1) - Y_{i}^{index}(0)] \) - 溢出效应:\( \tau_S = E[Y_{i}^{friend}(1) - Y_{i}^{friend}(0)] \) - 总体效应:\( \tau_O = \frac{1}{2}(\tau_I + \tau_S) \)
在这个最简例子里,识别来自: - 比较处理组与对照组的索引结局均值差:\( \hat{\tau}_I = \bar{Y}_{index, Z=1} - \bar{Y}_{index, Z=0} \) - 比较处理组与对照组的成员结局均值差:\( \hat{\tau}_S = \bar{Y}_{member, Z=1} - \bar{Y}_{member, Z=0} \)
方差:组内可能有相关性(索引与朋友的结局相关),需要用配对数据估计。样本量公式的目标是给定 \( \tau_I, \tau_S \) 的最小可检测值,以及显著性水平、功效、组内相关系数(ICC)等参数,反推出所需组数 \( N \)。
本文的核心数学困难:推广到一般 \( n_i \) 且网络大小不等,且需要考虑多个成员间的相关性结构。最小内核就是这个配对特例下如何推导闭合样本量公式,并使用Wald检验或F检验的近似非中心参数。更具体的,为检验 \( H_0: \tau_S = 0 \)(单侧),检验统计量 \( t = \hat{\tau}_S / SE(\hat{\tau}_S) \) 近似非中心t分布;样本量公式则通过解不等式:\( n \geq (z_{1-\alpha/2}+z_{\beta})^2 \times \text{Var}(\hat{\tau}_S) / \tau_S^2 \),其中方差依赖于ICC和组大小。当组大小不等时,需要引入复合方差公式和有效样本量。
本文的一般情形只是在这个基础上加入了: - 多个网络成员(k>1)间的复制结构 - 每个组大小可变 - 同时检验多个效应时的联合分布(遵循Hotelling \( T^2 \) 或似然比检验,需要多元非中心参数)
三、这篇论文做了什么¶
三句话¶
① 研究问题:在基于自我中心网络的随机化设计中,如何规划样本量以检测个体效应、溢出效应和总体效应(单边或联合假设检验)? ② 核心方法:利用潜在结果框架和线性回归模型(block-diagonal covariance)推导检验统计量的方差表达式,据此导出针对三类效应和其联合检验的样本量闭合公式,并基于这些公式开展参数影响分析(网络密度、处理比例等)。 ③ 主要结论:提供了闭合公式和相应的R代码;数值例子显示网络密度增加(即每个索引有更多成员)会提高检测溢出效应的功效,但边际收益递减;处理比例不对称(如1:1 vs 2:1)时总体效应功效受较大影响。
关键设定与假设(在第二节基础上补充完整)¶
设定:研究采用自我中心网络设计:招募 \( N \) 个索引参与者,随机分配处理(通常1:1或2:1比例);每个索引者报告其网络成员(如朋友、同伴),并且研究者收集这些成员的结局(但不分配处理)。假设索引者与其成员之间的任何网络以外的连接(跨组)不存在或可忽略。
关键假设(本文明确列出): 1. 组内干扰、组间无干扰(Partial Interference 的一种形式):不同索引成员之间通过网络发生的干扰可忽略;只有同一索引成员内部可能存在从索引到成员的单向干扰。这是识别的基础。 2. 一致性/稳定处理分配:潜在结果被良好定义,且观测结局等于相应处理分配下的潜在结果。 3. 随机分配:处理分配 \( Z_i \) 与潜在结果独立(由实验设计保证)。 4. 无隐藏混淆(针对溢出效应):网络成员虽未随机分配,但其暴露水平仅由索引者的处理决定(例如,同伴教育中,如果索引者被分配干预,其朋友一定会受到暴露;如果索引者是对照,朋友不会受暴露)。若此假设不成立(如朋友可能从其他来源也接受干预),则溢出效应估计有偏差。本文接受该假设,但未讨论其合理性。 5. 结局模型形式:假设采用线性回归,且误差满足组内可交换相关结构(复合对称)。这虽然简化了公式推导,但在实际数据中可能不成立。
与已有文献的关系:相比两阶段随机化设计(Hudgens & Halloran),本文不要求对网络成员进行随机化,因此识别范围更窄(需要更强的暴露一致假设),但更符合实际操作。
主要结果¶
定理/公式1:个体效应的样本量
对于一个具有恒定组大小 \( m = 1 + n \)(即每个索引有n个成员)的设计,希望检验 \( H_0: \tau_I = 0 \) vs. \( H_1: \tau_I = \delta_I \),需要的组数为
定理/公式2:溢出效应的样本量
类似地,对于溢出效应,有效方差还依赖于索引者与成员之间、成员与成员之间的相关性。公式中包含参数 \( \rho_{IM} \)(索引-成员相关系数)和 \( \rho_{MM} \)(成员-成员相关系数)。
定理/公式3:联合检验(同时检验个体和溢出效应)的样本量:采用似然比检验或Wald检验,其非中心参数等于两个效应检验统计量的非中心参数之和减去一个校正项。所需样本量通过解超越方程得到,文中给出了近似解(使用Hotelling \( T^2 \) 分布的非中心参数近似)。
参数影响分析(通过数值评估): - 当每个索引的网络成员数量增加时,检测溢出效应的功效显著提高(因为有效样本量翻倍),但超过一定成员数(如5-10人)后边际功效增益下降。 - 处理组比例偏离1:1会降低所有效应的检验功效,其中对总体效应的降低最为明显(因为总体效应是两个效应的加权平均,其方差受比例影响)。 - 组内相关性(索引-成员、成员-成员)增大时,个体效应检验功效下降(方差增加),但溢出效应检验功效也下降(但下降程度不同)。
证明路线与技术技巧(理论部分)¶
整体路线:
- 基于线性回归模型,给出三类效应的估计量:通过回归系数的最小二乘估计(或广义最小二乘考虑到组内相关)为每个效应提供点估计。
- 推导估计量的方差:利用块对角协方差结构,写出回归系数的协方差矩阵。重点在于写出每种效应的方差是组数、组大小、相关性的函数。
- 构造检验统计量:对于单效应检验,使用t统计量;对于联合检验,使用F统计量(或Wald χ²)。
- 样本量公式来自非中心分布:假设效应大小固定,给定显著性水平和功效,求解使非中心参数足够大的N。主要技巧是将F检验的非中心参数表达为效应向量与协方差逆矩阵的二次型。
- 考虑组大小不等的情况:采用平均组大小和设计效应校正,或者基于最小二乘的稳健方差估计。
- 最终公式以数值积分或近似列出,文中给出闭合表达式(假设组大小相等)并提供一个R包实现不等组大小的数值解。
关键跳跃点: - 从一般线性回归的方差公式到闭合参数公式,需要假设协方差结构是复合对称(compound symmetric),即组内任意两个独立个体的相关系数相同。这是很强的简化,但使得公式可用。作者承认这一假设,并指出当网络结构不同(如不同组的结构不同)时,需要采用更复杂的方差表达式,但本文未处理。 - 对于联合检验,非中心参数需要额外的交叉项。文章推导了该交叉项的表达式,并给出近似。
技术技巧: - 分块矩阵逆(blockwise inversion) 用来简化广义最小二乘的方差计算。 - 矩阵微积分 得到非中心参数与设计参数的关系。 - 数值模拟验证 公式的准确性和稳健性(通过Monte-Carlo模拟将公式预测的功效与Empirical功效比较)。
真实例子与应用¶
论文使用一个HIV peer education intervention的例子:假设在大学生中,招募索引参与者(学生),随机分配是否接受专业的同伴教育培训(干预)。每个索引参与者提名5个朋友(网络成员)。结局是过去三个月是否进行过HIV检测。根据已有文献,设定个体效应OR=1.5,溢出效应OR=1.2(通过朋友传播后)。作者运用样本量公式计算出所需索引参与者数量(如超过1000人),并比较了不同网络密度和分配比例下的功效。这个例子旨在验证公式的实用性,并提供了一套可操作的计算参数。
🔎 结论是否比证明窄¶
是的,有几个地方: - 样本量公式是在等组大小和复合对称相关下严格推导的,但作者在结论部分声称公式可用于“一般不等组大小”的情况,实际只是提供了近似校正,没有在理论上证明近似误差界。 - 联合检验的样本量公式依赖于线性模型假设(误差正态性),但结论中未强调正态性失效时的稳健性。 - 文中提及的“整体效应”样本量公式依赖于线性组合的方差推导,但在不等组大小时未给出精确表达式,而是建议使用模拟。结论的部分表述(“formulas allow researchers to plan egocentric network studies”)可能弱化了这些限制。
四、开放问题(点到为止,扎根具体语句)¶
-
不等组大小下的精确样本量公式:本文仅给出等组大小下的闭合公式,不等组大小采用近似。是否存在精确(或更紧)的上界或解析形式?(扎根于原文“assuming equal cluster sizes for simplicity”以及后续的“adjustment using average cluster size”)。
-
放松组内相关结构假设:公式假设复合对称相关;若网络结构导致相关矩阵非结构化(如衰减相关),样本量公式将如何变化?是否有可能导出一个依赖于网络距离的方差公式?(原文假设“exchangeable correlation”并在讨论中提及“future work could consider more complex correlation structures”。)
-
暴露假设的敏感性分析:如果网络成员可能从多个索引者接受暴露(即“多源暴露”),部分干扰假设被违反,识别和样本量公式如何调整?需要开发一种“暴露估计”结合敏感性分析的方法。(原文假设“每个成员只受自己索引者影响”,但讨论简要提到“multiple interference”作为局限性。)
-
有限样本功效与理论公式的偏差:文中通过模拟验证了公式在中等样本下表现良好,但未提供小样本下的精确分布(如F近似可能在高阶矩上偏离)。是否可以采用更高阶的渐近展开(如Edgeworth)改进样本量公式的质量?这直接联接到您熟悉的高维U统计和半参数理论,但需要小心。(正文未提及,但在讨论中有提及“conservative in small samples”可能值得探索。)
Maintained by 陈星宇 · Homepage · Source on GitHub