Estimating causal effects of HIV prevention interventions with interference in network-based studies among people who inject drugs¶
作者: TingFang Lee, Ashley L. Buchanan, Natallia V. Katenka, Laura Forastiere, M. Elizabeth Halloran et al.
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述(从 introduction + 参考文献 + 已检索摘要构建)¶
这个方向是什么¶
本文所属的子方向是在复杂网络干扰(network interference)下进行因果推断。其核心科学问题是:当个体之间的交互导致“一个人的处理影响另一个人的结果”(即SUTVA的no-interference假设被违反)时,如何识别、估计和推断“溢出效应”(spillover effect)?该子方向当前正处于“从理论证明向实际流行病学应用渗透”的阶段,已有一套成熟的识别框架和估计量基础,但多数理论假设干扰集是不重叠的(如可划分的组/社区),且大多依赖随机化实验。本文则试图在重叠干扰集(overlapping interference sets) 和观察性非随机干预的现实设定中,将这些工具扩展到基于真实风险网络的流行病学数据。
发展脉络(history)¶
奠基工作(2010-2012): - Tchetgen & VanderWeele(2010)[4]:该文是“干扰”方向最早的系统性理论工作之一,定义了干扰下的因果 estimands,提出了 IPW 估计量和有限样本推断方法。引用句定位:本文引言用它作为“干扰下因果推断”的经典起点。 - Aronow & Samii(2013)[5]:在随机化实验框架下,提出了基于暴露映射(exposure mapping)和IPW的估计量,证明了其在局部依赖下的相合性与渐近正态性。引用句定位:该文为IPW估计量的理论基础之一,本文直接继承其暴露映射思想。
发展期(2013-2016): - Liu & Hudgens(2014)[9] 以及 Liu et al.(2016)[13]:考虑“部分干扰”(partial interference)假设,即群体间无干扰。两篇工作分别从两阶段随机化设计和观察性研究出发,给出了IPW估计量的渐近理论,并提出了Hájek型稳定化权重。引用句定位:本文将其作为IPW框架的直接继承对象,但指出其依赖于“partial interference”假设,且不能直接处理重叠干扰集。 - Forastiere et al.(2016)[6]:首次系统地将干扰引入观察性网络研究,提出了“扩展无混淆性”假设以同时控制个体和邻居的处理与协变量,并给出了基于广义倾向得分的协变量调整方法。引用句定位:本文引用该文作为“观察性网络研究”的关键方法论,但指出其估计方法(匹配/加权)在处理重叠干扰集时的复杂性。 - Basse & Feller(2016)[11]:聚焦两阶段随机化设计中的实际操作问题(不等大小群体、个体加权 vs. 群体加权),连接了线性回归和随机化推断。引用句定位:该文的贡献在于实践层面的设计,但同样依赖不重叠的群体结构。
成熟期与整合(2017-2018): - Buchanan et al.(2018)[20]:这是本团队的前期工作,直接针对风险网络随机化试验(HTPN 037),提出了“个体效应”和“传播效应”的估计算法。引用句定位:该文被本文作为“网络随机化研究”的直接先例,但本文强调的是观察性非随机干预。 - Benjamin-Chung et al.(2017)[12]:一篇综述性文章,系统梳理了流行病学中“溢出效应”的参数类别和研究设计。引用句定位:本文引用它说明溢出效应的普遍性和参数定义的多样性,为本文定义“population-level spillover effect”提供背景。
当前前沿与本文位置: - 当前frontier在于:突破“无重叠干扰集”的假设,允许任意复杂度的交互网络,并在观察性研究中实现可操作的推断。本文即位于此点:它首次(据作者声称)在观察性网络研究中,针对重叠干扰集,给出了IPW估计量的显式渐近方差公式,并将其应用于真实的HIV预防干预数据。
子线索聚类¶
线索1:随机化实验下的干扰推断(设计驱动) - 代表作:Aronow & Samii (2013)[5], Liu & Hudgens (2014)[9], Basse & Feller (2016)[11] - 核心标签:随机分配、暴露映射、IPW、部分干扰假设
线索2:观察性研究中的干扰识别(因果图/无混淆性驱动) - 代表作:Tchetgen & VanderWeele (2010)[4], Forastiere et al. (2016)[6], Ogburn & VanderWeele (2014)[8] - 核心标签:扩展无混淆性、DAG、敏感性分析、广义倾向得分
线索3:实际网络干预中的应用(流行病学/行为科学驱动) - 代表作:Buchanan et al. (2018)[20], 以及本文 - 核心标签:风险网络、溢出效应、人口水平估计、闭合形式方差
线索4:灵敏度分析与偏倚处理(稳健性驱动) - 代表工作:VanderWeele et al. (2014)[15] - 核心标签:未测量混杂、灵敏度分析、传染性效应
这个方向在追问的核心问题¶
- 识别问题:在现实网络的任意干扰下,能否仅用观测数据识别出因果效应(如溢出效应)?至少需要哪些假设(如某种形式的无混淆性、一致性、暴露映射的等价性)?
- 估计效率:IPW估计量在干扰下是否有效率?能否构造双重稳健或半参有效的替代方案(如AIPW)?
- 推断可行性:在重叠干扰集和非参数稀疏网络下,能否得到可操作的渐近方差公式(而非依赖bootstrap)?
- 计算与统计的权衡:当暴露映射非常复杂(如任意距离的邻居)时,有效样本量可能急剧下降,导致估计不稳定;如何在实际应用中平衡偏差和方差?
已知瓶颈:有限重叠(finite-sample overlap)问题在干扰下比标准因果推断更严重;大多数方法的方差估计依赖bootstrap,收敛速度慢;部分干扰假设在真实网络(如性行为网络)中几乎总被违反。
⚠️ 作者的 framing¶
作者将缺口frame为:“现有方法要么假设部分干扰(不重叠),要么依赖随机化设计,要么未推导闭合形式方差。” 因此,这篇论文自然是三步走:放宽干扰集形状(允许重叠) → 处理观察性设计 → 给出闭合形式方差。
被淡化/回避的竞争路线: - 明确回避了双重稳健(doubly robust)或高效估计量(如基于Efficient Influence Function的AIPW)。作者声称“IPW已经足够”,但实际应用中IPW的方差可能很大。 - 对有限重叠问题的处理只是通过Hájek型稳定化权重,没有做trimming或更系统的诊断。 - 作者没有讨论或比较其他非IPW方法(如匹配、g-computation、贝叶斯方法),仅聚焦于IPW框架。
什么明显该被引/该存在、却没出现在introduction里? - 半参数效率界相关的文献:如关于干扰下效率理论的工作(例如在无干扰时的Bickel et al.,但在干扰下尚无完整理论),这篇论文作为一个方法论文,完全不引用效率理论,意味着它承认这不是一个效率排序的问题。 - 更一般的因果图/DAG方法用于干扰:Ogburn & VanderWeele (2014)[8] 是Figure 1的唯一代表,但该文主要区分三种干扰机制(直接、传染、分配),而本文的研究设定更接近“直接干扰+传染”混合,没有明确讨论如何用DAG进行识别分析。 - 近期关于“网络随机化下溢出效应推断”的现代方法(如Basse & Airoldi 2018, 2019等)未被引用,表明本文的参考文献较为老旧(集中2013-2018),可能遗漏了近年来的重要进展。
张力¶
未见明显的引用对立,但存在核心假设的自然演变:Tchetgen & VanderWeele (2010) 强调有限群体(部分干扰),Aronow & Samii (2013) 遵循同样的假设,但事实上如果网络很稀疏,部分干扰近似合理。本文作者声称“打破此假设”,但他们实际上引入了另一个假设:“干扰集重叠但可以枚举”——这在现实网络中可能不比“部分干扰”更合理。没有文献直接证明在何种条件下这两种假设有本质区别。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
符号表:
| 记号 | 含义 | 维数/性质 |
|---|---|---|
| \( N \) | 样本量(个体数) | 标量 |
| \( i, j \) | 个体下标 | 整数 |
| \( A_i \in \{0,1\} \) | 个体 \( i \) 的干预分配(社区警报是否发送给 \( i \) 的周遭?实际观测到的分配) | 二元 |
| \( Y_i \in \{0,1\} \) | 个体 \( i \) 的结果(HIV风险行为,如共享针具) | 二元 |
| \( \mathbf{a} = (a_1, \ldots, a_N) \) | 整个群体的干预分配向量 | \( \{0,1\}^N \) |
| \( \mathcal{N}_i \) | 个体 \( i \) 的“干扰集”——即那些可能影响 \( i \) 的个体的集合(网络邻居) | 子集,可重叠 |
| \( G_i \) | 个体 \( i \) 的“暴露水平”——一个标量/向量函数,将 \( \mathbf{a} \) 压缩为 \( i \) 实际接受到的“暴露” | 函数,由其邻居的干预状态决定 |
| \( S_i(G_i, A_i) \) | 用于加权/匹配的暴露组——将 \( (A_i, G_i) \) 映射到离散的暴露类别 | 有限个类 |
| \( \pi_i^{(0)}, \pi_i^{(1)} \) | 个体 \( i \) 被分配到特定暴露组的概率(倾向得分),基于协变量 \( X_i, Z_i \) | 概率值,待估计 |
| \( \mathbf{X}_i \) | 个体 \( i \) 的协变量 | 向量 |
| \( \mathbf{Z}_i \) | 个体 \( i \) 的网络协变量(如邻居的协变量、邻居数) | 向量 |
| \( \hat{\pi}_i^{(k)} \) | 用逻辑模型估计的倾向得分 | 估计值 |
模型与数据生成机制:
- 网络结构:已知的固定网络 \( \mathcal{G} = (V, E) \),其中 \( V = \{1,\ldots,N\} \),边 \( (i,j) \) 表示存在可能传播 HIV 风险的行为(如共针、无保护性行为)。
- 干预分配机制:观察性非随机。社区警报 \( A_i = 1 \) 表示“个体 \( i \) 的附近(由其网络距离定义)发现了新近HIV感染者,因此向其发送警报”。分配过程不假设为完全随机,仅假设其在给定协变量下是条件可忽略的(unconfounded),且依赖“干扰集”的构造。
- 结果机制:\( Y_i \) 是二元结果(是否采取高风险行为)。潜在结果框架:\( Y_i(\mathbf{a}) \) 定义在整个干预分配向量上,但通过暴露映射 \( S_i \) 被压缩为 \( Y_i(S_i(A_i, G_i)) \),即只依赖自身和邻居的干预状态。
- 可观测数据:每个个体 \( i \) 可观测到 \( (A_i, Y_i, \mathbf{X}_i, \mathbf{Z}_i, \mathcal{N}_i, \text{网络邻接矩阵的局部片段}) \)。无法观测的是反事实:即若 \( A_i \) 或邻居的干预不同时,\( Y_i \) 的值,只能通过无混淆假设来识别。
- 关键参数(estimand):
- 人口水平溢出效应(Population-level Spillover Effect, PSE):定义为 \( P(Y=1 \mid S=s_1) - P(Y=1 \mid S=s_0) \),其中 \( s_1 \) 和 \( s_0 \) 是两个不同的暴露类别。例如,在“本人未受干预但邻居中有干预” vs “没有人受到干预”之间的比较。
第二步:讲最小内核¶
本文最小内核是一个两节点网络上的“简单溢出效应”识别问题,它揭示了所有技术困难:
最简特例(d=1, 2个节点):
- 设 \( N=2 \),网络仅含两条边:\( 1 \leftrightarrow 2 \)。
- 定义暴露:\( S_1 = (A_1, A_2) \) 是每对 \((a_1, a_2)\) 的4个可能取值。我们关注的是:S=(0,1) vs. S=(0,0)——即当个体1没有被干预,其唯一邻居(个体2)被干预与不被干预的对比。
- 问题变成:我们能否从观测数据 \( (A_1, A_2, Y_1, \mathbf{X}_1, \mathbf{X}_2) \) 中,无偏地估计 \( \mathbb{E}[Y_1(0,1)] - \mathbb{E}[Y_1(0,0)] \)?
- 关键假设:
- 无混淆性(个体层面):\( (A_1, A_2) \perp\!\!\!\perp Y_1(0,1), Y_1(0,0) \mid \mathbf{X}_1, \mathbf{X}_2, \text{网络结构} \)。这比标准无混淆性强得多——不仅要求个体自身的干预与反事实独立,还要求邻居的干预也独立于该个体的潜在结果。
- 一致性:当观测到 \( A_1 = 0, A_2 = 1 \) 时,观测到的 \( Y_1 \) 就等于 \( Y_1(0,1) \)。
- 重叠(positivity):对于每个可能的协变量模式,概率 \( P(A_1 = a_1, A_2 = a_2 \mid \text{协变量}) > 0 \)。
-
核心思路:IPW通过给每个观测到的样本加权,构造一个“伪总体”,其中 \( (A_1, A_2) \) 的条件分布与真实分布无关。具体地,如果要估计 \( \mathbb{E}[Y_1(0,1)] \),只保留那些观测到 \( (A_1=0, A_2=1) \) 的个体1,并将其权重设为 \( 1 / P(A_1=0, A_2=1 \mid \text{协变量}) \)——此时这个加权平均的期望就等于 \( \mathbb{E}[Y_1(0,1)] \)。
-
为什么这是最小内核? 因为作者后来所有的一般性(重叠干扰集、任意网络大小、闭合形式方差)都可以看作是这个2节点例子的直接推广:(1)暴露函数从4种情况推广到任意有限类;(2)倾向得分从联合二元概率推广到高维但可分解的逻辑模型;(3)方差公式从个体层次扩展到网络层次的聚类调整。
-
这个例子揭示的困难:即使只有2个人,估计 \( P(A_1=0, A_2=1 \mid \mathbf{X}) \) 仍然需要正确定义协变量(包括对方协变量)和模型形式;如果网络有30人,直接枚举所有邻居的干预状态会指数爆炸,因此必须找一个低维的暴露映射来压缩信息。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:在追踪静脉注射吸毒者(PWID)风险网络的研究中,如何估计非随机HIV社区警报干预的人口水平溢出效应(spillover effect),允许网络干扰集相互重叠(即partial interference假设不成立)。
- 核心工具/方法:基于逆概率加权(IPW)的两种估计量,一种直接加权,一种采用Hájek型稳定化权重;通过逻辑回归估计倾向得分(暴露组的分配概率),并推导了渐近方差的显式闭合形式公式。
- 主要结论:两个IPW估计量均相合且渐近正态;在雅典TRIP数据的实证分析中,社区警报对未直接收到警报的网络成员的HIV风险行为有显著的保护性溢出效应(risk difference约为 -0.1 到 -0.2,取决于暴露定义)。
关键设定与假设(在最小内核基础上补全)¶
暴露映射(Exposure Mapping)定义:
- 定义“暴露类别”为个体 \( i \) 自身干预状态与其邻居中至少一人被干预的交互分类。具体来说,作者考虑了两种暴露(Exposure)定义:
- Ex1: S_i = (A_i, 是否邻居中有被干预的个体) → 4个类别。
- Ex2: S_i = (A_i, 邻居中被干预个数 ≥1, ≥2, ≥3) → 8个类别(但实际常用前三类)。
这种压缩是关键的:它避免了枚举所有邻居的干预向量,使得采样可行。
关键假设(与最小内核一致,但扩展到网络):
- 无干扰(一致性):\( Y_i = Y_i(S_i) \) ——结果只取决于自身暴露类别,而非整个分配向量。
- 条件独立性(无混淆性):给定协变量 \( (\mathbf{X}_i, \mathbf{Z}_i) \) 后,\( S_i \) 与 \( Y_i(s) \) 独立(对每个 \( s \))。这是一个扩展的无混淆性,因为它要求邻居的干预状态与个体的潜在结果独立。
- 交叉干扰限制:假设干扰只发生在“有限距离”内——即个体的结果只受其网络距离 ≤ d 的邻居的干预影响(这里d=1,即只考虑直接邻居,这在静脉注射吸毒者网络中合理,因为风险传播主要通过直接共用针具)。
- 稀疏性:每个个体的干扰集规模有限(本文最大几十个),这使得暴露映射的类别数不会爆炸。
相比已有文献的放宽/强化: - 放宽:Aronow & Samii (2013) 和 Liu & Hudgens (2014) 假设“部分干扰”(不重叠的组),本文允许重叠(一个个体可以同时属于多个人的干扰集)。 - 强化:相比Aronow & Samii,本文在非随机设计下工作,因此需要施加更严格的无混淆性条件(控制邻居协变量),这在随机化设计中是自动满足的。
主要结果¶
定理1(两个IPW估计量的渐近性质): 在假设1-4成立下,IPW估计量 \( \hat{\Delta} \) 和Hájek型估计量 \( \hat{\Delta}_H \) 都是相合且渐近正态的:
定理2(闭合形式方差估计量): 作者给出了 \( \hat{V} \) 的显式公式(定理3.1和附录A),它由三部分组成: - 倾向得分模型估计带来的额外方差(M-估计量部分) - 加权结果的方差 - 网络结构带来的协方差项的调整(由于干扰集重叠!)
关键特点:这个方差公式不依赖bootstrap,在模拟中显示稳定。这是本文的核心贡献之一。
模拟研究: - 生成网络:随机图(Erdos-Renyi),平均度数r从2到8。 - 设置:N=200, 500, y=二元结果,因果效应设置为真值Δ ≈ -0.15(保护性溢出)。 - 结果: - Hájek型IPW估计量的偏差和均方误差(MSE)均低于简单IPW(约降低30-50%),尤其在网络密度较高(重叠多)时优势明显。 - 基于闭合公式的置信区间覆盖率在0.90-0.95之间(名义95%),而基于bootstrap(2,000次重复)的覆盖率也类似,但计算量大10倍以上。 - 当重叠程度高(度数>5)时,本方法覆盖率的退化(低于0.90)比传统IPW少2-3%。
证明路线与技术技巧(理论型必写,要具体)¶
整体路线(3步逻辑主干):
-
步骤1:将估计问题写成M-估计方程的形式。倾向得分 \( \pi_i^{(k)} = P(S_i = k \mid \mathbf{X}, \mathbf{Z}) \) 由逻辑模型 \( \theta \) 参数化。IPW估计量的定义为:
\[\hat{\Delta} = \frac{1}{N} \sum_i \frac{w_i Y_i}{\hat{\pi}_i^{(k)}}\]其中 \( w_i \) 是指示函数(如 \( I(S_i = s_1) \) 和 \( I(S_i = s_0) \) 的差)。将这个式子与倾向得分的得分方程联立,形成一组联合M-估计方程:第一个是倾向得分模型(逻辑回归)的得分条件,第二个是加权结果的估计条件。 -
步骤2:使用M-估计的渐近理论。为了处理“估计倾向得分带来的方差”,作者使用标准的两阶段M-估计的influence function展开。关键点是:倾向得分模型是一个标准的广义线性模型(GLM),所以其Influence Function有已知形式(Huber sandwich)。
-
步骤3:处理网络干扰带来的相依结构。标准M-估计假设独立同分布,但这里个体间可能有相依性(通过干扰集重叠)。作者证明,由于权重仅取决于个体的暴露类别和其邻居的干预状态,相依性“被限制在干扰集内”,因此可以利用“弱依赖性”下的CLT(如 U-statistic 型CLT)。具体地,他们使用两阶段估计的M-估计理论结合网络带来的空间自相关调整,证明Influence Function的协方差矩阵可以用干扰集的局部信息表示。
关键跳跃点:
-
最难的是“何时权重可以写成一个简单的局部函数”。 作者的处理是:因为暴露映射只依赖直接邻居,所以每个个体的权重 \( w_i / \hat{\pi}_i \) 只依赖于该个体及其邻居的信息。因此,任意两个距离较远的个体,其贡献的协方差为0(或随距离衰减)。这避免了全局协方差矩阵的估计。
-
闭合方差公式的推导:作者引入了一个“设计向量”(design vector)\( D_i \),它包含了:
- 倾向得分模型的设计矩阵
- 个体自己的暴露指示函数
- 和这些的交互项。
然后,他们利用M-估计的“sandwich estimator”形式,但将中间项的估计替换为基于网络的“局部邻接的协方差估计”(一种带窗口的HAC估计量)。关键技巧是把“网络邻接”看作时间序列中的“Lag窗口”,用邻居集内的交叉乘积来估计协方差。
技术技巧点名: - M-估计(两阶段,with estimated nuisance):是主线框架。 - 局部邻接的HAC方差估计:这是论文的核心创新技巧,将时间序列中的Newey-West估计器扩展到网络设定。 - U-statistic / 弱依赖CLT:用于证明渐近正态性。 - Hájek型权重:用于改进有限样本性能(这本身是标准技巧,但在干扰网络下未广泛应用)。
真实例子与应用(必须讲)¶
数据: 雅典TRIP(Transmission Reduction Intervention Project)数据,2013-2015。在雅典PWID人群中,采用“种子-网络成员”结构招募了约320名经历过HIV检测的人。种子根据最近感染与否分为两类;其网络成员(通过血清状态、共享针具或性行为连接)被追踪2步。最终网络约有250人(去除孤立节点和缺失数据后为228人)。
如何应用: 1. 定义处理(干预):社区警报。如果一个人的网络中发现有新近HIV感染者(通过LAg检测判断),且该人距离感染者在2步以内,则此人被标记为“受到社区警报”(\( A=1 \)),否则 \( A=0 \)。 2. 结果:是否最后一次注射时与他人共享针具(有/无)。 3. 暴露映射:作者选择Ex1(4类),重点关注“个体未收到警报但邻居有接收警报的人” vs. “个体和所有邻居均未收到警报”。 4. 估计: - 逻辑模型估计倾向得分 \( \pi_i(S_i) \),协变量包括年龄、性别、是否无家可归、注射频率、是否与HIV+共享针具等。 - 两个IPW估计量计算加权风险差。 5. 结果: - 简单IPW:溢出效应的风险差为 -0.12(SE: 0.05, p=0.02) - Hájek IPW:-0.15(SE: 0.045, p=0.001) - 这意味着:相比于那些“自己和邻居均未收到警报”的人,有一个邻居收到警报的人,其高风险行为(共享针具)的比例降低了约12-15个百分点,具有统计显著性。
这个例子想说明什么? - 主要的实证结论:社区警报是一个有效的HIV预防工具,保护了未直接接收到警报但处于高风险网络中的人。 - 方法论意义:证明了两个IPW估计量在真实数据上的可行性,且Hájek IPW显著提高了估计效率(SE减小约10%),增大了统计显著性。
🔎 结论是否比证明窄¶
是。以下几点值得注意: - 推论限制:作者在引言和结论部分声称处理了“overlapping interference sets”,但在证明中(and正如我们分析的),假设暴露映射只依赖于直接邻居。这意味着“重叠”仅限于距离为1的干扰集重叠。如果干扰达2步以上(例如网络中“朋友的朋友”施加影响),本方法的暴露映射定义就不能推广,且方差公式中的“局部性”假设会失效。这个假设在方法论声明中被模糊处理了。 - “闭合形式方差”的具体意义:作者推导的方差公式是“闭合形式”且无需bootstrap,但必须依赖倾向得分模型是逻辑回归,以及暴露映射类别的有限性。如果换用更灵活的倾向得分模型(如XGBoost、神经网络),则无法使用该方差公式(需要重新推导或返回bootstrap)。作者没有明确提出这一限制。 - 未检验的选项:论文完全回避了半参数效率界的问题。作者声称“这是第一个在重叠干扰集中给出闭合方差的工作”,但没有证明它是否在效率上是最优的(即未估计半参数有效界)。因此,即使该IPW估计量是可行的,它可能不是最有效的。
四、开放问题(点到为止,扎根具体语句)¶
- 半参数效率界未知
- 扎根于:论文没有推导或讨论在重叠干扰设定下的半参数效率界。作者声称“这是第一个闭合方差”但没有说“这是最有效的”。
-
开放问题:在允许重叠干扰集的观察性网络研究中,对于边际溢出效应 estimand,有效影响函数(EIF)是什么? 是否存在一个比IPW更高效的双重稳健估计量?——这近似是“效率理论在干扰下的推广”问题(对于熟悉半参数理论的你,这是自然的下一步)。
-
暴露映射的定义过于局部
- 扎根于:作者只定义暴露为“自己 + 至少一个邻居受到干预”。但现实流行病学中,“多远距离的邻居施加影响”是不确定的。
-
开放问题:如果干扰可达多步(例如朋友的朋友的干预仍有溢出),如何调整暴露映射使其仍可识别且可估计?或者能否开发一种“距离敏感的加权方案”,而不必人为设定截断距离?
-
重叠假设的“真实代价”
- 扎根于:论文在模拟部分已经显示了当重叠增加(网络度数高)时,IPW估计量的方差显著增大。
-
开放问题:是否存在一个“重叠强度”的硬阈值——超过某个度数时,IPW根本不可用(或不一致)?能否构建一个“诊断统计量”来评估给定网络是否“重叠过大以至于无法用IPW识别”?
-
网络披露偏差(Network Non-disclosure/Reporting Error)
- 扎根于:TRIP数据基于自我报告的网络连接(如“我是否和你共享过针具”)。现实中的网络报告是不完整的,且存在记忆/社会期望偏差。
- 开放问题:如果网络边缺失或有测量误差,本方法的稳健性如何?是否可以将测量误差模型融入到倾向得分或方差公式中?这是流行病学数据中一个非常常见但论文完全未涉及的问题。
Maintained by 陈星宇 · Homepage · Source on GitHub