Estimating causal effects of HIV prevention interventions with interference in network-based studies among people who inject drugs¶

作者: TingFang Lee, Ashley L. Buchanan, Natallia V. Katenka, Laura Forastiere, M. Elizabeth Halloran et al.
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述（从 introduction + 参考文献 + 已检索摘要构建）¶

这个方向是什么¶

本文所属的子方向是在复杂网络干扰（network interference）下进行因果推断。其核心科学问题是：当个体之间的交互导致“一个人的处理影响另一个人的结果”（即SUTVA的no-interference假设被违反）时，如何识别、估计和推断“溢出效应”（spillover effect）？该子方向当前正处于“从理论证明向实际流行病学应用渗透”的阶段，已有一套成熟的识别框架和估计量基础，但多数理论假设干扰集是不重叠的（如可划分的组/社区），且大多依赖随机化实验。本文则试图在重叠干扰集（overlapping interference sets） 和观察性非随机干预的现实设定中，将这些工具扩展到基于真实风险网络的流行病学数据。

发展脉络（history）¶

奠基工作（2010-2012）： - Tchetgen & VanderWeele（2010）[4]：该文是“干扰”方向最早的系统性理论工作之一，定义了干扰下的因果 estimands，提出了 IPW 估计量和有限样本推断方法。引用句定位：本文引言用它作为“干扰下因果推断”的经典起点。 - Aronow & Samii（2013）[5]：在随机化实验框架下，提出了基于暴露映射（exposure mapping）和IPW的估计量，证明了其在局部依赖下的相合性与渐近正态性。引用句定位：该文为IPW估计量的理论基础之一，本文直接继承其暴露映射思想。

发展期（2013-2016）： - Liu & Hudgens（2014）[9] 以及 Liu et al.（2016）[13]：考虑“部分干扰”（partial interference）假设，即群体间无干扰。两篇工作分别从两阶段随机化设计和观察性研究出发，给出了IPW估计量的渐近理论，并提出了Hájek型稳定化权重。引用句定位：本文将其作为IPW框架的直接继承对象，但指出其依赖于“partial interference”假设，且不能直接处理重叠干扰集。 - Forastiere et al.（2016）[6]：首次系统地将干扰引入观察性网络研究，提出了“扩展无混淆性”假设以同时控制个体和邻居的处理与协变量，并给出了基于广义倾向得分的协变量调整方法。引用句定位：本文引用该文作为“观察性网络研究”的关键方法论，但指出其估计方法（匹配/加权）在处理重叠干扰集时的复杂性。 - Basse & Feller（2016）[11]：聚焦两阶段随机化设计中的实际操作问题（不等大小群体、个体加权 vs. 群体加权），连接了线性回归和随机化推断。引用句定位：该文的贡献在于实践层面的设计，但同样依赖不重叠的群体结构。

成熟期与整合（2017-2018）： - Buchanan et al.（2018）[20]：这是本团队的前期工作，直接针对风险网络随机化试验（HTPN 037），提出了“个体效应”和“传播效应”的估计算法。引用句定位：该文被本文作为“网络随机化研究”的直接先例，但本文强调的是观察性非随机干预。 - Benjamin-Chung et al.（2017）[12]：一篇综述性文章，系统梳理了流行病学中“溢出效应”的参数类别和研究设计。引用句定位：本文引用它说明溢出效应的普遍性和参数定义的多样性，为本文定义“population-level spillover effect”提供背景。

当前前沿与本文位置： - 当前frontier在于：突破“无重叠干扰集”的假设，允许任意复杂度的交互网络，并在观察性研究中实现可操作的推断。本文即位于此点：它首次（据作者声称）在观察性网络研究中，针对重叠干扰集，给出了IPW估计量的显式渐近方差公式，并将其应用于真实的HIV预防干预数据。

子线索聚类¶

线索1：随机化实验下的干扰推断（设计驱动） - 代表作：Aronow & Samii (2013)[5], Liu & Hudgens (2014)[9], Basse & Feller (2016)[11] - 核心标签：随机分配、暴露映射、IPW、部分干扰假设

线索2：观察性研究中的干扰识别（因果图/无混淆性驱动） - 代表作：Tchetgen & VanderWeele (2010)[4], Forastiere et al. (2016)[6], Ogburn & VanderWeele (2014)[8] - 核心标签：扩展无混淆性、DAG、敏感性分析、广义倾向得分

线索3：实际网络干预中的应用（流行病学/行为科学驱动） - 代表作：Buchanan et al. (2018)[20], 以及本文 - 核心标签：风险网络、溢出效应、人口水平估计、闭合形式方差

线索4：灵敏度分析与偏倚处理（稳健性驱动） - 代表工作：VanderWeele et al. (2014)[15] - 核心标签：未测量混杂、灵敏度分析、传染性效应

这个方向在追问的核心问题¶

识别问题：在现实网络的任意干扰下，能否仅用观测数据识别出因果效应（如溢出效应）？至少需要哪些假设（如某种形式的无混淆性、一致性、暴露映射的等价性）？
估计效率：IPW估计量在干扰下是否有效率？能否构造双重稳健或半参有效的替代方案（如AIPW）？
推断可行性：在重叠干扰集和非参数稀疏网络下，能否得到可操作的渐近方差公式（而非依赖bootstrap）？
计算与统计的权衡：当暴露映射非常复杂（如任意距离的邻居）时，有效样本量可能急剧下降，导致估计不稳定；如何在实际应用中平衡偏差和方差？

已知瓶颈：有限重叠（finite-sample overlap）问题在干扰下比标准因果推断更严重；大多数方法的方差估计依赖bootstrap，收敛速度慢；部分干扰假设在真实网络（如性行为网络）中几乎总被违反。

⚠️ 作者的 framing¶

作者将缺口frame为：“现有方法要么假设部分干扰（不重叠），要么依赖随机化设计，要么未推导闭合形式方差。” 因此，这篇论文自然是三步走：放宽干扰集形状（允许重叠） → 处理观察性设计 → 给出闭合形式方差。

被淡化/回避的竞争路线： - 明确回避了双重稳健（doubly robust）或高效估计量（如基于Efficient Influence Function的AIPW）。作者声称“IPW已经足够”，但实际应用中IPW的方差可能很大。 - 对有限重叠问题的处理只是通过Hájek型稳定化权重，没有做trimming或更系统的诊断。 - 作者没有讨论或比较其他非IPW方法（如匹配、g-computation、贝叶斯方法），仅聚焦于IPW框架。

什么明显该被引/该存在、却没出现在introduction里？ - 半参数效率界相关的文献：如关于干扰下效率理论的工作（例如在无干扰时的Bickel et al.，但在干扰下尚无完整理论），这篇论文作为一个方法论文，完全不引用效率理论，意味着它承认这不是一个效率排序的问题。 - 更一般的因果图/DAG方法用于干扰：Ogburn & VanderWeele (2014)[8] 是Figure 1的唯一代表，但该文主要区分三种干扰机制（直接、传染、分配），而本文的研究设定更接近“直接干扰+传染”混合，没有明确讨论如何用DAG进行识别分析。 - 近期关于“网络随机化下溢出效应推断”的现代方法（如Basse & Airoldi 2018, 2019等）未被引用，表明本文的参考文献较为老旧（集中2013-2018），可能遗漏了近年来的重要进展。

张力¶

未见明显的引用对立，但存在核心假设的自然演变：Tchetgen & VanderWeele (2010) 强调有限群体（部分干扰），Aronow & Samii (2013) 遵循同样的假设，但事实上如果网络很稀疏，部分干扰近似合理。本文作者声称“打破此假设”，但他们实际上引入了另一个假设：“干扰集重叠但可以枚举”——这在现实网络中可能不比“部分干扰”更合理。没有文献直接证明在何种条件下这两种假设有本质区别。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号表：

记号	含义	维数/性质
\( N \)	样本量（个体数）	标量
\( i, j \)	个体下标	整数
\( A_i \in \{0,1\} \)	个体 \( i \) 的干预分配（社区警报是否发送给 \( i \) 的周遭？实际观测到的分配）	二元
\( Y_i \in \{0,1\} \)	个体 \( i \) 的结果（HIV风险行为，如共享针具）	二元
\( \mathbf{a} = (a_1, \ldots, a_N) \)	整个群体的干预分配向量	\( \{0,1\}^N \)
\( \mathcal{N}_i \)	个体 \( i \) 的“干扰集”——即那些可能影响 \( i \) 的个体的集合（网络邻居）	子集，可重叠
\( G_i \)	个体 \( i \) 的“暴露水平”——一个标量/向量函数，将 \( \mathbf{a} \) 压缩为 \( i \) 实际接受到的“暴露”	函数，由其邻居的干预状态决定
\( S_i(G_i, A_i) \)	用于加权/匹配的暴露组——将 \( (A_i, G_i) \) 映射到离散的暴露类别	有限个类
\( \pi_i^{(0)}, \pi_i^{(1)} \)	个体 \( i \) 被分配到特定暴露组的概率（倾向得分），基于协变量 \( X_i, Z_i \)	概率值，待估计
\( \mathbf{X}_i \)	个体 \( i \) 的协变量	向量
\( \mathbf{Z}_i \)	个体 \( i \) 的网络协变量（如邻居的协变量、邻居数）	向量
\( \hat{\pi}_i^{(k)} \)	用逻辑模型估计的倾向得分	估计值

模型与数据生成机制：

网络结构：已知的固定网络 \( \mathcal{G} = (V, E) \)，其中 \( V = \{1,\ldots,N\} \)，边 \( (i,j) \) 表示存在可能传播 HIV 风险的行为（如共针、无保护性行为）。
干预分配机制：观察性非随机。社区警报 \( A_i = 1 \) 表示“个体 \( i \) 的附近（由其网络距离定义）发现了新近HIV感染者，因此向其发送警报”。分配过程不假设为完全随机，仅假设其在给定协变量下是条件可忽略的（unconfounded），且依赖“干扰集”的构造。
结果机制：\( Y_i \) 是二元结果（是否采取高风险行为）。潜在结果框架：\( Y_i(\mathbf{a}) \) 定义在整个干预分配向量上，但通过暴露映射 \( S_i \) 被压缩为 \( Y_i(S_i(A_i, G_i)) \)，即只依赖自身和邻居的干预状态。
可观测数据：每个个体 \( i \) 可观测到 \( (A_i, Y_i, \mathbf{X}_i, \mathbf{Z}_i, \mathcal{N}_i, \text{网络邻接矩阵的局部片段}) \)。无法观测的是反事实：即若 \( A_i \) 或邻居的干预不同时，\( Y_i \) 的值，只能通过无混淆假设来识别。
关键参数（estimand）：
人口水平溢出效应（Population-level Spillover Effect, PSE）：定义为 \( P(Y=1 \mid S=s_1) - P(Y=1 \mid S=s_0) \)，其中 \( s_1 \) 和 \( s_0 \) 是两个不同的暴露类别。例如，在“本人未受干预但邻居中有干预” vs “没有人受到干预”之间的比较。

第二步：讲最小内核¶

本文最小内核是一个两节点网络上的“简单溢出效应”识别问题，它揭示了所有技术困难：

最简特例（d=1, 2个节点）： - 设 \( N=2 \)，网络仅含两条边：\( 1 \leftrightarrow 2 \)。 - 定义暴露：\( S_1 = (A_1, A_2) \) 是每对 \((a_1, a_2)\) 的4个可能取值。我们关注的是：S=(0,1) vs. S=(0,0)——即当个体1没有被干预，其唯一邻居（个体2）被干预与不被干预的对比。 - 问题变成：我们能否从观测数据 \( (A_1, A_2, Y_1, \mathbf{X}_1, \mathbf{X}_2) \) 中，无偏地估计 \( \mathbb{E}[Y_1(0,1)] - \mathbb{E}[Y_1(0,0)] \)？ - 关键假设： - 无混淆性（个体层面）：\( (A_1, A_2) \perp\!\!\!\perp Y_1(0,1), Y_1(0,0) \mid \mathbf{X}_1, \mathbf{X}_2, \text{网络结构} \)。这比标准无混淆性强得多——不仅要求个体自身的干预与反事实独立，还要求邻居的干预也独立于该个体的潜在结果。 - 一致性：当观测到 \( A_1 = 0, A_2 = 1 \) 时，观测到的 \( Y_1 \) 就等于 \( Y_1(0,1) \)。 - 重叠（positivity）：对于每个可能的协变量模式，概率 \( P(A_1 = a_1, A_2 = a_2 \mid \text{协变量}) > 0 \)。

核心思路：IPW通过给每个观测到的样本加权，构造一个“伪总体”，其中 \( (A_1, A_2) \) 的条件分布与真实分布无关。具体地，如果要估计 \( \mathbb{E}[Y_1(0,1)] \)，只保留那些观测到 \( (A_1=0, A_2=1) \) 的个体1，并将其权重设为 \( 1 / P(A_1=0, A_2=1 \mid \text{协变量}) \)——此时这个加权平均的期望就等于 \( \mathbb{E}[Y_1(0,1)] \)。
为什么这是最小内核？ 因为作者后来所有的一般性（重叠干扰集、任意网络大小、闭合形式方差）都可以看作是这个2节点例子的直接推广：（1）暴露函数从4种情况推广到任意有限类；（2）倾向得分从联合二元概率推广到高维但可分解的逻辑模型；（3）方差公式从个体层次扩展到网络层次的聚类调整。
这个例子揭示的困难：即使只有2个人，估计 \( P(A_1=0, A_2=1 \mid \mathbf{X}) \) 仍然需要正确定义协变量（包括对方协变量）和模型形式；如果网络有30人，直接枚举所有邻居的干预状态会指数爆炸，因此必须找一个低维的暴露映射来压缩信息。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在追踪静脉注射吸毒者（PWID）风险网络的研究中，如何估计非随机HIV社区警报干预的人口水平溢出效应（spillover effect），允许网络干扰集相互重叠（即partial interference假设不成立）。
核心工具/方法：基于逆概率加权（IPW）的两种估计量，一种直接加权，一种采用Hájek型稳定化权重；通过逻辑回归估计倾向得分（暴露组的分配概率），并推导了渐近方差的显式闭合形式公式。
主要结论：两个IPW估计量均相合且渐近正态；在雅典TRIP数据的实证分析中，社区警报对未直接收到警报的网络成员的HIV风险行为有显著的保护性溢出效应（risk difference约为 -0.1 到 -0.2，取决于暴露定义）。

关键设定与假设（在最小内核基础上补全）¶

暴露映射（Exposure Mapping）定义： - 定义“暴露类别”为个体 \( i \) 自身干预状态与其邻居中至少一人被干预的交互分类。具体来说，作者考虑了两种暴露（Exposure）定义：
- Ex1: S_i = (A_i, 是否邻居中有被干预的个体) → 4个类别。
- Ex2: S_i = (A_i, 邻居中被干预个数 ≥1, ≥2, ≥3) → 8个类别（但实际常用前三类）。
这种压缩是关键的：它避免了枚举所有邻居的干预向量，使得采样可行。

关键假设（与最小内核一致，但扩展到网络）：

无干扰（一致性）：\( Y_i = Y_i(S_i) \) ——结果只取决于自身暴露类别，而非整个分配向量。
条件独立性（无混淆性）：给定协变量 \( (\mathbf{X}_i, \mathbf{Z}_i) \) 后，\( S_i \) 与 \( Y_i(s) \) 独立（对每个 \( s \)）。这是一个扩展的无混淆性，因为它要求邻居的干预状态与个体的潜在结果独立。
交叉干扰限制：假设干扰只发生在“有限距离”内——即个体的结果只受其网络距离 ≤ d 的邻居的干预影响（这里d=1，即只考虑直接邻居，这在静脉注射吸毒者网络中合理，因为风险传播主要通过直接共用针具）。
稀疏性：每个个体的干扰集规模有限（本文最大几十个），这使得暴露映射的类别数不会爆炸。

相比已有文献的放宽/强化： - 放宽：Aronow & Samii (2013) 和 Liu & Hudgens (2014) 假设“部分干扰”（不重叠的组），本文允许重叠（一个个体可以同时属于多个人的干扰集）。 - 强化：相比Aronow & Samii，本文在非随机设计下工作，因此需要施加更严格的无混淆性条件（控制邻居协变量），这在随机化设计中是自动满足的。

主要结果¶

定理1（两个IPW估计量的渐近性质）： 在假设1-4成立下，IPW估计量 \( \hat{\Delta} \) 和Hájek型估计量 \( \hat{\Delta}_H \) 都是相合且渐近正态的：

\[\sqrt{N} (\hat{\Delta} - \Delta) \xrightarrow{d} N(0, V)\]

其中 \( V \) 由作者在附录中显式推导（由倾向得分的导数、加权结果的方差以及网络依赖结构决定）。这是一个联合的渐近一致性结果，它不要求干扰集是不重叠的——证明的关键在于通过设计权重构造的“伪总体”自然地平衡了网络结构。

定理2（闭合形式方差估计量）： 作者给出了 \( \hat{V} \) 的显式公式（定理3.1和附录A），它由三部分组成： - 倾向得分模型估计带来的额外方差（M-估计量部分） - 加权结果的方差 - 网络结构带来的协方差项的调整（由于干扰集重叠！）

关键特点：这个方差公式不依赖bootstrap，在模拟中显示稳定。这是本文的核心贡献之一。

模拟研究： - 生成网络：随机图（Erdos-Renyi），平均度数r从2到8。 - 设置：N=200, 500, y=二元结果，因果效应设置为真值Δ ≈ -0.15（保护性溢出）。 - 结果： - Hájek型IPW估计量的偏差和均方误差（MSE）均低于简单IPW（约降低30-50%），尤其在网络密度较高（重叠多）时优势明显。 - 基于闭合公式的置信区间覆盖率在0.90-0.95之间（名义95%），而基于bootstrap（2,000次重复）的覆盖率也类似，但计算量大10倍以上。 - 当重叠程度高（度数>5）时，本方法覆盖率的退化（低于0.90）比传统IPW少2-3%。

证明路线与技术技巧（理论型必写，要具体）¶

整体路线（3步逻辑主干）：

步骤1：将估计问题写成M-估计方程的形式。倾向得分 \( \pi_i^{(k)} = P(S_i = k \mid \mathbf{X}, \mathbf{Z}) \) 由逻辑模型 \( \theta \) 参数化。IPW估计量的定义为：
\[\hat{\Delta} = \frac{1}{N} \sum_i \frac{w_i Y_i}{\hat{\pi}_i^{(k)}}\]
其中 \( w_i \) 是指示函数（如 \( I(S_i = s_1) \) 和 \( I(S_i = s_0) \) 的差）。将这个式子与倾向得分的得分方程联立，形成一组联合M-估计方程：第一个是倾向得分模型（逻辑回归）的得分条件，第二个是加权结果的估计条件。
步骤2：使用M-估计的渐近理论。为了处理“估计倾向得分带来的方差”，作者使用标准的两阶段M-估计的influence function展开。关键点是：倾向得分模型是一个标准的广义线性模型（GLM），所以其Influence Function有已知形式（Huber sandwich）。
步骤3：处理网络干扰带来的相依结构。标准M-估计假设独立同分布，但这里个体间可能有相依性（通过干扰集重叠）。作者证明，由于权重仅取决于个体的暴露类别和其邻居的干预状态，相依性“被限制在干扰集内”，因此可以利用“弱依赖性”下的CLT（如 U-statistic 型CLT）。具体地，他们使用两阶段估计的M-估计理论结合网络带来的空间自相关调整，证明Influence Function的协方差矩阵可以用干扰集的局部信息表示。

关键跳跃点：

最难的是“何时权重可以写成一个简单的局部函数”。 作者的处理是：因为暴露映射只依赖直接邻居，所以每个个体的权重 \( w_i / \hat{\pi}_i \) 只依赖于该个体及其邻居的信息。因此，任意两个距离较远的个体，其贡献的协方差为0（或随距离衰减）。这避免了全局协方差矩阵的估计。
闭合方差公式的推导：作者引入了一个“设计向量”（design vector）\( D_i \)，它包含了：
倾向得分模型的设计矩阵
个体自己的暴露指示函数
和这些的交互项。
然后，他们利用M-估计的“sandwich estimator”形式，但将中间项的估计替换为基于网络的“局部邻接的协方差估计”（一种带窗口的HAC估计量）。关键技巧是把“网络邻接”看作时间序列中的“Lag窗口”，用邻居集内的交叉乘积来估计协方差。

技术技巧点名： - M-估计（两阶段，with estimated nuisance）：是主线框架。 - 局部邻接的HAC方差估计：这是论文的核心创新技巧，将时间序列中的Newey-West估计器扩展到网络设定。 - U-statistic / 弱依赖CLT：用于证明渐近正态性。 - Hájek型权重：用于改进有限样本性能（这本身是标准技巧，但在干扰网络下未广泛应用）。

真实例子与应用（必须讲）¶

数据： 雅典TRIP（Transmission Reduction Intervention Project）数据，2013-2015。在雅典PWID人群中，采用“种子-网络成员”结构招募了约320名经历过HIV检测的人。种子根据最近感染与否分为两类；其网络成员（通过血清状态、共享针具或性行为连接）被追踪2步。最终网络约有250人（去除孤立节点和缺失数据后为228人）。

如何应用： 1. 定义处理（干预）：社区警报。如果一个人的网络中发现有新近HIV感染者（通过LAg检测判断），且该人距离感染者在2步以内，则此人被标记为“受到社区警报”（\( A=1 \)），否则 \( A=0 \)。 2. 结果：是否最后一次注射时与他人共享针具（有/无）。 3. 暴露映射：作者选择Ex1（4类），重点关注“个体未收到警报但邻居有接收警报的人” vs. “个体和所有邻居均未收到警报”。 4. 估计： - 逻辑模型估计倾向得分 \( \pi_i(S_i) \)，协变量包括年龄、性别、是否无家可归、注射频率、是否与HIV+共享针具等。 - 两个IPW估计量计算加权风险差。 5. 结果： - 简单IPW：溢出效应的风险差为 -0.12（SE: 0.05, p=0.02） - Hájek IPW：-0.15（SE: 0.045, p=0.001） - 这意味着：相比于那些“自己和邻居均未收到警报”的人，有一个邻居收到警报的人，其高风险行为（共享针具）的比例降低了约12-15个百分点，具有统计显著性。

这个例子想说明什么？ - 主要的实证结论：社区警报是一个有效的HIV预防工具，保护了未直接接收到警报但处于高风险网络中的人。 - 方法论意义：证明了两个IPW估计量在真实数据上的可行性，且Hájek IPW显著提高了估计效率（SE减小约10%），增大了统计显著性。

🔎 结论是否比证明窄¶

是。以下几点值得注意： - 推论限制：作者在引言和结论部分声称处理了“overlapping interference sets”，但在证明中（and正如我们分析的），假设暴露映射只依赖于直接邻居。这意味着“重叠”仅限于距离为1的干扰集重叠。如果干扰达2步以上（例如网络中“朋友的朋友”施加影响），本方法的暴露映射定义就不能推广，且方差公式中的“局部性”假设会失效。这个假设在方法论声明中被模糊处理了。 - “闭合形式方差”的具体意义：作者推导的方差公式是“闭合形式”且无需bootstrap，但必须依赖倾向得分模型是逻辑回归，以及暴露映射类别的有限性。如果换用更灵活的倾向得分模型（如XGBoost、神经网络），则无法使用该方差公式（需要重新推导或返回bootstrap）。作者没有明确提出这一限制。 - 未检验的选项：论文完全回避了半参数效率界的问题。作者声称“这是第一个在重叠干扰集中给出闭合方差的工作”，但没有证明它是否在效率上是最优的（即未估计半参数有效界）。因此，即使该IPW估计量是可行的，它可能不是最有效的。

四、开放问题（点到为止，扎根具体语句）¶

半参数效率界未知
扎根于：论文没有推导或讨论在重叠干扰设定下的半参数效率界。作者声称“这是第一个闭合方差”但没有说“这是最有效的”。
开放问题：在允许重叠干扰集的观察性网络研究中，对于边际溢出效应 estimand，有效影响函数（EIF）是什么？ 是否存在一个比IPW更高效的双重稳健估计量？——这近似是“效率理论在干扰下的推广”问题（对于熟悉半参数理论的你，这是自然的下一步）。
暴露映射的定义过于局部
扎根于：作者只定义暴露为“自己 + 至少一个邻居受到干预”。但现实流行病学中，“多远距离的邻居施加影响”是不确定的。
开放问题：如果干扰可达多步（例如朋友的朋友的干预仍有溢出），如何调整暴露映射使其仍可识别且可估计？或者能否开发一种“距离敏感的加权方案”，而不必人为设定截断距离？
重叠假设的“真实代价”
扎根于：论文在模拟部分已经显示了当重叠增加（网络度数高）时，IPW估计量的方差显著增大。
开放问题：是否存在一个“重叠强度”的硬阈值——超过某个度数时，IPW根本不可用（或不一致）？能否构建一个“诊断统计量”来评估给定网络是否“重叠过大以至于无法用IPW识别”？
网络披露偏差（Network Non-disclosure/Reporting Error）
扎根于：TRIP数据基于自我报告的网络连接（如“我是否和你共享过针具”）。现实中的网络报告是不完整的，且存在记忆/社会期望偏差。
开放问题：如果网络边缺失或有测量误差，本方法的稳健性如何？是否可以将测量误差模型融入到倾向得分或方差公式中？这是流行病学数据中一个非常常见但论文完全未涉及的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub