Causal inference with misspecified network interference structure¶

作者: Bar Weinstein, Daniel Nevo
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 网络干扰下的因果推断要解决的根本统计问题是：当单元的处理分配会通过某种依赖结构（网络）影响其他单元的结果时，如何定义、识别与估计因果效应。当前该方向的成熟度处于“理论框架已初步建立（如暴露映射、HT估计量），但核心假设（网络已知且无误）与现实数据生成机制之间存在巨大断裂”的阶段——网络测量误差、多网络叠加、网络误设的后果与修正，是近三四年才被密集触碰的 frontier。

发展脉络 - 奠基工作：Aronow & Samii (2017) 与 Ugander et al. (2013) 将网络干扰纳入潜在结果框架，引入“暴露映射”与“网络暴露”概念，并给出 Horvitz-Thompson (HT) 估计量。作者引用它们时指出，HT 估计量“常被用于估计给定指定网络下的均值潜在结果”——这确立了“网络=已知前提”的范式。 - 主要进展（渐近与识别）：Sävje et al. (2021) 证明在未知干扰下，EATE（边际化的平均处理效应）仍可一致估计，但收敛速率受干扰量级限制；Li & Wager (2022) 在随机图序列下给出直接/间接效应的 CLT；Leung (2020) 给出回归估计量的渐近正态性条件（度分布限制）。这些工作默认网络结构已知，重点在渐近性质。 - 当前 frontier（网络误设 / 测量误差）： - Hardy et al. (2019) 与 Li et al. (2021) 引入网络测量误差模型，前者用混合模型+EM 算法修正缺失边，后者在特定误差模型下刻画偏差与方差、提出矩估计法。作者引用时明确对比：“两者假定特定网络测量误差模型，且隐式视真实网络为唯一；我们的方法承认正确网络可能不唯一，且不视网络误设为测量误差”。 - Sävje (2024) 尝试分离暴露映射的“定义角色”与“假设角色”，证明在误设下仍可一致估计期望暴露效应，但需限制误设的依赖量级。作者引用时指出，在附加限制下，Sävje 的结果可适配证明本文 NMR 估计量的一致性。 - Egami (2021) 针对未观测网络（如线下网）做敏感性分析；Bhattacharya et al. (2020) 在部分干扰下做网络因果发现；Hoshino & Yanagi (2023) 提出随机化检验测试暴露映射误设。作者引用后者时点明：“现有随机化检验不区分是映射误设还是网络误设”。 - 本文的位置：在“网络误设后果”这条线上，本文首次用诱导暴露概率的散度给出偏差界；在“修正方法”这条线上，本文提出多网络鲁棒 (NMR) 估计量，要求“至少一个候选网络正确即无偏”，与 Hardy/Li 的单网络误差模型路线分道。

子线索聚类 1. 暴露映射与 HT 估计范式（Aronow & Samii 2017; Ugander et al. 2013; Gao & Ding 2023）：定义暴露条件、计算暴露概率、构造 HT/Hájek 估计量。Gao & Ding 展示回归实现等价性与协变量调整优势。这条线默认网络无误。 2. 网络测量误差 / 误设的后果与修正（Hardy et al. 2019; Li et al. 2021; Sävje 2024; Egami 2021）：刻画偏差来源（缺失边 / 未观测网），提出模型化修正或敏感性分析。本文落在这条线但拒绝“单一真实网络+误差模型”的前提。 3. 网络干扰下的渐近理论（Leung 2020; Li & Wager 2022; Ogburn et al. 2024）：在已知网络或随机图下建立 CLT 与效率界。本文借用其渐近框架建立 NMR 的性质。 4. 网络误设的检验（Basse et al. 2019; Puelz et al. 2022; Hoshino & Yanagi 2023）：用随机化检验测试暴露映射规格。本文引用但未采用检验路线，而是走“鲁棒估计”路线。

核心追问与瓶颈 1. 网络误设下因果效应估计的偏差有多大，能否被界住？——已知瓶颈：偏差界依赖误设量级，但如何量化“误设量级”缺乏统一度量；Sävje (2024) 用依赖限制刻画，本文用诱导暴露概率散度。 2. 能否在不确知真实网络时仍做无偏 / 一致估计？——已知瓶颈：现有修正要么需特定误差模型（Hardy/Li），要么只能做敏感性分析（Egami），要么只检验不修正（Hoshino/Yanagi）。 3. 多网络 / 多通道干扰下，如何定义与识别效应？——瓶颈：多网络暴露概率的联合计算复杂，且“哪个网络正确”未知时如何构造估计量缺乏理论。

⚠️ 作者的 framing - 作者把缺口 frame 成什么：作者将缺口 frame 为“现有方法把网络当作唯一且正确给定，但现实中网络难以准确指定，且正确网络可能不唯一”；由此，推导误设偏差界 + 提出多网络鲁棒估计量成为“显然的下一步”。 - 哪些竞争路线被淡化或回避： - 网络因果发现路线（Bhattacharya et al. 2020）：从数据中学习网络结构，而非用多候选网络做鲁棒估计。作者只在部分干扰设定下提了一句，未讨论单网络下的因果发现是否可替代多候选网络。 - 半参数效率路线（Ogburn et al. 2024; Tchetgen Tchetgen et al. 2020）：用 auto-g-computation 或 TMLE 在已知网络下求效率界。作者未讨论多候选网络下效率界是否可求、NMR 估计量是否效率最优。 - 线性-in-means 结构模型路线（Boucher & Houndetoungan 2022; Griffith 2021）：在参数模型下处理网络误设。作者只在 Example 2 提了 Griffith 的边截断分析，未系统对比参数 vs 非参数路线的优劣。 - 什么明显该被引 / 该存在却没出现： - Debiased ML / One-step 估计在网络干扰下的工作（如 Ogburn 的 TMLE 路线）：若讨论效率或构造更优估计量，这类文献应出现。 - Partial interference / 多层干扰的鲁棒估计（如 Hudgens & Halloran 2008 的直接/间接效应）：本文聚焦单网络整体干扰，未引用部分干扰下的鲁棒估计文献，可能是有意缩小范围。 - 网络测量误差的统计文献（Kolaczyk 2009 的网络统计书）：Li et al. (2021) 引了，本文未引，可能因作者刻意区分“测量误差”与“网络误设”。

张力未见明显对立引用。Sävje (2024) 与本文在“误设下仍可一致估计”上结论方向一致，但刻画偏差的度量不同（依赖限制 vs 暴露概率散度），不构成对立，而是互补。Hardy/Li 的“单一真实网络+误差模型”与本文的“多候选网络+可能不唯一”在前提上有张力，但结论不矛盾（各自在不同设定下给出修正）。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据

\(n\)：单元数（样本量 / 网络节点数）。
\(Z_i \in \{0,1\}\)：单元 \(i\) 的处理分配（随机变量，由实验设计决定）。
\(\mathbf{Z} = (Z_1, \dots, Z_n)\)：全样本处理分配向量。
\(Y_i\)：单元 \(i\) 的观测结果（随机变量）。
\(A\)：网络（邻接矩阵，\(n \times n\)，0-1 矩阵，表示单元间干扰通道）。本文区分真实网络 \(A^{\text{true}}\) 与假设网络 \(A^{\text{sp}}\)（specified / assumed）。
\(h_i(\mathbf{Z}, A)\)：暴露映射（函数），将全样本分配 \(\mathbf{Z}\) 与网络 \(A\) 映射为单元 \(i\) 的暴露值 \(c_k\)（如 \(c_k \in \{0,1,\dots\}\)，常见二值：\(c_1\)=“至少一个邻居被处理”，\(c_0\)=“无邻居被处理”）。
\(Y_i(c_k)\)：潜在结果，单元 \(i\) 在暴露值 \(c_k\) 下的结果（不可直接观测，只能通过 \(Y_i = Y_i(h_i(\mathbf{Z}, A^{\text{true}}))\) 观测）。
\(\tilde{Y}_i(c_k)\)：误设潜在结果，单元 \(i\) 在假设网络 \(A^{\text{sp}}\) 下暴露为 \(c_k\) 时的潜在结果（不可观测，是本文偏差分析的锚点）。
\(\mu(c_k) = \frac{1}{n}\sum_{i=1}^n Y_i(c_k)\)：真实暴露均值潜在结果（estimand / 参数）。
\(\tilde{\mu}(c_k) = \frac{1}{n}\sum_{i=1}^n \tilde{Y}_i(c_k)\)：误设暴露均值潜在结果（非目标参数，但 HT 估计量实际瞄准它）。
\(\pi_i(c_k \mid A) = \Pr(h_i(\mathbf{Z}, A) = c_k)\)：暴露概率，单元 \(i\) 在网络 \(A\) 下暴露为 \(c_k\) 的概率（由实验设计决定，可计算）。
\(\hat{\mu}_{\text{HT}}(c_k \mid A) = \frac{1}{n}\sum_{i=1}^n \frac{\mathbf{1}[h_i(\mathbf{Z}, A)=c_k] Y_i}{\pi_i(c_k \mid A)}\)：Horvitz-Thompson 估计量，基于网络 \(A\) 构造。

模型： - 数据生成机制：\(\mathbf{Z}\) 由已知随机化设计生成（如伯努利独立分配）；\(A^{\text{true}}\) 是真实干扰网络（未知/不可确知）；\(Y_i\) 由 \(Y_i = Y_i(h_i(\mathbf{Z}, A^{\text{true}}))\) 生成（网络干扰模型）。 - 研究者假设网络为 \(A^{\text{sp}}\)（可能来自问卷、接触追踪、或主观指定），用 \(h_i(\mathbf{Z}, A^{\text{sp}})\) 定义暴露与计算 \(\pi_i(c_k \mid A^{\text{sp}})\)。 - 要估的对象：\(\mu(c_k)\)（真实网络下的暴露效应）。

可观测数据： - 可观测：\(\{Z_i, Y_i\}_{i=1}^n\)（处理分配与结果），\(A^{\text{sp}}\)（假设网络，研究者实际持有的网络数据）。 - 不可观测 / 需假设识别：\(A^{\text{true}}\)（真实干扰网络），\(Y_i(c_k)\)（真实潜在结果，只能通过暴露映射+网络假设从观测结果反推）。

第二步：最小内核——二值处理、二值暴露、单网络误设下的偏差界

剥掉多网络、多暴露值、一般暴露映射的复杂性，取最简特例： - 二值处理：\(Z_i \in \{0,1\}\)，伯努利独立分配，\(\Pr(Z_i=1)=p\)。 - 二值暴露映射：\(h_i(\mathbf{Z}, A) = \mathbf{1}[\sum_{j: A_{ij}=1} Z_j > 0]\)（“至少一个邻居被处理”=暴露 \(c_1\)，否则 \(c_0\)）。 - 单网络误设：研究者假设 \(A^{\text{sp}}\)，真实为 \(A^{\text{true}}\)。

核心命题（最小内核）：HT 估计量 \(\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})\) 估计 \(\mu(c_k)\) 的偏差，被 \(A^{\text{sp}}\) 与 \(A^{\text{true}}\) 诱导暴露概率的散度界住。

具体推导直觉： 1. HT 估计量瞄准的是 \(\tilde{\mu}(c_k)\)（误设潜在结果均值），而非 \(\mu(c_k)\)（真实潜在结果均值）。因此偏差 = \(\tilde{\mu}(c_k) - \mu(c_k)\)。 2. \(\tilde{Y}_i(c_k)\) 与 \(Y_i(c_k)\) 的差异，来自“假设网络下的暴露条件”与“真实网络下的暴露条件”对潜在结果的错配。当 \(h_i(\mathbf{Z}, A^{\text{sp}}) = c_k\) 但 \(h_i(\mathbf{Z}, A^{\text{true}}) \neq c_k\) 时，观测结果 \(Y_i\) 实际对应真实暴露下的潜在结果，却被当作误设暴露下的潜在结果纳入估计——这引入偏差。 3. 偏差量级取决于“错配概率”：\(\Pr(h_i(\mathbf{Z}, A^{\text{sp}}) = c_k \text{ 且 } h_i(\mathbf{Z}, A^{\text{true}}) \neq c_k)\)。这个概率可分解为暴露概率的散度：

\[|\tilde{\mu}(c_k) - \mu(c_k)| \leq \frac{1}{n}\sum_{i=1}^n |Y_i(c_k) - Y_i(c_{k'})| \cdot \Pr(h_i(\mathbf{Z}, A^{\text{sp}})=c_k, h_i(\mathbf{Z}, A^{\text{true}})=c_{k'}) / \pi_i(c_k \mid A^{\text{sp}})\]

进一步可界为暴露概率散度 \(\sum_{i} |\pi_i(c_k \mid A^{\text{sp}}) - \pi_i(c_k \mid A^{\text{true}})|\) 的函数。 4. 为什么成立：暴露概率由网络结构与随机化设计完全决定（可计算），因此“误设网络 vs 真实网络”的偏差可量化为两个可计算概率分布的散度——这是本文最核心的洞察：偏差界不需要知道真实潜在结果，只需知道暴露概率的散度（而散度可从网络结构+设计算出，若 \(A^{\text{true}}\) 有部分信息）。

多网络鲁棒估计量的最小内核： - 研究者有 \(M\) 个候选网络 \(A^{(1)}, \dots, A^{(M)}\)，其中至少一个 \(= A^{\text{true}}\)（但不知是哪个）。 - NMR 估计量核心想法：对每个候选网络构造 HT 估计量，再用“暴露概率的交集”做加权平均——只在所有候选网络都同意“单元 \(i\) 暴露为 \(c_k\)”时，才纳入该单元的贡献，权重用联合暴露概率。 - 最简情形（\(M=2\)，二值暴露）：\(\hat{\mu}_{\text{NMR}}(c_1) = \frac{1}{n}\sum_{i=1}^n \frac{\mathbf{1}[h_i(\mathbf{Z}, A^{(1)})=c_1 \text{ 且 } h_i(\mathbf{Z}, A^{(2)})=c_1] Y_i}{\Pr(h_i(\mathbf{Z}, A^{(1)})=c_1 \text{ 且 } h_i(\mathbf{Z}, A^{(2)})=c_1)}\)。 - 若 \(A^{(1)} = A^{\text{true}}\)，则条件“\(h_i(\mathbf{Z}, A^{(1)})=c_1\)”已保证真实暴露正确，再加“\(h_i(\mathbf{Z}, A^{(2)})=c_1\)”只是进一步筛选子集，但筛选不引入偏差（因为真实暴露仍为 \(c_1\)），只可能增大方差（因暴露概率交集更小）。因此，NMR 估计量在至少一个候选网络正确时无偏。

三、这篇论文做了什么¶

三句话 ①研究了网络干扰下因果效应估计中，假设网络误设时的偏差界与鲁棒估计问题。 ②核心工具是暴露概率散度（量化误设偏差）与多网络交集暴露概率（构造鲁棒估计量）。 ③主要结论：误设偏差随诱导暴露概率散度增长而界住；提出 NMR 估计量，在至少一个候选网络正确时无偏，且不需预知哪个正确。

关键设定与假设

在第二节最小记号基础上补全：

定义 1（正性 Positivity）：对所有候选网络 \(A^{(m)}\) 与暴露值 \(c_k\)，\(\pi_i(c_k \mid A^{(m)}) > 0\)。统计含义：每个单元在每个候选网络下都有非零概率暴露为 \(c_k\)，否则 HT/NMR 估计量无法定义。相比已有文献（Aronow & Samii 2017 要求单网络正性），本文要求所有候选网络都满足正性——更强的条件，但作者指出若某候选网络违反正性，可剔除该网络或该单元。
假设 1（邻域网络干扰 Neighborhood Interference）：\(Y_i(\mathbf{Z}) = Y_i(Z_i, \{Z_j : A^{\text{true}}_{ij}=1\})\)，即单元 \(i\) 的潜在结果只依赖自身处理与真实网络中直接邻居的处理。统计含义：限制干扰范围为一阶邻居，排除长路径干扰。与 Forastiere et al. (2021)、Ogburn et al. (2024) 一致，是网络干扰文献的标准假设。本文在偏差界推导中依赖此假设（错配只发生在直接邻居层面）。
假设 2（误设网络干扰结构 Misspecified Interference Structure）：研究者用 \(A^{\text{sp}}\) 替代 \(A^{\text{true}}\)，暴露映射 \(h_i\) 作用于 \(A^{\text{sp}}\)。统计含义：承认网络可能误设，但不假设误设模型（如 Hardy et al. 2019 的边缺失模型）。本文在此假设下推导偏差界。
假设 3（至少一个候选网络正确 At Least One Correct Network）：在 \(M\) 个候选网络 \(\{A^{(m)}\}_{m=1}^M\) 中，存在 \(m^*\) 使得 \(A^{(m^*)} = A^{\text{true}}\)。统计含义：NMR 估计量无偏性的关键前提。作者明确指出“不需预知哪个正确”，但要求至少一个正确——这是比 Sävje (2024) 的“误设下一致”更强的前提，换来的是无偏而非仅一致。
假设 4（误设依赖限制 Limited Specification Error Dependence，引用 Sävje 2024）：误设暴露与真实暴露的错配依赖量级随 \(n\) 增长而受控。统计含义：保证 NMR 估计量的一致性（即使无偏，方差仍需受控才能一致）。作者在定理 3 证明中引用 Sävje (2024) 的结果适配此条件。

主要结果

定理 1（误设偏差界）：
陈述：\(\left|\mathbb{E}[\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})] - \mu(c_k)\right| \leq \frac{1}{n}\sum_{i=1}^n \max_{c_{k'}} |Y_i(c_k) - Y_i(c_{k'})| \cdot \frac{\Pr(h_i(\mathbf{Z}, A^{\text{sp}})=c_k, h_i(\mathbf{Z}, A^{\text{true}})=c_{k'})}{\pi_i(c_k \mid A^{\text{sp}})}\)。进一步界为暴露概率散度的函数。
直觉：偏差来自“假设暴露= \(c_k\) 但真实暴露= \(c_{k'}\)”的错配单元，错配概率由两个网络的暴露概率联合分布决定。当 \(A^{\text{sp}} = A^{\text{true}}\) 时，错配概率=0，偏差=0。
必要条件：邻域网络干扰（假设 1），正性（定义 1）。
解决的技术难点：将“潜在结果不可观测”的偏差问题，转化为“暴露概率可计算”的散度问题——绕过了需要知道 \(Y_i(c_k)\) 具体值的障碍，只用潜在结果的最大差异（\(\max |Y_i(c_k) - Y_i(c_{k'})|\)）做粗界。
定理 2（NMR 估计量的无偏性）：
陈述：在假设 3（至少一个候选网络正确）下，\(\mathbb{E}[\hat{\mu}_{\text{NMR}}(c_k)] = \mu(c_k)\)。
直觉：NMR 估计量只在所有候选网络都判定“单元 \(i\) 暴露为 \(c_k\)”时纳入该单元。若 \(A^{(m^*)} = A^{\text{true}}\)，则“\(h_i(\mathbf{Z}, A^{(m^*)})=c_k\)”已保证真实暴露正确，其他候选网络的额外条件只做子集筛选，不引入偏差。
必要条件：至少一个候选网络正确（假设 3），联合暴露概率正性（所有候选网络交集暴露概率 > 0）。
解决的技术难点：多网络下暴露概率的联合计算——伯努利独立分配下，不同网络的暴露事件可能依赖（共享同一 \(\mathbf{Z}\)），联合概率非简单乘积。作者给出联合暴露概率的计算公式（命题 1），利用网络结构的独立性条件（如候选网络无共享边时，暴露事件独立）简化计算。
定理 3（NMR 估计量的渐近性质）：
陈述：在假设 4（误设依赖限制）与网络度分布受控条件下，\(\hat{\mu}_{\text{NMR}}(c_k)\) 是 \(\mu(c_k)\) 的一致估计量，且渐近正态（给出方差表达式）。
直觉：无偏性保证期望正确，方差由联合暴露概率决定（交集暴露概率更小 → 权重更大 → 方差可能更大），但度分布受控保证方差不爆炸。
必要条件：误设依赖限制（假设 4），度分布有界（与 Leung 2020、Li & Wager 2022 类似）。
解决的技术难点：多网络下依赖结构的渐近分析——不同候选网络引入额外依赖，需控制“误设依赖”量级（引用 Sävje 2024 的框架）。

证明路线与技术技巧

整体路线（定理 1 偏差界）：
写出 HT 估计量的期望：\(\mathbb{E}[\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})] = \tilde{\mu}(c_k)\)（瞄准误设潜在结果均值）。
分解偏差：\(\tilde{\mu}(c_k) - \mu(c_k) = \frac{1}{n}\sum_i [\tilde{Y}_i(c_k) - Y_i(c_k)]\)。
利用邻域干扰假设，将 \(\tilde{Y}_i(c_k) - Y_i(c_k)\) 表达为“假设暴露= \(c_k\) 但真实暴露= \(c_{k'}\)”时潜在结果的差异。
将潜在结果差异的期望，转化为暴露概率联合分布的函数：\(\Pr(h_i(\mathbf{Z}, A^{\text{sp}})=c_k, h_i(\mathbf{Z}, A^{\text{true}})=c_{k'})\)。
用 \(\max |Y_i(c_k) - Y_i(c_{k'})|\) 界住潜在结果差异，得到最终偏差界。
整体路线（定理 2 NMR 无偏性）：
写出 NMR 估计量的期望：纳入条件为所有候选网络暴露= \(c_k\) 的交集。
分解纳入单元的真实暴露：若 \(A^{(m^*)} = A^{\text{true}}\)，则交集条件蕴含 \(h_i(\mathbf{Z}, A^{\text{true}})=c_k\)（因为 \(A^{(m^*)}\) 在交集内）。
因此纳入单元的真实暴露必为 \(c_k\)，观测结果 \(Y_i = Y_i(c_k)\)，无偏差。
权重用联合暴露概率 \(\Pr(\cap_m h_i(\mathbf{Z}, A^{(m)})=c_k)\)，保证期望= \(\mu(c_k)\)。
关键跳跃点：
命题 1（联合暴露概率的计算）：多网络下暴露事件的联合概率如何计算？这是 NMR 估计量可行性的关键——若无法计算联合暴露概率，NMR 估计量无法实施。作者给出基于网络结构独立性的计算方法：当候选网络无共享边时，暴露事件独立，联合概率=乘积；有共享边时，需考虑共享邻居的处理分配依赖。
定理 3 的渐近方差控制：NMR 估计量的方差可能比单网络 HT 更大（交集暴露概率更小），如何保证方差不爆炸？作者引用 Sävje (2024) 的误设依赖限制，结合度分布有界条件，控制方差量级。
技术技巧点名：
Horvitz-Thompson 逆概率加权：用暴露概率的逆做权重，保证无偏性（定理 1、2 的基础工具）。
暴露映射 / 暴露概率分解：将网络误设问题转化为暴露概率分布的散度问题（定理 1 的核心洞察）。
交集事件概率计算：多网络下暴露事件交集的概率计算，利用网络结构独立性简化（命题 1）。
Sävje (2024) 的误设依赖框架：适配 Sävje 的框架控制 NMR 估计量的渐近性质（定理 3）。
度分布条件：借用 Leung (2020)、Li & Wager (2022) 的度分布有界条件控制方差（定理 3）。

真实例子与应用

模拟实验：
数据/场景：生成随机网络（Erdős-Rényi, Barabási-Albert），设定真实网络 \(A^{\text{true}}\)，构造误设网络 \(A^{\text{sp}}\)（通过随机删边/加边，控制误设比例）。
怎么用上去：在不同误设比例下，比较 HT 估计量（基于 \(A^{\text{sp}}\)）与 NMR 估计量（基于多个候选网络，其中含 \(A^{\text{true}}\) 或不含）的偏差与方差。
得到什么结果：HT 估计量偏差随误设比例增长而增长（验证定理 1）；NMR 估计量在含 \(A^{\text{true}}\) 时无偏，不含时偏差小于最差候选网络的 HT 偏差；NMR 方差比单网络 HT 大，但随候选网络数量增加而可控。
想说明什么：验证偏差界理论预测，展示 NMR 估计量的鲁棒性（无偏当含正确网络，偏差受控当不含）。
真实数据例子（社交网络田野实验）：
数据/场景：Paluck et al. (2016) 的反冲突教育实验（学校社交网络，测量学生间的社交连接与反冲突行为）。
怎么用上去：原始研究用学生自报的社交网络做干扰网络。本文构造多个候选网络：自报网络（可能误设）、截断网络（只保留前 5 个朋友，模拟 Griffith 2021 的边截断）、地理网络（基于班级/年级的接近度）。用 NMR 估计量同时利用这三个候选网络估计暴露效应。
得到什么结果：NMR 估计量给出的效应估计与单网络 HT（基于自报网络）相近，但置信区间更宽（反映交集暴露概率更小的方差代价）；截断网络单独使用时偏差明显（验证定理 1）。
想说明什么：展示 NMR 估计量在真实数据上的可行性与鲁棒性——即使候选网络含误设（截断网络），只要有一个接近正确（自报网络），NMR 仍给出合理估计。

🔎 结论是否比证明窄 - 定理 1 的偏差界：界中含 \(\max_{c_{k'}} |Y_i(c_k) - Y_i(c_{k'})|\)，这是潜在结果的最大差异，实践中不可观测、难以界住。作者在陈述中明确写了这个界，但在讨论中泛泛 claim“偏差随暴露概率散度增长”——这比严格证明的界更宽松（散度增长时，若潜在结果差异很小，偏差仍可能不大）。严格证明的结论是“偏差被散度与潜在结果差异的乘积界住”，而非“偏差仅由散度决定”。 - 定理 2 的无偏性：严格证明在“至少一个候选网络正确”下成立，但作者在讨论中暗示 NMR 估计量在“所有候选网络都误设”时仍有用（偏差小于最差候选网络的 HT 偏差）——这未严格证明，只在模拟中观察。作者未将此 conjecture 形式化为定理。 - 定理 3 的渐近正态：严格证明在误设依赖限制+度分布有界下成立，但作者在应用部分（真实数据）未验证这些条件是否满足（社交网络的度分布常重尾），直接用了渐近正态的置信区间——条件与应用的匹配度未讨论。

四、开放问题（点到为止，扎根具体语句）¶

NMR 估计量的效率界与最优性：本文未讨论 NMR 估计量的半参数效率界——在多候选网络设定下，效率界是什么？NMR 估计量是否达到效率下界？扎根在作者对 Ogburn et al. (2024) / Tchetgen Tchetgen et al. (2020) 的回避（这两篇在已知网络下求效率界，本文未引也未讨论多网络下的效率）。
“所有候选网络都误设”时的偏差与一致性：定理 2 要求至少一个候选网络正确，但模拟中观察“所有候选网络都误设时偏差仍受控”。能否在 Sävje (2024) 的框架下，严格证明“所有候选网络都误设但误设量级受控时，NMR 估计量一致”？扎根在定理 3 的条件（假设 4）与模拟观察的张力——模拟中无正确候选网络时 NMR 表现仍好，但理论只覆盖有正确候选网络的情况。
联合暴露概率的计算复杂度：命题 1 给出联合暴露概率的计算方法，但当候选网络有大量共享边时，计算复杂度是否爆炸？扎根在命题 1 的独立性条件——无共享边时简单，有共享边时需枚举共享邻居的处理分配组合，复杂度随共享边数指数增长。这是实际实施 NMR 的瓶颈。
重尾度分布下的渐近性质：定理 3 要求度分布有界，但真实社交网络常重尾（如 Barabási-Albert）。能否在度分布重尾条件下建立 NMR 的渐近性质？扎根在定理 3 的度分布条件与真实数据例子的矛盾——Paluck et al. (2016) 的社交网络度分布可能重尾，但作者未验证。

Maintained by 陈星宇 · Homepage · Source on GitHub

Causal inference with misspecified network interference structure¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论