Causal inference with misspecified network interference structure¶
作者: Bar Weinstein, Daniel Nevo
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么 网络干扰下的因果推断要解决的根本统计问题是:当单元的处理分配会通过某种依赖结构(网络)影响其他单元的结果时,如何定义、识别与估计因果效应。当前该方向的成熟度处于“理论框架已初步建立(如暴露映射、HT估计量),但核心假设(网络已知且无误)与现实数据生成机制之间存在巨大断裂”的阶段——网络测量误差、多网络叠加、网络误设的后果与修正,是近三四年才被密集触碰的 frontier。
发展脉络 - 奠基工作:Aronow & Samii (2017) 与 Ugander et al. (2013) 将网络干扰纳入潜在结果框架,引入“暴露映射”与“网络暴露”概念,并给出 Horvitz-Thompson (HT) 估计量。作者引用它们时指出,HT 估计量“常被用于估计给定指定网络下的均值潜在结果”——这确立了“网络=已知前提”的范式。 - 主要进展(渐近与识别):Sävje et al. (2021) 证明在未知干扰下,EATE(边际化的平均处理效应)仍可一致估计,但收敛速率受干扰量级限制;Li & Wager (2022) 在随机图序列下给出直接/间接效应的 CLT;Leung (2020) 给出回归估计量的渐近正态性条件(度分布限制)。这些工作默认网络结构已知,重点在渐近性质。 - 当前 frontier(网络误设 / 测量误差): - Hardy et al. (2019) 与 Li et al. (2021) 引入网络测量误差模型,前者用混合模型+EM 算法修正缺失边,后者在特定误差模型下刻画偏差与方差、提出矩估计法。作者引用时明确对比:“两者假定特定网络测量误差模型,且隐式视真实网络为唯一;我们的方法承认正确网络可能不唯一,且不视网络误设为测量误差”。 - Sävje (2024) 尝试分离暴露映射的“定义角色”与“假设角色”,证明在误设下仍可一致估计期望暴露效应,但需限制误设的依赖量级。作者引用时指出,在附加限制下,Sävje 的结果可适配证明本文 NMR 估计量的一致性。 - Egami (2021) 针对未观测网络(如线下网)做敏感性分析;Bhattacharya et al. (2020) 在部分干扰下做网络因果发现;Hoshino & Yanagi (2023) 提出随机化检验测试暴露映射误设。作者引用后者时点明:“现有随机化检验不区分是映射误设还是网络误设”。 - 本文的位置:在“网络误设后果”这条线上,本文首次用诱导暴露概率的散度给出偏差界;在“修正方法”这条线上,本文提出多网络鲁棒 (NMR) 估计量,要求“至少一个候选网络正确即无偏”,与 Hardy/Li 的单网络误差模型路线分道。
子线索聚类 1. 暴露映射与 HT 估计范式(Aronow & Samii 2017; Ugander et al. 2013; Gao & Ding 2023):定义暴露条件、计算暴露概率、构造 HT/Hájek 估计量。Gao & Ding 展示回归实现等价性与协变量调整优势。这条线默认网络无误。 2. 网络测量误差 / 误设的后果与修正(Hardy et al. 2019; Li et al. 2021; Sävje 2024; Egami 2021):刻画偏差来源(缺失边 / 未观测网),提出模型化修正或敏感性分析。本文落在这条线但拒绝“单一真实网络+误差模型”的前提。 3. 网络干扰下的渐近理论(Leung 2020; Li & Wager 2022; Ogburn et al. 2024):在已知网络或随机图下建立 CLT 与效率界。本文借用其渐近框架建立 NMR 的性质。 4. 网络误设的检验(Basse et al. 2019; Puelz et al. 2022; Hoshino & Yanagi 2023):用随机化检验测试暴露映射规格。本文引用但未采用检验路线,而是走“鲁棒估计”路线。
核心追问与瓶颈 1. 网络误设下因果效应估计的偏差有多大,能否被界住?——已知瓶颈:偏差界依赖误设量级,但如何量化“误设量级”缺乏统一度量;Sävje (2024) 用依赖限制刻画,本文用诱导暴露概率散度。 2. 能否在不确知真实网络时仍做无偏 / 一致估计?——已知瓶颈:现有修正要么需特定误差模型(Hardy/Li),要么只能做敏感性分析(Egami),要么只检验不修正(Hoshino/Yanagi)。 3. 多网络 / 多通道干扰下,如何定义与识别效应?——瓶颈:多网络暴露概率的联合计算复杂,且“哪个网络正确”未知时如何构造估计量缺乏理论。
⚠️ 作者的 framing - 作者把缺口 frame 成什么:作者将缺口 frame 为“现有方法把网络当作唯一且正确给定,但现实中网络难以准确指定,且正确网络可能不唯一”;由此,推导误设偏差界 + 提出多网络鲁棒估计量成为“显然的下一步”。 - 哪些竞争路线被淡化或回避: - 网络因果发现路线(Bhattacharya et al. 2020):从数据中学习网络结构,而非用多候选网络做鲁棒估计。作者只在部分干扰设定下提了一句,未讨论单网络下的因果发现是否可替代多候选网络。 - 半参数效率路线(Ogburn et al. 2024; Tchetgen Tchetgen et al. 2020):用 auto-g-computation 或 TMLE 在已知网络下求效率界。作者未讨论多候选网络下效率界是否可求、NMR 估计量是否效率最优。 - 线性-in-means 结构模型路线(Boucher & Houndetoungan 2022; Griffith 2021):在参数模型下处理网络误设。作者只在 Example 2 提了 Griffith 的边截断分析,未系统对比参数 vs 非参数路线的优劣。 - 什么明显该被引 / 该存在却没出现: - Debiased ML / One-step 估计在网络干扰下的工作(如 Ogburn 的 TMLE 路线):若讨论效率或构造更优估计量,这类文献应出现。 - Partial interference / 多层干扰的鲁棒估计(如 Hudgens & Halloran 2008 的直接/间接效应):本文聚焦单网络整体干扰,未引用部分干扰下的鲁棒估计文献,可能是有意缩小范围。 - 网络测量误差的统计文献(Kolaczyk 2009 的网络统计书):Li et al. (2021) 引了,本文未引,可能因作者刻意区分“测量误差”与“网络误设”。
张力 未见明显对立引用。Sävje (2024) 与本文在“误设下仍可一致估计”上结论方向一致,但刻画偏差的度量不同(依赖限制 vs 暴露概率散度),不构成对立,而是互补。Hardy/Li 的“单一真实网络+误差模型”与本文的“多候选网络+可能不唯一”在前提上有张力,但结论不矛盾(各自在不同设定下给出修正)。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- \(n\):单元数(样本量 / 网络节点数)。
- \(Z_i \in \{0,1\}\):单元 \(i\) 的处理分配(随机变量,由实验设计决定)。
- \(\mathbf{Z} = (Z_1, \dots, Z_n)\):全样本处理分配向量。
- \(Y_i\):单元 \(i\) 的观测结果(随机变量)。
- \(A\):网络(邻接矩阵,\(n \times n\),0-1 矩阵,表示单元间干扰通道)。本文区分真实网络 \(A^{\text{true}}\) 与假设网络 \(A^{\text{sp}}\)(specified / assumed)。
- \(h_i(\mathbf{Z}, A)\):暴露映射(函数),将全样本分配 \(\mathbf{Z}\) 与网络 \(A\) 映射为单元 \(i\) 的暴露值 \(c_k\)(如 \(c_k \in \{0,1,\dots\}\),常见二值:\(c_1\)=“至少一个邻居被处理”,\(c_0\)=“无邻居被处理”)。
- \(Y_i(c_k)\):潜在结果,单元 \(i\) 在暴露值 \(c_k\) 下的结果(不可直接观测,只能通过 \(Y_i = Y_i(h_i(\mathbf{Z}, A^{\text{true}}))\) 观测)。
- \(\tilde{Y}_i(c_k)\):误设潜在结果,单元 \(i\) 在假设网络 \(A^{\text{sp}}\) 下暴露为 \(c_k\) 时的潜在结果(不可观测,是本文偏差分析的锚点)。
- \(\mu(c_k) = \frac{1}{n}\sum_{i=1}^n Y_i(c_k)\):真实暴露均值潜在结果(estimand / 参数)。
- \(\tilde{\mu}(c_k) = \frac{1}{n}\sum_{i=1}^n \tilde{Y}_i(c_k)\):误设暴露均值潜在结果(非目标参数,但 HT 估计量实际瞄准它)。
- \(\pi_i(c_k \mid A) = \Pr(h_i(\mathbf{Z}, A) = c_k)\):暴露概率,单元 \(i\) 在网络 \(A\) 下暴露为 \(c_k\) 的概率(由实验设计决定,可计算)。
- \(\hat{\mu}_{\text{HT}}(c_k \mid A) = \frac{1}{n}\sum_{i=1}^n \frac{\mathbf{1}[h_i(\mathbf{Z}, A)=c_k] Y_i}{\pi_i(c_k \mid A)}\):Horvitz-Thompson 估计量,基于网络 \(A\) 构造。
模型: - 数据生成机制:\(\mathbf{Z}\) 由已知随机化设计生成(如伯努利独立分配);\(A^{\text{true}}\) 是真实干扰网络(未知/不可确知);\(Y_i\) 由 \(Y_i = Y_i(h_i(\mathbf{Z}, A^{\text{true}}))\) 生成(网络干扰模型)。 - 研究者假设网络为 \(A^{\text{sp}}\)(可能来自问卷、接触追踪、或主观指定),用 \(h_i(\mathbf{Z}, A^{\text{sp}})\) 定义暴露与计算 \(\pi_i(c_k \mid A^{\text{sp}})\)。 - 要估的对象:\(\mu(c_k)\)(真实网络下的暴露效应)。
可观测数据: - 可观测:\(\{Z_i, Y_i\}_{i=1}^n\)(处理分配与结果),\(A^{\text{sp}}\)(假设网络,研究者实际持有的网络数据)。 - 不可观测 / 需假设识别:\(A^{\text{true}}\)(真实干扰网络),\(Y_i(c_k)\)(真实潜在结果,只能通过暴露映射+网络假设从观测结果反推)。
第二步:最小内核——二值处理、二值暴露、单网络误设下的偏差界
剥掉多网络、多暴露值、一般暴露映射的复杂性,取最简特例: - 二值处理:\(Z_i \in \{0,1\}\),伯努利独立分配,\(\Pr(Z_i=1)=p\)。 - 二值暴露映射:\(h_i(\mathbf{Z}, A) = \mathbf{1}[\sum_{j: A_{ij}=1} Z_j > 0]\)(“至少一个邻居被处理”=暴露 \(c_1\),否则 \(c_0\))。 - 单网络误设:研究者假设 \(A^{\text{sp}}\),真实为 \(A^{\text{true}}\)。
核心命题(最小内核):HT 估计量 \(\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})\) 估计 \(\mu(c_k)\) 的偏差,被 \(A^{\text{sp}}\) 与 \(A^{\text{true}}\) 诱导暴露概率的散度界住。
具体推导直觉: 1. HT 估计量瞄准的是 \(\tilde{\mu}(c_k)\)(误设潜在结果均值),而非 \(\mu(c_k)\)(真实潜在结果均值)。因此偏差 = \(\tilde{\mu}(c_k) - \mu(c_k)\)。 2. \(\tilde{Y}_i(c_k)\) 与 \(Y_i(c_k)\) 的差异,来自“假设网络下的暴露条件”与“真实网络下的暴露条件”对潜在结果的错配。当 \(h_i(\mathbf{Z}, A^{\text{sp}}) = c_k\) 但 \(h_i(\mathbf{Z}, A^{\text{true}}) \neq c_k\) 时,观测结果 \(Y_i\) 实际对应真实暴露下的潜在结果,却被当作误设暴露下的潜在结果纳入估计——这引入偏差。 3. 偏差量级取决于“错配概率”:\(\Pr(h_i(\mathbf{Z}, A^{\text{sp}}) = c_k \text{ 且 } h_i(\mathbf{Z}, A^{\text{true}}) \neq c_k)\)。这个概率可分解为暴露概率的散度:
多网络鲁棒估计量的最小内核: - 研究者有 \(M\) 个候选网络 \(A^{(1)}, \dots, A^{(M)}\),其中至少一个 \(= A^{\text{true}}\)(但不知是哪个)。 - NMR 估计量核心想法:对每个候选网络构造 HT 估计量,再用“暴露概率的交集”做加权平均——只在所有候选网络都同意“单元 \(i\) 暴露为 \(c_k\)”时,才纳入该单元的贡献,权重用联合暴露概率。 - 最简情形(\(M=2\),二值暴露):\(\hat{\mu}_{\text{NMR}}(c_1) = \frac{1}{n}\sum_{i=1}^n \frac{\mathbf{1}[h_i(\mathbf{Z}, A^{(1)})=c_1 \text{ 且 } h_i(\mathbf{Z}, A^{(2)})=c_1] Y_i}{\Pr(h_i(\mathbf{Z}, A^{(1)})=c_1 \text{ 且 } h_i(\mathbf{Z}, A^{(2)})=c_1)}\)。 - 若 \(A^{(1)} = A^{\text{true}}\),则条件“\(h_i(\mathbf{Z}, A^{(1)})=c_1\)”已保证真实暴露正确,再加“\(h_i(\mathbf{Z}, A^{(2)})=c_1\)”只是进一步筛选子集,但筛选不引入偏差(因为真实暴露仍为 \(c_1\)),只可能增大方差(因暴露概率交集更小)。因此,NMR 估计量在至少一个候选网络正确时无偏。
三、这篇论文做了什么¶
三句话 ①研究了网络干扰下因果效应估计中,假设网络误设时的偏差界与鲁棒估计问题。 ②核心工具是暴露概率散度(量化误设偏差)与多网络交集暴露概率(构造鲁棒估计量)。 ③主要结论:误设偏差随诱导暴露概率散度增长而界住;提出 NMR 估计量,在至少一个候选网络正确时无偏,且不需预知哪个正确。
关键设定与假设
在第二节最小记号基础上补全:
- 定义 1(正性 Positivity):对所有候选网络 \(A^{(m)}\) 与暴露值 \(c_k\),\(\pi_i(c_k \mid A^{(m)}) > 0\)。统计含义:每个单元在每个候选网络下都有非零概率暴露为 \(c_k\),否则 HT/NMR 估计量无法定义。相比已有文献(Aronow & Samii 2017 要求单网络正性),本文要求所有候选网络都满足正性——更强的条件,但作者指出若某候选网络违反正性,可剔除该网络或该单元。
- 假设 1(邻域网络干扰 Neighborhood Interference):\(Y_i(\mathbf{Z}) = Y_i(Z_i, \{Z_j : A^{\text{true}}_{ij}=1\})\),即单元 \(i\) 的潜在结果只依赖自身处理与真实网络中直接邻居的处理。统计含义:限制干扰范围为一阶邻居,排除长路径干扰。与 Forastiere et al. (2021)、Ogburn et al. (2024) 一致,是网络干扰文献的标准假设。本文在偏差界推导中依赖此假设(错配只发生在直接邻居层面)。
- 假设 2(误设网络干扰结构 Misspecified Interference Structure):研究者用 \(A^{\text{sp}}\) 替代 \(A^{\text{true}}\),暴露映射 \(h_i\) 作用于 \(A^{\text{sp}}\)。统计含义:承认网络可能误设,但不假设误设模型(如 Hardy et al. 2019 的边缺失模型)。本文在此假设下推导偏差界。
- 假设 3(至少一个候选网络正确 At Least One Correct Network):在 \(M\) 个候选网络 \(\{A^{(m)}\}_{m=1}^M\) 中,存在 \(m^*\) 使得 \(A^{(m^*)} = A^{\text{true}}\)。统计含义:NMR 估计量无偏性的关键前提。作者明确指出“不需预知哪个正确”,但要求至少一个正确——这是比 Sävje (2024) 的“误设下一致”更强的前提,换来的是无偏而非仅一致。
- 假设 4(误设依赖限制 Limited Specification Error Dependence,引用 Sävje 2024):误设暴露与真实暴露的错配依赖量级随 \(n\) 增长而受控。统计含义:保证 NMR 估计量的一致性(即使无偏,方差仍需受控才能一致)。作者在定理 3 证明中引用 Sävje (2024) 的结果适配此条件。
主要结果
- 定理 1(误设偏差界):
- 陈述:\(\left|\mathbb{E}[\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})] - \mu(c_k)\right| \leq \frac{1}{n}\sum_{i=1}^n \max_{c_{k'}} |Y_i(c_k) - Y_i(c_{k'})| \cdot \frac{\Pr(h_i(\mathbf{Z}, A^{\text{sp}})=c_k, h_i(\mathbf{Z}, A^{\text{true}})=c_{k'})}{\pi_i(c_k \mid A^{\text{sp}})}\)。进一步界为暴露概率散度的函数。
- 直觉:偏差来自“假设暴露= \(c_k\) 但真实暴露= \(c_{k'}\)”的错配单元,错配概率由两个网络的暴露概率联合分布决定。当 \(A^{\text{sp}} = A^{\text{true}}\) 时,错配概率=0,偏差=0。
- 必要条件:邻域网络干扰(假设 1),正性(定义 1)。
-
解决的技术难点:将“潜在结果不可观测”的偏差问题,转化为“暴露概率可计算”的散度问题——绕过了需要知道 \(Y_i(c_k)\) 具体值的障碍,只用潜在结果的最大差异(\(\max |Y_i(c_k) - Y_i(c_{k'})|\))做粗界。
-
定理 2(NMR 估计量的无偏性):
- 陈述:在假设 3(至少一个候选网络正确)下,\(\mathbb{E}[\hat{\mu}_{\text{NMR}}(c_k)] = \mu(c_k)\)。
- 直觉:NMR 估计量只在所有候选网络都判定“单元 \(i\) 暴露为 \(c_k\)”时纳入该单元。若 \(A^{(m^*)} = A^{\text{true}}\),则“\(h_i(\mathbf{Z}, A^{(m^*)})=c_k\)”已保证真实暴露正确,其他候选网络的额外条件只做子集筛选,不引入偏差。
- 必要条件:至少一个候选网络正确(假设 3),联合暴露概率正性(所有候选网络交集暴露概率 > 0)。
-
解决的技术难点:多网络下暴露概率的联合计算——伯努利独立分配下,不同网络的暴露事件可能依赖(共享同一 \(\mathbf{Z}\)),联合概率非简单乘积。作者给出联合暴露概率的计算公式(命题 1),利用网络结构的独立性条件(如候选网络无共享边时,暴露事件独立)简化计算。
-
定理 3(NMR 估计量的渐近性质):
- 陈述:在假设 4(误设依赖限制)与网络度分布受控条件下,\(\hat{\mu}_{\text{NMR}}(c_k)\) 是 \(\mu(c_k)\) 的一致估计量,且渐近正态(给出方差表达式)。
- 直觉:无偏性保证期望正确,方差由联合暴露概率决定(交集暴露概率更小 → 权重更大 → 方差可能更大),但度分布受控保证方差不爆炸。
- 必要条件:误设依赖限制(假设 4),度分布有界(与 Leung 2020、Li & Wager 2022 类似)。
- 解决的技术难点:多网络下依赖结构的渐近分析——不同候选网络引入额外依赖,需控制“误设依赖”量级(引用 Sävje 2024 的框架)。
证明路线与技术技巧
- 整体路线(定理 1 偏差界):
- 写出 HT 估计量的期望:\(\mathbb{E}[\hat{\mu}_{\text{HT}}(c_k \mid A^{\text{sp}})] = \tilde{\mu}(c_k)\)(瞄准误设潜在结果均值)。
- 分解偏差:\(\tilde{\mu}(c_k) - \mu(c_k) = \frac{1}{n}\sum_i [\tilde{Y}_i(c_k) - Y_i(c_k)]\)。
- 利用邻域干扰假设,将 \(\tilde{Y}_i(c_k) - Y_i(c_k)\) 表达为“假设暴露= \(c_k\) 但真实暴露= \(c_{k'}\)”时潜在结果的差异。
- 将潜在结果差异的期望,转化为暴露概率联合分布的函数:\(\Pr(h_i(\mathbf{Z}, A^{\text{sp}})=c_k, h_i(\mathbf{Z}, A^{\text{true}})=c_{k'})\)。
-
用 \(\max |Y_i(c_k) - Y_i(c_{k'})|\) 界住潜在结果差异,得到最终偏差界。
-
整体路线(定理 2 NMR 无偏性):
- 写出 NMR 估计量的期望:纳入条件为所有候选网络暴露= \(c_k\) 的交集。
- 分解纳入单元的真实暴露:若 \(A^{(m^*)} = A^{\text{true}}\),则交集条件蕴含 \(h_i(\mathbf{Z}, A^{\text{true}})=c_k\)(因为 \(A^{(m^*)}\) 在交集内)。
- 因此纳入单元的真实暴露必为 \(c_k\),观测结果 \(Y_i = Y_i(c_k)\),无偏差。
-
权重用联合暴露概率 \(\Pr(\cap_m h_i(\mathbf{Z}, A^{(m)})=c_k)\),保证期望= \(\mu(c_k)\)。
-
关键跳跃点:
- 命题 1(联合暴露概率的计算):多网络下暴露事件的联合概率如何计算?这是 NMR 估计量可行性的关键——若无法计算联合暴露概率,NMR 估计量无法实施。作者给出基于网络结构独立性的计算方法:当候选网络无共享边时,暴露事件独立,联合概率=乘积;有共享边时,需考虑共享邻居的处理分配依赖。
-
定理 3 的渐近方差控制:NMR 估计量的方差可能比单网络 HT 更大(交集暴露概率更小),如何保证方差不爆炸?作者引用 Sävje (2024) 的误设依赖限制,结合度分布有界条件,控制方差量级。
-
技术技巧点名:
- Horvitz-Thompson 逆概率加权:用暴露概率的逆做权重,保证无偏性(定理 1、2 的基础工具)。
- 暴露映射 / 暴露概率分解:将网络误设问题转化为暴露概率分布的散度问题(定理 1 的核心洞察)。
- 交集事件概率计算:多网络下暴露事件交集的概率计算,利用网络结构独立性简化(命题 1)。
- Sävje (2024) 的误设依赖框架:适配 Sävje 的框架控制 NMR 估计量的渐近性质(定理 3)。
- 度分布条件:借用 Leung (2020)、Li & Wager (2022) 的度分布有界条件控制方差(定理 3)。
真实例子与应用
- 模拟实验:
- 数据/场景:生成随机网络(Erdős-Rényi, Barabási-Albert),设定真实网络 \(A^{\text{true}}\),构造误设网络 \(A^{\text{sp}}\)(通过随机删边/加边,控制误设比例)。
- 怎么用上去:在不同误设比例下,比较 HT 估计量(基于 \(A^{\text{sp}}\))与 NMR 估计量(基于多个候选网络,其中含 \(A^{\text{true}}\) 或不含)的偏差与方差。
- 得到什么结果:HT 估计量偏差随误设比例增长而增长(验证定理 1);NMR 估计量在含 \(A^{\text{true}}\) 时无偏,不含时偏差小于最差候选网络的 HT 偏差;NMR 方差比单网络 HT 大,但随候选网络数量增加而可控。
-
想说明什么:验证偏差界理论预测,展示 NMR 估计量的鲁棒性(无偏当含正确网络,偏差受控当不含)。
-
真实数据例子(社交网络田野实验):
- 数据/场景:Paluck et al. (2016) 的反冲突教育实验(学校社交网络,测量学生间的社交连接与反冲突行为)。
- 怎么用上去:原始研究用学生自报的社交网络做干扰网络。本文构造多个候选网络:自报网络(可能误设)、截断网络(只保留前 5 个朋友,模拟 Griffith 2021 的边截断)、地理网络(基于班级/年级的接近度)。用 NMR 估计量同时利用这三个候选网络估计暴露效应。
- 得到什么结果:NMR 估计量给出的效应估计与单网络 HT(基于自报网络)相近,但置信区间更宽(反映交集暴露概率更小的方差代价);截断网络单独使用时偏差明显(验证定理 1)。
- 想说明什么:展示 NMR 估计量在真实数据上的可行性与鲁棒性——即使候选网络含误设(截断网络),只要有一个接近正确(自报网络),NMR 仍给出合理估计。
🔎 结论是否比证明窄 - 定理 1 的偏差界:界中含 \(\max_{c_{k'}} |Y_i(c_k) - Y_i(c_{k'})|\),这是潜在结果的最大差异,实践中不可观测、难以界住。作者在陈述中明确写了这个界,但在讨论中泛泛 claim“偏差随暴露概率散度增长”——这比严格证明的界更宽松(散度增长时,若潜在结果差异很小,偏差仍可能不大)。严格证明的结论是“偏差被散度与潜在结果差异的乘积界住”,而非“偏差仅由散度决定”。 - 定理 2 的无偏性:严格证明在“至少一个候选网络正确”下成立,但作者在讨论中暗示 NMR 估计量在“所有候选网络都误设”时仍有用(偏差小于最差候选网络的 HT 偏差)——这未严格证明,只在模拟中观察。作者未将此 conjecture 形式化为定理。 - 定理 3 的渐近正态:严格证明在误设依赖限制+度分布有界下成立,但作者在应用部分(真实数据)未验证这些条件是否满足(社交网络的度分布常重尾),直接用了渐近正态的置信区间——条件与应用的匹配度未讨论。
四、开放问题(点到为止,扎根具体语句)¶
-
NMR 估计量的效率界与最优性:本文未讨论 NMR 估计量的半参数效率界——在多候选网络设定下,效率界是什么?NMR 估计量是否达到效率下界?扎根在作者对 Ogburn et al. (2024) / Tchetgen Tchetgen et al. (2020) 的回避(这两篇在已知网络下求效率界,本文未引也未讨论多网络下的效率)。
-
“所有候选网络都误设”时的偏差与一致性:定理 2 要求至少一个候选网络正确,但模拟中观察“所有候选网络都误设时偏差仍受控”。能否在 Sävje (2024) 的框架下,严格证明“所有候选网络都误设但误设量级受控时,NMR 估计量一致”?扎根在定理 3 的条件(假设 4)与模拟观察的张力——模拟中无正确候选网络时 NMR 表现仍好,但理论只覆盖有正确候选网络的情况。
-
联合暴露概率的计算复杂度:命题 1 给出联合暴露概率的计算方法,但当候选网络有大量共享边时,计算复杂度是否爆炸?扎根在命题 1 的独立性条件——无共享边时简单,有共享边时需枚举共享邻居的处理分配组合,复杂度随共享边数指数增长。这是实际实施 NMR 的瓶颈。
-
重尾度分布下的渐近性质:定理 3 要求度分布有界,但真实社交网络常重尾(如 Barabási-Albert)。能否在度分布重尾条件下建立 NMR 的渐近性质?扎根在定理 3 的度分布条件与真实数据例子的矛盾——Paluck et al. (2016) 的社交网络度分布可能重尾,但作者未验证。
Maintained by 陈星宇 · Homepage · Source on GitHub