Identification and estimation of causal peer effects using double negative controls for unmeasured network confounding¶
作者: Naoki Egami, Eric J Tchetgen Tchetgen
来源: Journal of the Royal Statistical Society Series B
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在观测性网络数据中,如何从有未测量网络混杂(如同质性偏倚 homophily bias 与情境混杂 contextual confounding)且样本间存在网络依赖的单次实现中,非参数地识别与估计因果同伴效应。当前该方向的成熟度处于“有条件识别理论初立、但估计与渐近理论刚从独立样本拓展至网络依赖”的阶段。
发展脉络: - 奠基工作:Manski (1993) 提出了线性-in-means模型,指出了同伴效应识别的反射问题,但未触及网络结构与未测量混杂。Bramoullé et al. (2009) 将其拓展至一般网络拓扑,用工具变量(IV,即朋友的特征)处理内生性,但作者在本文intro中指出其仅适用于线性模型且依赖“无未测量相关混杂”这一强假设。 - 主要进展(混杂挑战的揭示):Shalizi & Thomas (2011) 证明了同质性偏倚与同伴效应在观测研究中“generically confounded”,除非对参数化或协变量有极强假设,否则无法区分。Angrist (2014) 与 Lyons (2011) 等从实证与计量角度批评了既有同伴效应分析(如Christakis & Fowler的肥胖传染研究)的偏倚,Cohen-Cole & Fletcher (2008) 甚至用“不可能传染的变量(身高、头痛)”跑出显著同伴效应,反证了混杂的严重性。 - 主要进展(网络因果推断框架):Ogburn & VanderWeele (2014) 用因果图区分了直接干涉、传染与分配干涉;Tchetgen Tchetgen, Fulcher, et al. (2021) 提出了auto-g-computation处理任意干涉与长程依赖;Ogburn et al. (2017) 与 van der Laan (2014) 给出了网络下半参数估计与渐近理论,但作者明确指出这些现有方法均依赖“无未控制网络混杂”的假设。 - 当前 frontier(负控制 / Proximal CI):Miao, Geng, et al. (2018) 与 Miao, Shi, et al. (2018) 引入 outcome confounding bridge function 与 double negative control (DNC) 实现未测量混杂下的非参数识别;Tchetgen Tchetgen, Ying, et al. (2020) 将其系统化为 proximal causal learning。但作者指出,这些DNC文献全部基于独立样本设定,未考虑网络依赖与同伴效应特有的结构。 - 本文的位置:本文将DNC / proximal框架从独立样本推广至网络依赖设定,引入“network outcome confounding bridge function”识别同伴效应,并用GMM与网络HAC处理估计与渐近推断,填补了“未测量网络混杂 + 网络依赖”这一空白。
子线索聚类: 1. 线性-in-means与IV路线:Bramoullé et al. (2009) 及后续 Goldsmith-Pinkham & Imbens (2013)。这一簇在网络拓扑上做识别,但依赖线性假设与无未测量混杂。 2. 网络因果图与半参数估计路线:Ogburn & VanderWeele (2014), Tchetgen Tchetgen, Fulcher, et al. (2021), Ogburn et al. (2017), van der Laan (2014)。这一簇允许任意干涉与长程依赖,但假设所有混杂已测量。 3. 负控制 / Proximal CI路线:Miao et al. (2018), Shi et al. (2020), Tchetgen Tchetgen et al. (2020)。这一簇处理未测量混杂,但假设样本独立且无同伴效应结构。 4. 同伴效应的特定纠偏路线:Egami (2018) 用结构平稳性 + 单个NCO做差分式估计;Liu & Tchetgen Tchetgen (2020) 用单个NCE在二元数据中纠同质性偏倚。这两篇是本文最直接的先驱,作者指出它们只用单个负控制,识别依赖更强假设(如参数化或特定数据结构)。
这个方向在追问的核心问题: 1. 在有未测量网络混杂(同质性 + 情境混杂)时,因果同伴效应能否非参数识别?需要何种负控制变量与何种完备性条件? 2. 在单次网络观测(样本间有依赖)下,如何构造估计量并建立一致性与渐近正态性?方差如何稳健估计? 3. 网络依赖的渐近理论如何与未测量混杂的逆问题(bridge function的估计误差)交互?
⚠️ 作者的 framing: - 作者把缺口frame为“现有网络因果方法假设无未测量混杂,现有DNC方法假设独立样本,两者未交汇”,从而让本文的“网络DNC”成为显然的下一步。 - 被淡化或回避的竞争路线:作者对基于设计的方法(如随机化干涉实验 Aronow & Samii, 2013)几乎不讨论,也未涉及基于潜在结果框架的敏感性分析路线。此外,intro中未出现任何关于“弱IV / 弱负控制”的文献(如Andrews et al., 2019弱IV文献在bib里但intro未引用其弱IV困难),这是一个明显该存在却未出现的讨论——bridge function的完备性条件若近乎失败,估计量的渐近性质会如何退化?这值得研究者去查。 - 未被引但可能相关:关于高维/半参数逆问题条件数与渐近方差膨胀的文献(如Chen & Christensen, 2018 on NPIV),以及网络依赖下的cross-fitting / debiased ML文献。
张力: 未见明显对立引用。Shalizi & Thomas (2011) 的“generically confounded”论断与后续试图用IV / 负控制解混杂的努力之间有张力,但这是“问题难 vs 提出解法”的张力,而非在不同条件下得相反结论的张力。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- \(i\):网络中的节点(个体),\(i = 1, \ldots, n\)。
- \(Y_i\):节点 \(i\) 的可观测结局变量(实值)。
- \(A_i\):节点 \(i\) 的可观测处理/暴露变量(实值)。
- \(Y_i(a_i, a_{\mathcal{N}(i;1)})\):节点 \(i\) 的潜在结果,依赖于自身处理 \(a_i\) 与一阶邻居集合 \(\mathcal{N}(i;1)\) 的处理向量 \(a_{\mathcal{N}(i;1)}\)。这是要估的潜在量。
- \(U_i\):未测量的网络混杂变量(实值或向量),导致同质性偏倚与情境混杂。不可观测。
- \(W_i\):负控制结局变量(NCO,Negative Control Outcome)。可观测。不受 \(A_i\) 及邻居处理因果影响,但与 \(U_i\) 相关。
- \(Z_i\):负控制暴露变量(NCE,Negative Control Exposure)。可观测。不因果影响 \(Y_i\) 与 \(W_i\),但与 \(A_i\) 或 \(U_i\) 相关。
- \(X_i\):已测量的节点级协变量(向量)。可观测。
- \(\mathcal{N}(i;1)\):节点 \(i\) 在观测网络中的一阶邻居集合。
- \(\mathcal{N}(i;2)\):节点 \(i\) 的二阶邻居集合(一阶邻居的一阶邻居,不含 \(i\) 及一阶邻居)。
- \(n\):样本量(网络节点总数)。
- ACPE (Average Causal Peer Effect):本文的核心目标参数,定义为 \(\tau = E[Y_i(a_i, 1) - Y_i(a_i, 0)]\),即自身处理固定为 \(a_i\) 时,一阶邻居处理从0变1对自身结局的平均因果效应。
模型(数据生成机制): 观测数据为单次网络实现 \(\{(Y_i, A_i, W_i, Z_i, X_i, U_i, \mathcal{N}(i;1), \mathcal{N}(i;2)) : i=1,\ldots,n\}\),其中 \(U_i\) 不可观测,其余可观测。网络拓扑(邻接矩阵)已知。关键因果假设: 1. No simultaneous peer effect:\(Y_i\) 不受邻居结局 \(Y_{\mathcal{N}(i;1)}\) 因果影响(排除传染/干涉,只保留同伴效应即邻居处理的影响)。 2. NCO条件:\(W_i\) 不受 \((A_i, A_{\mathcal{N}(i;1)}, A_{\mathcal{N}(i;2)})\) 因果影响,但与 \(U_i\) 相关。 3. NCE条件:\(Z_i\) 不因果影响 \((Y_i, W_i)\),但与 \(A_i\) 或 \(U_i\) 相关。 4. Network exogeneity:\((U_i, X_i)\) 不受处理与结局因果影响。
可观测数据:研究者实际能观测到的是 \(\{(Y_i, A_i, W_i, Z_i, X_i, \mathcal{N}(i;1), \mathcal{N}(i;2)) : i=1,\ldots,n\}\)。\(U_i\) 是想要但观测不到的,只能靠NCO与NCE的假设去识别。
第二步:最小内核(最简特例:线性设定 + 二值处理 + 无协变量)
剥掉一般性,考虑最简特例: - \(A_i \in \{0, 1\}\)(二值处理)。 - 无已测量协变量 \(X_i\)。 - 潜在结果与混杂均为线性结构: - \(Y_i(a_i, a_{\mathcal{N}(i;1)}) = \beta a_i + \tau \bar{A}_{\mathcal{N}(i;1)} + \gamma U_i + \epsilon_i\),其中 \(\bar{A}_{\mathcal{N}(i;1)}\) 为邻居处理均值,\(\tau\) 即ACPE。 - \(W_i = \alpha U_i + \eta_i\)(NCO线性依赖于混杂)。 - \(A_i = \delta Z_i + \xi U_i + \nu_i\)(NCE线性影响处理或混杂影响处理)。 - 假设误差项 \((\epsilon_i, \eta_i, \nu_i)\) 与 \(U_i, Z_i\) 独立,且网络内依赖仅通过 \(U_i\) 与 \(A_i\) 的网络结构产生。
在这个特例下,要证的命题退化成:仅用可观测的 \((Y_i, A_i, W_i, Z_i)\) 与网络拓扑,能否识别 \(\tau\)?
直觉走法: 1. 因为 \(W_i = \alpha U_i + \eta_i\),若 \(\alpha \neq 0\)(NCO完备性),则 \(U_i\) 可由 \(W_i\) 线性代理:\(U_i = (W_i - \eta_i)/\alpha\)。 2. 将 \(U_i\) 代入 \(Y_i\) 方程:\(Y_i = \beta a_i + \tau \bar{A}_{\mathcal{N}(i;1)} + (\gamma/\alpha) W_i + (\epsilon_i - \gamma/\alpha \eta_i)\)。 3. 此时 \(W_i\) 替代了未测量的 \(U_i\),但 \(W_i\) 与 \(\bar{A}_{\mathcal{N}(i;1)}\) 可能仍相关(因为 \(U_i\) 影响邻居的 \(A_j\),从而 \(W_i\) 与邻居处理相关)。 4. 用NCE \(Z_i\) 作为工具变量:\(Z_i\) 影响 \(A_i\)(从而影响 \(\bar{A}_{\mathcal{N}(i;1)}\)),但不直接影响 \(Y_i\) 或 \(W_i\)。对回归 \(Y_i = \beta a_i + \tau \bar{A}_{\mathcal{N}(i;1)} + h W_i\) 用 \(Z_i\) 做IV,即可识别 \(\tau\)。
这就是本文最小内核:NCO提供混杂的代理,NCE提供代理变量的IV,两者结合识别同伴效应。一般情形只是将线性替换推广为积分方程(bridge function),将单变量推广为向量,将独立误差推广为网络依赖。
三、这篇论文做了什么¶
三句话: ①研究了观测网络数据中存在未测量网络混杂时因果同伴效应的非参数识别与估计问题。 ②核心工具是引入一对负控制变量(NCO与NCE)构造 network outcome confounding bridge function,结合广义矩方法(GMM)与网络HAC方差估计。 ③主要结论是在DNC完备性条件与ψ-网络依赖假设下,ACPE非参数可识别,GMM估计量一致且渐近正态,方差估计量一致。
关键设定与假设: 在第二节最小记号基础上补全: - Assumption 1 (Negative Control Conditions):NCO \(W_i\) 不受 \((A_i, A_{\mathcal{N}(i;1)}, A_{\mathcal{N}(i;2)})\) 因果影响;NCE \(Z_i\) 不因果影响 \((Y_i, W_i)\);NCE与NCO不直接因果关联。统计含义:排除了负控制变量对目标因果图的直接干扰,确保它们只通过未测量混杂 \(U_i\) 或处理 \(A_i\) 起作用。相比Miao et al. (2018)的独立样本DNC,本文额外排除了NCE对NCO的直接影响及邻居处理对NCO的影响,以适应网络结构。 - Assumption 2 (No Simultaneous Peer Effect / Interference):\(Y_i\) 不受 \(Y_{\mathcal{N}(i;1)}\) 因果影响。统计含义:排除了传染路径,使得同伴效应仅通过邻居处理 \(A_{\mathcal{N}(i;1)}\) 传递。相比Ogburn & VanderWeele (2014)允许传染,这是一个强化假设,作者承认这是为了识别可行性而设。 - Assumption 3 (Network Exogeneity):\((U_i, X_i)\) 不受 \((A, Y, W, Z)\) 因果影响。统计含义:混杂与协变量是网络结构的预置变量,不受后续处理与结局反馈。 - Assumption 4 (Completeness / Rank Condition):NCO完备性 \(E[f(U_i) | W_i, X_i] = 0 \Rightarrow f=0\);NCE完备性 \(E[g(U_i) | Z_i, X_i] = 0 \Rightarrow g=0\)。统计含义:NCO与NCE对未测量混杂的信息足够丰富,确保bridge function可识别。这是proximal CI文献的标准条件,本文将其直接移植到网络设定。 - Assumption 5 (ψ-Network Dependence):网络依赖强度由函数 \(\psi(k)\) 控制,\(\psi(k)\) 衡量距离为 \(k\) 的节点间的依赖衰减速率。统计含义:替代了i.i.d.假设,允许局部依赖与长程依赖,但要求依赖随网络距离衰减。相比Kojevnikov et al. (2021)的network HAC理论,本文直接采用其ψ-依赖框架。
主要结果: - Theorem 1 (Nonparametric Identification):在Assumption 1-4下,ACPE \(\tau\) 可由以下矩条件非参数识别: \(E[Y_i - h(W_i, X_i) | Z_i, X_i, \mathcal{N}(i;2)] = \beta(A_i, X_i) + \tau \bar{A}_{\mathcal{N}(i;1)}\) 其中 \(h\) 是 network outcome confounding bridge function,满足: \(E[Y_i - h(W_i, X_i) | U_i, X_i, \mathcal{N}(i;1)] = \beta(A_i, X_i) + \tau \bar{A}_{\mathcal{N}(i;1)}\) 直觉:bridge function \(h\) 将NCO \(W_i\) 映射为混杂对 \(Y_i\) 的影响,消除混杂偏倚后,残差仅依赖自身处理与邻居处理,再用NCE \(Z_i\) 做矩条件识别 \(\tau\)。必要条件是完备性确保 \(h\) 存在且唯一。解决的技术难点是将独立样本下的outcome bridge function推广至网络设定,使得 \(h\) 不仅消除自身混杂,还消除邻居混杂(因邻居混杂通过 \(U_{\mathcal{N}(i;1)}\) 影响邻居处理 \(A_{\mathcal{N}(i;1)}\) 从而产生偏倚)。 - Theorem 2 (Consistency & Asymptotic Normality of GMM):在Assumption 1-5及bridge function参数化/半参数估计条件下,GMM估计量 \(\hat{\tau}\) 满足 \(\hat{\tau} - \tau = O_p(n^{-1/2})\) 且 \(\sqrt{n}(\hat{\tau} - \tau) \rightarrow_d N(0, \Sigma)\)。直觉:GMM结合了bridge function估计的矩条件与NCE矩条件,网络依赖通过ψ-依赖假设被控制,渐近方差 \(\Sigma\) 包含了网络HAC成分。必要条件是bridge function估计误差的收敛速率足够快(\(o_p(n^{-1/4})\)),以不影响GMM的一阶渐近。 - Theorem 3 (Consistent Variance Estimation):网络HAC方差估计量 \(\hat{\Sigma}\) 一致收敛于 \(\Sigma\)。直觉:直接套用Kojevnikov et al. (2021)的HAC公式,将核权重函数基于网络距离设定。
证明路线与技术技巧: - 整体路线: 1. 建立bridge function积分方程:从潜在结果模型出发,推导出 \(E[Y_i | U_i, X_i, \mathcal{N}(i;1)] = \beta + \tau \bar{A} + E[h(W_i) | U_i, X_i]\),这是一个Fredholm第一类积分方程。 2. 完备性条件确保解存在且唯一:用Assumption 4的完备性条件,证明bridge function \(h\) 在给定矩条件下局部唯一。 3. 构造GMM矩条件:将bridge function代入观测数据,得到 \(E[Y_i - h(W_i) - \beta A_i - \tau \bar{A}_{\mathcal{N}(i;1)} | Z_i, X_i, \mathcal{N}(i;2)] = 0\),形成GMM的矩向量。 4. GMM估计与渐近分析:对参数 \(\theta = (\tau, \gamma)\)(\(\gamma\) 为bridge function参数)做GMM,证明目标函数的收敛与渐近正态性。 5. 网络HAC方差估计:用网络距离核函数加权交叉项,证明HAC估计量的一致性。 - 关键跳跃点: - Lemma 1 (Network Bridge Function Identification):从 \(E[Y_i - h(W_i) | U_i, X_i, \mathcal{N}(i;1)] = \beta + \tau \bar{A}\) 到 \(E[Y_i - h(W_i) | Z_i, X_i, \mathcal{N}(i;2)] = \beta + \tau \bar{A}\) 的跳跃。难点在于:为什么对 \(Z_i\)(NCE)取期望能消除混杂?因为 \(Z_i\) 与 \(U_i\) 的关联被完备性条件捕获,且 \(Z_i\) 不直接影响 \(Y_i\) 与 \(W_i\),所以对 \(Z_i\) 取矩后混杂代理 \(h(W_i)\) 的偏倚被抵消。这是本文最核心的识别跳跃。 - Lemma 2 (GMM Asymptotics under Network Dependence):将i.i.d.下的GMM渐近理论推广至ψ-网络依赖。难点在于GMM目标函数涉及节点对 \((i,j)\) 的交互项,网络依赖下这些交互项的协方差结构复杂。作者用ψ-依赖的衰减速率控制交互项的累积,结合Kojevnikov et al. (2021)的LLN与CLT,证明目标函数的逐点收敛与渐近正态性。 - 技术技巧点名: - Fredholm integral equation of the first kind:用于形式化bridge function的识别问题,将混杂代理问题转化为逆问题。 - Completeness / Rank condition:用于确保逆问题的解唯一,这是非参数IV与proximal CI文献的标准工具。 - ψ-Network Dependence (Kojevnikov et al., 2021):用于控制网络依赖下的LLN与CLT,替代i.i.d.假设。 - Network HAC variance estimator:用于稳健估计GMM的渐近方差,核权重基于网络距离而非时间/空间距离。 - GMM with nuisance parameter (bridge function):将bridge function的估计误差视为nuisance parameter,要求其收敛速率 \(o_p(n^{-1/4})\) 以不影响GMM的一阶渐近。
真实例子与应用: 本文含一个真实数据应用:Causal Peer Effect of Obesity in the Framingham Heart Study。 - 数据:Framingham Heart Study Offspring Cohort的社交网络数据(约n=2000节点,多期观测),包含肥胖状态(BMI ≥ 30)、吸烟等变量。 - 如何用上去:将朋友的肥胖状态变化作为 \(A_{\mathcal{N}(i;1)}\)(同伴处理),自身肥胖状态作为 \(Y_i\);NCO \(W_i\) 选择为自身前一期的肥胖状态(不受当期朋友处理因果影响,但与未测量混杂如遗传/环境相关);NCE \(Z_i\) 选择为朋友前一期的肥胖状态(不直接影响自身当期肥胖,但与朋友当期肥胖相关)。用GMM估计ACPE \(\tau\)。 - 结果:DNC调整后的同伴效应估计值显著小于未调整的回归估计,且在部分设定下不显著,表明原有文献(如Christakis & Fowler)的肥胖传染结论可能受同质性偏倚严重膨胀。 - 说明什么:验证DNC方法能纠正未测量网络混杂偏倚,展示相对于baseline(未纠偏回归)的偏倚缩减效果。
🔎 结论是否比证明窄: - Theorem 2的GMM渐近正态性严格依赖于bridge function的收敛速率 \(o_p(n^{-1/4})\),但作者在正文中未给出bridge function估计的具体收敛速率证明(仅引用了半参数IV文献的一般结论),这是一个条件X下严格证明但泛泛claim的地方。 - Assumption 2 (No Simultaneous Peer Effect) 是识别的关键假设,但作者在讨论中承认这可能在某些应用中不成立(如传染确实存在),此时定理1的识别失效,但未给出替代识别路径——这是一个窄结论被泛泛应用的地方。
四、开放问题(点到为止,扎根具体语句)¶
-
弱负控制 / 弱完备性下的渐近性质退化:本文Assumption 4要求完备性条件成立,但若NCO或NCE对混杂的信息近乎冗余(完备性条件近乎失败),bridge function的估计方差会膨胀,GMM的渐近正态性可能失效。扎根点:Theorem 2的证明要求bridge function收敛速率 \(o_p(n^{-1/4})\),弱完备性下此速率可能不成立。需证:弱完备性下GMM的渐近分布如何退化?是否类似弱IV下的非标准分布?
-
传染与同伴效应的联合识别:Assumption 2排除了传染,但Ogburn & VanderWeele (2014)指出传染与同伴效应常共存。扎根点:Section 5.2作者承认"No simultaneous peer effect...may not hold in some applications"。需证/估:在有传染路径时,DNC能否识别同伴效应?需要何种额外的负控制结构?
-
网络依赖下的半参数效率界:本文GMM估计量未讨论是否达到网络依赖下的半参数效率界。扎根点:Theorem 3给出了渐近方差,但未与效率界比较。需估:在ψ-网络依赖与DNC识别下,ACPE的半参数效率界是什么?GMM是否可改造成one-step / DR估计量以达到此界?
-
高维网络混杂下的bridge function估计:本文假设bridge function为参数/低维半参数形式,但未测量混杂 \(U_i\) 可能是高维向量(如多维同质性特征)。扎根点:Section 4.2作者假设bridge function参数化。需算:高维 \(U_i\) 下,bridge function的非参数/高维半参数估计(如用DML / sieve)如何保证 \(o_p(n^{-1/4})\) 收敛速率?是否需要cross-fitting以控制过拟合偏倚?
(要确认某条是否真gap,建议读同子领域近期5篇intro——如Kallus et al., 2021 on proximal CI with high-dimensional proxies; Deaner, 2018 on nonparametric DNC; 以及Ogburn et al., 2022 on network causal inference efficiency——看是否都指向弱完备性或效率界问题。)
Maintained by 陈星宇 · Homepage · Source on GitHub