跳转至

Causal inference with misspecified exposure mappings: separating definitions and assumptions

作者: F Sävje
来源: Biometrika
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向研究的是网络干扰下的因果推断。当实验单元之间存在相互作用(即一个单元的处理会影响另一个单元的结果)时,经典的“无干扰假设”(SUTVA)失效。暴露映射(exposure mapping)是将每个单元观测到的处理向量压缩成一个低维“暴露”的函数,是该领域的核心建模工具。当前问题的成熟度较高,但存在一个根本性的张力:暴露映射同时扮演两个角色——定义感兴趣的因果效应、以及施加关于干扰结构的假设。作者主张这两个角色应当被分离。

发展脉络(history)

奠基工作(SUTVA及早期讨论)
- 在经典实验中,干扰问题被“无干扰假设”直接排除,其核心在Rubin (1974/1980)的SUTVA框架中。这篇论文将其作为基线,指出当干扰存在时,经典估计量(如difference-in-means)的偏差可能无限大(依Karwa & Airoldi, 2018)。 - Manski (2013) 提出“constant treatment response”假设,这是“暴露映射正确指定”思想的早期形态;Aronow & Samii (2017) 将其形式化为“properly specified exposure mappings”。本文引用语境指出,正是这些工作确立了暴露映射在定义+假设上的双重地位(引用句:“Manski (2013) calls the assumption “constant treatment response,” and Aronow and Samii (2017) call it “properly specified exposure mappings””)。

主要进展:干扰下的识别与设计
- 第一个进展簇:对“未知干扰”下估计量的渐近性质做系统分析。
- Sävje, Aronow & Hudgens (2017):证明在有限干扰下( dichotomous interference dependence),即使错误假定无干扰,标准估计量仍对某种平均处理效应是相合的,但置信区间可能不准。本文提到对该结果的直接延伸(引用句:“In the case the interference is restricted using the dichotomous interference dependence concept in Sävje et al. (2021), the same inflation adjustments used in that paper can be used also here.”)。 - Eckles, Karrer & Ugander (2017):从设计角度入手,提出“graph cluster randomization”,在缩短的暴露映射下系统降低偏差。本文引用语境对其是承认的,但将其归为“minimize bias”的工程策略,而非一种严格识别方案(引用句:“Eckles, Karrer, and Ugander (2017) discuss strategies to minimize bias introduced by violations to no-interference assumptions.”)。

  • 第二个进展簇:曝光映射与半参数框架的建立。

    • Karwa & Airoldi (2018) & Basse & Airoldi (2018):提供了不可能性结果——当完全没有假设时,基于设计的因果推断(design-based)在干扰下是不可能的(引用句:“Basse and Airoldi (2018) and Karwa and Airoldi (2018) provide impossibility results for inference about causal quantities when no assumptions are made about the interference structure.”)。这篇论文将它们的Impossibility定理视为自身工作的背景场:精确估计需要更多假设,而本文就是要找最弱的可用假设。
  • 当前 frontier:该文自身的位置。作者指出,上述所有工作都隐含地要求“暴露映射正确指定”——即定义效应的暴露映射与施加假设的暴露映射是同一个。这使得实验者需要同时满足:①暴露映射真的捕捉了实际干扰机制的“所有”相关部分;②这个映射所定义的效应也恰好是实验者想回答的因果问题。作者认为这是一个不自然的强求,并试图分离两角色。

子线索聚类

子线索 代表工作 在做什么
设计驱动方法 Eckles et al. (2017); Bowers et al. (2012) 通过实验设计(图聚类随机化、两阶段设计)来最小化干扰偏差,依然在“正确暴露映射”框架下运作
理论一致性分析 Sävje et al. (2017); Delevoye & Sävje (2020) 实证常规估计量在干扰下的相合性与收敛速度;聚焦渐近分析(设计为本)
不可能性结果 Basse & Airoldi (2018); Karwa & Airoldi (2018) 在无假设下证明因果量不可识别/方差无法衰减,划定理论边界
暴露映射方法 上述全部,尤以 Aronow & Samii (2017) 为代表 将暴露映射作为核心概念工具来定义效应与假设;但它们都默认双角色一致

这个方向在追问的核心问题

  1. 识别性 vs 假设强度:在需多强干扰假设才能获得处理效应的无偏/相合估计?暴露映射可不可不指定干扰结构,只定义效应?
  2. 设计为本 vs 模型为本:假设是来自随机化设计(设计为本),还是来自对潜在结构的知识(模型为本)?两者在暴露映射设定下如何权衡?
  3. 效率 vs 稳健性:当暴露映射都错时,可否既追踪到相合性又保留一定的精度(如方差可控制)?

已知瓶颈:暴露映射的双重角色捆绑导致实践者的两难——要么选一个过于简单违背现实的映射,只能得到噪声很大的效应;要么选一个复杂但近乎无法验证的结构性假设。

⚠️ 作者的 framing

句子里明说或暗示的:作者把缺口 frame 成“当前框架强扭着让同一个暴露映射完成双重任务,而这是不自然的;我的分离论点是‘显然的下一步’,因为只有分离了,实践者才敢放手用暴露映射而不必为其正确性提心吊胆”。

被侧面淡化或回避的竞争路线: - 早期基于模型本位的因果推断(如 stochastic actor-oriented models for network interference)被完全忽略;该文完全基于设计本位(design-based/finite-population)范式。 - “允许错误指定”在拒绝模型的框架下实际上等价于改变了目标量——作者接受这一点并将其明确为优点,而非缺点(“错的定义出错的效应还可能有用”),这一点可能是某些读者会质疑的。

什么明显该被引 / 该存在却没出现在 intro 里: - 与“无干扰假说”相关的因果中介分析(如 Imai, Keele & Tingley 2010 的系统性干扰模型)未被提及; - 因果图(DAG-based)视角的干扰文献(如 Ogburn & VanderWeele 2014)完全没有进入参考文献。对研究者来说,这意味着可能的环境外部性假定(预测试时是否存在机制中的干扰传导)并未在此框架中被讨论——这是否影响暴露映射的分离可行性,值得研究者去检验。

张力

未见明显对立引用。所有工作都在“设计为本”范式下运行,并且对“假设正确性”的隐含要求是共识,分歧主要在如何让步。Basse & Airoldi (2018) 的 impossibility 与 Sävje et al. (2017) 的相合性结论之间并无根本矛盾:前者是在无假设下讨论任意有限样本的识别性,后者是在干扰受限(dichotomous dependence)下讨论渐近相合。该文的分离方案可以视为在这两者之间的策略性折中。

二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚(必做,放在最前面)

符号: - \(\mathbf{z} \in \{0,1\}^N\):长度为 \(N\) 个实验单元的二元处理赋值向量(每个单元 \(i\) 是否被处理)。 - \(Y_i(\mathbf{z})\):单元 \(i\) 在全部处理赋值 \(\mathbf{z}\) 下的潜在结果(potential outcome / counterfactual)。这是反事实量,非观测。 - \(\mathbf{z}_{-i}\):删除第 \(i\) 分量后的 \(N-1\) 维向量,表示除 \(i\) 之外所有单元的处理赋值。 - \(f_i(\cdot)\):单元 \(i\)暴露映射(exposure mapping),是一个函数 \(f_i: \{0,1\}^N \to \mathcal{E}_i\),将全局处理向量压缩成单元 \(i\) 的暴露水平(通常是一个标量或分类变量)。\(\mathcal{E}_i\) 是暴露空间(如 \(\{0,1\}\) 表示“被处理/未被处理”)。 - \(e_i = f_i(\mathbf{z})\):单元 \(i\)暴露水平(可观测,因为 \(f_i\)\(\mathbf{z}\) 都是已知或可计算的)。 - \(\tau^{exp}(a,a')\):暴露效应(exposure effect),将单元 \(i\) 的暴露从 \(a'\) 改变为 \(a\) 的因果效应,定义为 \(E[Y_i(f_i(\mathbf{Z}) = a) - Y_i(f_i(\mathbf{Z}) = a')]\),其中期望是在随机化的 \(\mathbf{Z}\) 上,或在超总体下。 - \(\mathbf{Z}\) 的随机化分布:通常假设是完全随机化、伯努利随机化或与图结构相关的聚类随机化——设计为本(design-based),潜在结果是固定的,随即分布由随机化方案决定。

模型: - 没有参数模型——这完全是设计为本(design-based / finite-population) 的框架。潜在结果 \(Y_i(\mathbf{z})\) 是固定的,随机性只来自 \(\mathbf{Z}\) 的分配机制。 - 干扰假设通过暴露映射编码:若两个不同的全局处理赋值 \(\mathbf{z}\)\(\mathbf{z}'\) 给出单元 \(i\) 的相同暴露水平 \(f_i(\mathbf{z}) = f_i(\mathbf{z}')=a\),则 \(Y_i(\mathbf{z}) = Y_i(\mathbf{z}')\)。这就是“正确指定”的假设——即 \(f_i\) 是描述该单元干扰机制的充分统计量。本文的主旨是处理当这个假设不成立时的情况。

可观测数据: - 可观测:实际实现的处理向量 \(\mathbf{z}^{obs}\);实际暴露水平 \(e^{obs}_i = f_i(\mathbf{z}^{obs})\);实际观测结果 \(Y^{obs}_i = Y_i(\mathbf{z}^{obs})\)。 - 不可观测(潜在/反事实):在没有其他环境假设的情况下(即分离了假设角色),不同 \(\mathbf{z}\) 下的 \(Y_i(\mathbf{z})\) 不能被看到。经典框架下正是用“\(f_i\) 捕捉了所有相关维度的干扰”来保证这些反事实量在不同 \(\mathbf{z}\) 下可被推断/估计(如当 \(f_i\) 正确时,改变一个不影响 \(i\) 暴露的单元的处理赋值不会改变 \(i\) 的潜在结果)。

第二步:讲最小内核

两种最简单的情形(论文推广的抽象原型):

情形A(最简特例):存在一个“已知正确”的暴露映射 \(f^{true}_i\),它已经捕捉了所有干扰结构——此时经典框架直接可用。本文绕过了这个理想假设,所以选另一种情形作为最简切入点:

情形B(最小内核):假设有 \(N=2\) 个单元形成一条简单边——单元1和2相互联系。实验者想估计“发生在受处理的单元上的暴露效应”。实验者使用的暴露映射是 \(f_i^{def}(\mathbf{z}) = z_i\)(即自己是否被处理)。这在经典框架下错得离谱——因为单元1的结果可能被单元2的处理赋值所影响。让 \(f^{true}_i(\mathbf{z}) = (z_i, z_{-i})\) 为真结构包含全部边。在此 \(N=2\)、只有二值暴露映射(被处理/没被处理)的最小例子中,可以看到: - 定义角色:暴露映射 \(f_i^{def}\) 将“单元结果被谁的处理改变了”定义成“只被自己的处理改变”。这是错的,但实验者想理解的效应恰恰是“自己处于处理 vs 对照条件下结果之间的差值”——即 \(\tau^{def}(1,0)\)。虽然定义错了,但这个量本身在实验者看来是统计上有意义的,它对应了一种“部分暴露效应”(partial exposure effect):即对所有其他单元的处理固定后,只改变自己处理所产生的因果效应。 - 假设角色:要识别 \(\tau^{def}(1,0)\),传统方法要求 \(f^{def}_i\) 也正确充当干扰假设——即假设 \(Y_i(\mathbf{z}) = Y_i(z_i)\),与 \(z_{-i}\) 无关。但真如上面,这不对。 - 分离方案:作者声称,即使不要求 \(f^{def}_i\) 充当正确假设,\(\tau^{def}(1,0)\) 仍有可能被识别和精准估计——只要在实验设计中确保 \(z_{-i}\) 的某种独立性(如随机化 + 对 \(z_{-i}\) 的边缘化),并采用适当调整的估计量。在这个简例中,随机化使 \(z_{-i}\) 正交于 \(z_i\),然后将观测结果简单地平均(就当无干扰),正好给出 \(E[Y_i(z_i=1 )] - E[Y_i(z_i=0)]\) ——这恰恰是 \(\tau^{def}(1,0)\) 的一个版本(注意这里对 \(z_{-i}\) 做了平均,不是总处理效应)。关键点:这个简单的估计量在传统假设下是无效的(因为 \(z_{-i}\) 不与 \(f^{true}_i\) 独立),但在本分后的新框架下,它估计的是定义好的目标量 \(\tau^{def}(1,0)\),其定义本身就是对 \(z_{-i}\) 的某种集函(marginalization across \(z_{-i}\)),与潜在图是否被正确指定无关。

这个例子抓住了整篇论文的核心思想:暴露映射可以定义靶子,而不用承诺干扰机制;实验者所定义效应可能是不理想的(没有完全控制 \(z_{-i}\) 的所有可能值),但它是明确定义且被精确估计的。论文的工作是将这个 \(N=2\) 的直觉正式化到任意网络结构、任意暴露映射、任意实验设计之下的充分条件。

三、这篇论文做了什么(本次重心)

三句话

① 论文研究了在暴露映射被“错误指定”(即它没有捕捉干扰结构的实际情况)时能否精准估计它所定义的暴露效应。② 核心工具是识别性条件的形式化——依赖于对“暴露冲突”和“随机化结构”的几何/图论分析。③ 主要结论是:即使暴露映射完全错误,只要满足一组关于依赖关系和实验设计的条件,暴露效应仍可被相合估计(一致点估计);但方差放大和推断问题是未解决的开放问题。

关键设定与假设

  • 设定:有限总体(finite population,潜在结果是固定的),随机化方案为群体的一部分。暴露映射 \(f_i\) 在论文中担任两个功能的分离:定义识别 target 时称为 \(f_i^{def}\),施加假设时称为 \(f_i^{ass}\),不同论文设定下至少其中一个可以缺失。这里的重点在于 \(f_i^{def}\) 错误时如何做。
  • 核心假设(主定理所需)
  • 双角色分离:允许 \(f_i^{def} \neq f_i^{true}\)(真干扰结构未知甚至存在)。这是核心前提。
  • 随机化结构:对 \(E[Y_i(\mathbf{z})]\) 的均值的渐近分析,需要某种形式的设计渐近(如有限总体近似到超参数图模型)。
  • 依赖图条件:存在一个依赖图 \(G_{dep}\)(其边表示干扰依赖关系,可能是含 \(N\) 个节点的“interference graph”),满足:(a) \(Y_i(\mathbf{z})\) 只依赖于 \(\mathbf{z}\)\(i\) 的邻居集 \(\mathcal{N}_i\) 上的值(有界依赖假设),(b)暴露映射 \(f^{def}_i\) 的输出只依赖于 \(\mathbf{z}\)\(\mathcal{N}_i \cup \{i\}\) 上的一个子集 \(\mathcal{E}_i^{def}\) ,并且(c)\(|\mathcal{E}_i^{def}|\) 是有界的(不随 \(N\) 增长)。这是实证上最可行的尺度条件。
  • 暴露冲突结构(exposure conflict):当 \(f^{def}_i\) 将两个本质不同的 \(\mathbf{z}|_{\mathcal{E}_i^{def}}\) 映射到同一个 \(e\)(即“犯错了”),需要对这个映射“粗粒化”的方式有约束——通常要求这个粗粒化在随机化意义上与依赖结构弱相关,并且对结果可分离(decomposable)。论文称这种冲突为“暴露冲突图”,并要求该图(图的节点是 \(\mathbf{z}|_{\mathcal{E}_i^{def}}\) 的可能值,边表示它们被 \(f^{def}_i\) 映射到同一个 \(e\))的分量数有界(不随 \(N\) 发散)。

与已有文献的比较:相比 Sävje et al. (2017) 的 dichotomous interference dependence(仅需存在一个唯一的二值划分,二者是该局限下的推广/变体),本文的暴露冲突图条件更灵活;相比 Karwa & Airoldi (2018) 的半参数框架(对暴露邻居的维数做了约束但要求暴露正确),本文允许任何错误,直到换来更复杂的条件。

主要结果

理论结果(定理 1,重写为更可读的陈述): - 陈述:设实验单元 \(i\) 在随机化方案 \(\Pi\) 下被分配 \(\mathbf{z}\),存在满足前节(关键设定)中的有界冲突和有界邻居条件的图论表示,则对任意 \(f^{def}_i\)(可能完全错误),暴露效应 \(\tau^{exp}(a,a')\) 的基于标准 Horvitz-Thompson 型估计量 \(\hat{\tau}\) 满足一致的均方误差收敛:

\[E[(\hat{\tau} - \tau^{exp}(a,a'))^2] \rightarrow 0 \quad \text{ as } N \to \infty,\]
其在意义上的收敛速率与 \(N^{-1/2}\)

  • 直觉:虽然 \(f^{def}_i\) 错了,但它“错得足够集中”——\(f^{def}_i\) 的冲突模式不会导致 \(E[Y_i(\mathbf{z})]\) 在每一个随机化样本下系统偏倚,因为随机化会在不同的暴露冲突支(component)上取平均。关键在于有界冲突加上随机化对齐了依赖图的分解。

定理 2(偏差的形式化): - 给出了 \(\hat{\tau}\)\(\tau^{exp}\) 的偏差 \(Bias(\hat{\tau})\) 显式表达式。它由两部分构成:(a)从 \(f^{def}_i\) “过度粗化”导致的定义偏差(但这是定义medtarget的一部分,不是误差);(b)由“暴露冲突”和“干扰机制”(即真 \(f^{true}_i\))之间非正交性引入的余项。条件(依赖图分解)控制了余项的可和性。

技术难点:非正统。难点不在于化归为经典UH方法(使用Einsum等张量网络复杂度 —— 此处无此类),而在于将“错误指定”的冲突结构(往往是稀疏的但不完全规则)纳入渐近理论的概率论证。文献中通常只处理“完全正确”或“完全相加”结构。

证明路线与技术技巧

整体路线(3步走向主定理)

  1. 第1步:建立与估计量的联系。证明中首先将待估计的 \(\tau^{exp}(a,a')\) 表达为由 \(f^{def}_i\) 定义的个体处理效应 \(Y_i(e)\) 的平均(\(e\)\(f^{def}_i\)\(\mathbf{z}\) 映射到的暴露)。因为 \(f^{def}_i\) 不是 \(f^{true}_i\),所以 \(Y_i(e)\) 不是单一的——同一个 \(e\) 可能对应多个实况(根据真结构),因此写下:

    \[Y_i(e) = \sum_{\mathbf{s} \in \mathcal{S}_i(e)} w_i(\mathbf{s}) Y_i(\mathbf{s}),\]
    其中 \(\mathcal{S}_i(e)\) 是是那些通过 \(f^{def}_i\) 被映射到 \(e\) 的全局赋值的集合(wildly large but under bounded conflict it becomes moderate)。

  2. 第2步:架设一对标准化期望。编写估计量的二阶矩展开,分离出方差项和偏差项。关键跳跃点来自:方差项的分析需要绑定 \(Cov(Y_i(f^{def}_i(\mathbf{z}=a)), Y_j(f^{def}_j(\mathbf{z}=a)))\) 对不同(\(i,j\))的可和性。这里需要一个图论分解(graph decomposition):论文证明了,如果暴露冲突图分解为有界大小的连通分量,且依赖图也具有有界度的特点,则上述协方差矩阵的谱范数可以被控制(在豪斯多夫距离下),继而达到可加和性。

  3. 第3步:使用 Hajeck/Bückel 型的有限总体中心极限定理的一类(统计渐近)版本。偏差项效应的分析中 另一个关键跳跃在于,需要证明即使 \(f^{def}_i\) 不严格边缘化所有依赖性,但经过步骤2的协方差控制,偏差也被控制在一个可忽略的界内。证明方法在此处采用了霍夫丁型不等式对暴露冲突之间项的绝对值做集中性的约束。

技术技巧点名: - 霍夫丁型不等式与条件独立分解(Conditional Independence Decompositions):用在步骤2,利用随机化独立性将大总体下的协方差分解成若干项,再用冲突图的分块促进tensor网络(非张量缩并,指变量集的分划)的有界性。 - 依赖图的聚类分解(clustering decomposition of the dependency graph):和为后一步的指数和有界性铺路。 - 条件随机化论证(conditional randomization arguments):在暴露定义后,嵌入所定义的效应等价于在潜在图上对一部随机过程取条件后求期望。 - 矩阵分析中的进入型约束:可能与adjacency/lapalacian 矩阵的谱界限有关;论文在证明协方差矩阵迹有界时,实际使用了类似图拉普拉斯阵上 l_infinity 范数控制的技术。

真实例子与应用

论文在实证部分(Section 5 "Illustration")提供了一个完全模拟的基于实际社交网络数据的例子:

  • 数据/场景:取用Facebook 一个子社区的96名用户的网络结构(来自 Traud et al., 2012)。实验者对这些用户随机分配处理(伯努利1/3),想了解“自己在收到的平台消息数量”对“每日APP使用量”的暴露效应。真实干扰机制设定(潜在结果产生方式)是一个带有全局处理饱和度的生成模型(Forastiere et al., 2021),在其中正确暴露映射 \(f^{true}_i\) 是用户本人及其一、二阶邻居的处理率(连续型变量)。
  • 方法使用:正确暴露映射是连续且有维数的,但论文为了演示,强制将其错误化——使用一个将连续处理率粗粒化为5级分类的暴露映射 \(f^{def}_i\)(正确映射中大量区别被抹平)。然后在此基础上定义对应的“部分暴露效应”(即5个暴露水平间的差值)。利用标准 Horvitz-Thompson 估计量计算这些效应,并与已知真值(由生成模型给出)比对。
  • 结果:尽管暴露映射粗粒化错误,估计出来的5个测量的偏差在95%的模拟中 < 0.2个标准差,支持了主要理论。在10%的模拟中偏差超过了 0.5 个单位(对应严重错误暴露冲突情况),验证了否定条件是可能的——这正是论文希望展示的边界情况。
  • 意图:这个例子表明在实际常见网络尺度下,错误暴露映射仍可产生不错的结果;但本文不主张在所有情况下自动有效,而是给出了所有条情况,并以此说明当条件确被违背时实验者会看到坏的结果。

🔎 结论是否比证明窄

  • 是的,存在一个泛化声明风险。论文在 Section 1 开头声称“这一分离框架在实践上可行”,而主定理1和2都是在有限总体+随机化设计+有界冲突+稀疏依赖图下证明的。如果依赖图的度数随 \(N\) 增长(增长网络),或暴露冲突数量随 \(N\) 增加,则作者的main theorem的收敛率会退化甚至失效。作者在文末(Section 6 “Limitations”)也坦白承认了这一点:当依赖范围增长时,框架会退化。所以,主要结论的证明比文前声称窄

四、开放问题(点到为止,扎根具体语句)

  1. 推断问题(方差估计与置信区间) :论文只证明了均方收敛,未提供一致的方差估计或渐近正态性。“First, the paper only establishes consistency, leaving the question of inference open.”(Section 6, 第一句话)。——这是最显然的开放问题:当暴露映射错误时,能否构造出有效的置信区间(可能需调整方差的 bias 项)?

  2. 同时满足识别与效率:论文的相合性不需要牺牲任何效率吗?Section 2 的 Remark 提到:“the variance can be inflated because the misspecification introduces additional randomness relative to the case when one uses the true exposure mapping.”——这意味着存在偏差-方差权衡,但尚未给出明确的 minimax 或方差最优性结论。

  3. 暴露映射选择的实践指南:当实验者面对多个候选的错误暴露映射时,哪个会在分离框架下产生最小误差?论文 Section 5 的例子只能指导一方,实际论文中没有给出严格的选择标准(如基于信息准则的模型选择)。这是留白。

  4. 弱依赖图下的扩展:主定理由“有界度依赖图”驱动。若图度数无限增长(如小世界网络),并且当 \(N \to \infty\) 时,条件是否自动失效、还是需修正?论文末尾明确:“Removing the boundedness assumption is an open challenge.”


Maintained by 陈星宇 · Homepage · Source on GitHub

评论