The Deconfounder: What is it? What is its theory? Is it useful?¶

讲者: David Blei
讨论人: Guido Im bens
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-10-27
主题: 因果推断
视频: https://www.youtube.com/watch?v=8Ph7Dn7yBws · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2003.04948 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

这场报告围绕 Wang and Blei (2019) 提出的 Deconfounder 算法 展开。该工作线处于 多处理 / 多原因因果推断（multiple causal inference） 的子方向，其核心追问是：当存在多个同时被分配的处理（A₁,…,Aₘ），且无因果箭头穿过这些处理之间时，能否利用处理之间的观测依赖结构**（observed dependency structure）来提取未观测的多原因混杂信息（multi-cause confounders），从而部分或完全消除混杂偏差？

奠基与主流路线：当存在单一未观测混杂 U 时，标准识别策略需要额外的结构假设 (见 Guido Imbens 讨论，[0:48:00])。已知方法包括： - 工具变量（IV）：假设存在一个外生变量 Z，它通过 A 影响 Y，且与 U 独立。 - 双重差分（DiD）：利用时间维度的平行趋势假设控制时不变未观测混杂。 - 负对照（Negative Controls）：如 Tchetgen 等，利用负暴露或负结局来间接估计 U 的数量和结构。 - 控制函数（Control Function）：在结构方程中假设方程关于 U 单调且可逆，从而从 IV 估计 U。

当前 frontier 中，Proximal Causal Inference 框架（Tchetgen Tchetgen 等，2020 前后）也使用两类代理变量（proxies）来替代未观测混杂，但要求代理变量满足特定的条件独立性图结构。Deconfounder 的不同之处在于：它直接假设单个多原因分隔器（multi-cause separator）U 存在，且该 U 由处理变量本身确定性地标识——即所谓“可精确指代”（pinpointability）假设。这等价于认为：处理之间的全部共变性（covariation）背后有一个唯一的最小子代数（smallest sigma-algebra），且该子代数正是控制混杂所需的所有信息（加上观测到的单原因混杂 X₁）。

这场报告站在哪里：讲者 David Blei 在 2020 年这场 OCIS 讲座中，不是去庆祝该方法的通用性，而是坦白地拆解该工作线的两个核心假设的强含义（见幻灯片及报告），尤其指出： - 假设 1（无未观测单原因混杂、多原因分隔器 U 存在且满足弱无混杂）是一个几乎不可验证的图结构假设； - 假设 2（替代混杂 Z 是处理 A 的确定性函数）迫使 m → ∞, n → ∞ 才能趋于满足，且在实际中几乎只能通过因子模型近似。 - 即使在假设成立时，分离器也包含非混杂部分 U₂（仅增加方差），导致“没有免费午餐”。

因此，这场报告本质上是澄清而非推销——它试图说清楚在什么条件下该算法能提供多少好处，而不是宣称它解决了未观测混杂问题。它与先驱工作（如 GWAS 中的因子调整回归、计量经济学中的factor-adjusted regression）共享“用因子模型捕获未观测混杂”的精神，但第一次将这个直觉表述为形式化的因果识别条件。

点名关键工作（听准来源：幻灯片、转写、Guido 讨论）： - Wang and Blei (2019)：提出原始 Deconfounder 算法。 - Wang and Blei (2020), arXiv:2003.04948（这场报告的核心材料）：澄清理论，回应 Imai & Jiang 和 Ogburn et al. 的批评。 - Imai and Jiang (JSM 2019 presentation)：提出了“无未观测单原因混杂”假设的正式表述；还讨论放松 pinpointability 的可能性。 - Ogburn et al. (2020)：提出反例，但报告声称这些反例不满足所需假设（可能指那些反例中有单原因混杂或模型设定不满足 $m\to\infty$）。 - Grimmer, Knox, Stewart (2020)：分析电影数据，指出在 pinpointability 下 OLS（当 m 大时）也能给出因果推断——因为 A 和 f(A) 同时被条件化 [0:43:00]。

注意：报告中没有提及 Proximal Causal Inference 这个同名术语（虽出自同一时期），但 Guido 的讨论 [0:48:00] 将 Deconfounder 和 IV/控制函数放在同一语境，从而间接链接到 Proximal 框架（后者也使用代理变量替代 U）。两者关键差异：Proximal 不要求سپارator 是唯一确定函数，而是要求两组不同代理变量分别与 U 的某种条件独立性。

二、最小内核 / 一个最简例子¶

符号与模型

符号	含义
$i=1,\dots,n$	数据点（个体）
$j=1,\dots,m$	原因（处理、治疗）索引
$A_{ij}$	数据点 i 的第 j 个原因取值。记 $\mathbf{A}_i = (A_{i1},\dots,A_{im})^\top$
$Y_i$	观测结果
$Y_i(a)$	如果将 $\mathbf{A}_i$ 设为 $a$ 时的潜在结果（只有 $A_i$ 对应实际分配的那一个可观测）
$\mathbf{X}_i$	观测协变量（可含单原因和多原因成分）
$U_i$	未观测的多原因分隔器（multi-cause separator）
$Z_i$	从因子模型学习到的“替代混杂”

数据生成的最简假设 (用于理解核心思想，而非真实可验证)

多原因：$m\ge 2$，且无因果箭头从 $A_j$ 指向 $A_k$（即排除了一个处理直接影响另一个处理）。
无未观测单原因混杂：存在一个随机变量 $U$（可能是高维的），使得
(a) 多原因分隔器：$P(A_1,\dots,A_m\mid U) = \prod_{j=1}^m P(A_j\mid U)$，且每个 $P(A_j\mid U)$ 不是点质量。
(b) 弱无混杂：$ {Y(a)}_{a\in\mathcal A} \perp!!!\perp (A_1,\dots,A_m) \mid (U, \mathbf X)$。
替代混杂的可精确指定性：任何多原因分隔器 $Z$ 都是 $\mathbf A$ 的一个确定性函数，即 $P(Z \mid \mathbf A) = \delta_{f(\mathbf A)}$。也就是说，$Z = f(\mathbf A)$ 几乎必然。

最简特例：$m=2$, 二值原因 $A_1, A_2 \in \{0,1\}$, 无观测协变量 $\mathbf X = \emptyset$, 一个未观测的二值混杂 $U\in\{0,1\}$ 同时影响 $A_1, A_2$ 和 $Y$。

U	P(A₁=1\|U)	P(A₂=1\|U)	P(Y\|U, A₁, A₂) 结构
0	0.1	0.1	$Y = \beta_1 A_1 + \beta_2 A_2 + \gamma U + \varepsilon$
1	0.9	0.9	同上，$\gamma\neq0$

这时： - $U$ 是有效混杂（$U\rightarrow A_1, U\rightarrow A_2, U\rightarrow Y$），且没有 $U$ 单独影响一个原因，所以它满足“无未观测单原因混杂”。 - 给定 $U$ 后，$A_1 \perp\!\!\!\perp A_2$ 但观测边际上它们正相关（因为 $U$ 使它们同时为 1 或 0）。这就是依赖结构中的“混杂信息”。 - 若 $m$ 很小（如$m=2$），则 $Z$ 不能确定性地由 $(A_1,A_2)$ 精确指代：因为 $(A_1,A_2)$ 只有 4 种取值组合，而 $U$ 只有 2 种。你需要重复观测（$n\to\infty$）更多配置来唯一确定映射。但当 $m$ 很大时（如基因数据中 m=10⁶，对应 GWAS），组合增长很快，$U$ 可以由 $A$ 的“模式”唯一确定。

核心思想的一看就懂总结：如果所有原因背后的共享（共因）结构都可以从原因变量的观测关联模式中提取出来，那么用一个好的因子模型学到的 $Z$，就是那个可以用来替换未观测混杂 $U$ 的变量。一旦条件化于 $Z$（以及已观测的 $X₁$），原因就变得“近似随机”，从而可以实现类似条件随机化的因果推断。

三、报告主体：讲者讲了什么¶

[0:00:04–0:01:35] 简介与演讲结构¶

讲者：David M. Blei, Columbia（计算机科学与统计系）。
问题：什么是 Deconfounder？它的理论是什么？它有用吗？
数据设定：有多个原因 $A_1,…,A_m$，结果 $Y$；原因之间无因果箭头；对结果的兴趣是寻找每个原因的因果效应。

[0:01:50–0:04:30] 算法步骤与直觉¶

步骤：
仅用原因变量 $\mathbf{A}$ 拟合一个“好的”概率因子模型（factor model）【不看到结果】。
从模型中获得潜变量 $Z_i$，它使 $\mathbf{A}_i$ 条件独立化——$P(\mathbf{A}\mid Z) = \prod_j P(A_j\mid Z)$。
用 $Z$ 和观察到的 $X$ 做因果推断（例如在回归中加入 $Z$，或用调整公式估计 $E[Y\mid do(a_k)]$）。
直觉：原因之间的依赖结构“隐含”了多原因混杂信息。一个好的因子模型（如混合模型、PCA、主题模型）会学到最简明的 $Z$ 结构，它正是那个混杂。

[0:04:30–0:06:00] 概率因子模型的微结构¶

因子模型有两个潜变量组件：每个数据点的 $z_i$（低维表示）和每个原因的 $\beta_j$（原因特有参数）。
模型林立：mixture models, probabilistic PCA, NMF, topic models, deep generative models 等都符合。

[0:06:00–0:08:30] “好”的因子模型¶

“好”是指模型能捕获 $\mathbf{A}$ 的真实分布：$P(\mathbf{A}) = \int P(z)\prod_{j=1}^m P(A_j\mid z,\beta_j) dz$。
注意 $z$ 使得 $A_j$ 条件独立——这正是因子模型自动具备的性质。
未观察到 $Y$ 避免了 $Y$-leakage 问题。

[0:08:30–0:09:30] 四个可能失败的地方¶

因子模型不能完美捕获 $P(\mathbf A)$（Box：所有模型都错）；
推断 $Z$ 时的估计不确定性；
存在未观测的单原因混杂（$X_1$ 不可观测）；
Deconfounder 本身的估计性质差。

[0:10:00–0:14:50] 核心理论：定义与假设¶

定义：多原因分隔器（Multi-cause Separator）：满足 $P(A_1,\dots,A_m\mid U) = \prod_j P(A_j\mid U)$ 而且这些条件分布中没有点质量的最小 $\sigma$-代数（或等价地，最小随机变量 $U$）。核心约束：$U$ 没有单原因成分。
代数证明（约 [0:10:30–0:11:30]）：若 $U$ 包含一个只与 $A_1$ 相关的成分 $U_s$，则 $U$ 不是“最小的”——因为去掉 $U_s$ 后，$U_*$ 仍然使 $A$ 独立，所以 $U$ 不是最简。这严谨地定义了“多原因”限制。

[0:12:00–0:14:50] 假设 1：无未观测单原因混杂（Imai & Jiang）¶

存在一个多原因分隔器 $U$ 和观测协变量 $X$ 满足：
$U$ 是多原因分隔器；
弱无混杂：$(A_1,…,A_m) \perp\!\!\!\perp \{Y(a)\}_{a} \mid (U,X)$。
图示例：$U = (U_1, U_2)$，$X = (X_1, X_2)$。$U_1$ 和 $X_2$ 是多原因混杂，$X_1$ 是单原因混杂。
关键：$U_2$ 是分隔器一部分但不混杂（仅增加条件方差）；$U_1$ 同时为分隔器和混杂。
这意味着：必须观测到 $X_1$（所有单原因混杂）；而 $U$（多原因部分）可缺失，因为它可通过因子模型提取。

[0:14:50–0:16:30] 假设 2：替代混杂的确定性函数（Pinpointability）¶

任何多原因分隔器 $Z$ 都被 $A$ 的某个确定性函数 $f(A)$ 唯一确定：$P(Z\mid A) = \delta_{f(A)}$。
换言之，$Z$ 不是不可观测的；它在逻辑上完全可由 $A$ 计算得到（哪怕先不知道 $f$ 的形式）。
这是极强的假设。它等于说“所有多原因混杂信息都包含在一个函数 $f(A)$ 中，且剥离了单原因部分”。

[0:16:30–0:18:00] 定理与它所不是的¶

定理：若假设 1 和假设 2 成立，则从数据中获得的 $Z$（由 $f(A)$ 得到）满足弱无混杂：$(A_1,…,A_m) \perp\!\!\!\perp Y(a) \mid (Z, X)$。
证明：在扩展概率空间（含潜在结果）中，$P(Z\mid A, \{Y(a)\}, X) = \delta_{f(A)}$ 依然成立。因此 $Z$ 在所有相关分布下是同一个变量，所以如果 $U$ 满足弱无混杂，$Z$ 也满足。
讲者明确说“这不是地震性的”（not earth-shattering）——它只是形式化了前提条件。

[0:18:00–0:21:00] 算法如何操作理论¶

因子模型一经拟合，给出 $Z$ 的推断。当 $m$ 大时，$Z$ 的推断接近确定性函数——这实现了假设 2。
如果因子模型是唯一的且好，$Z$ 就是假设中的 $U$。

[0:22:00–0:27:00] 实用性讨论（Is the deconfounder useful?）¶

假设 vs. 实用：算法假设成功（因子模型完美捕获 $U$），然后声明成功——但这并不实用。
实际情况：多原因混杂信息的确嵌在因子的依赖结构中，所以因子模型至少能捕捉一些多原因混杂成分。
不能解决的问题：单原因混杂仍完全不可处理（除非观测到 $X_1$）；并且，分隔器 $U$ 中的非混杂成分 $U_2$ 引入噪声——条件化于它增加方差，不条件化则违背分隔器条件。

[0:28:00–0:34:00] 开放问题与总结¶

开放问题 1：当 $Z$ 不确定（non-pinpointable）时，如何把估计 $Z$ 的不确定性传播到下游因果推断？ [0:38:49]
开放问题 2：在因子模型中，能否只提取 $Z$ 的混杂部分（即 $U_1$），而分离掉纯噪音部分 $U_2$，以减少方差？ [0:44:12]
建议：实践中：
务先后条件化于已知混杂（无论单原因还是多原因）；
多塞入因子模型，反向聪明：多个 $Z$ 可联合使用（即使相互冗余）；
做一个好的模型检查，但牢记“所有模型都是错的”。

[0:34:00–0:45:00] 讨论环节（Guido Imbens）¶

Guido 将 Deconfounder 置于 IV、控制函数、负对照的 broader 语境中，指出：
它本质上是利用多原因结构作为额外的识别信息；
与经典控制函数的区别在于：不依赖特定单调性或可逆性，而依赖“$U$ 是唯一最小分隔器”；
一个经济学例子（供给-需求模型）说明何时它能工作（两个商品的需求冲击完全相关）以及何时失败（两个商品的供给冲击完全相关—因为那时 $U$ 是单原因相关的）；
他总结为“这是控制未观测混杂的一个有用添加，但绝不是万能药”。

四、对应论文与开放问题¶

对应论文 - Wang & Blei (2019)：“The Blessings of Multiple Causes”, Journal of the American Statistical Association, 114(528), 1574–1596（原始 Deconfounder 论文）。 - Wang & Blei (2020)：“Towards Clarifying the Theory of the Deconfounder”, arXiv:2003.04948（这场报告主要跟随的澄清论文；标题与摘要完全吻合）。 - Imai & Jiang (2019)：“Discussion of ‘The Blessings of Multiple Causes’”, 发表于 JSM 2019，正式提出了“无未观测单原因混杂”假设的准确表述。 - Ogburn et al. (2020)：“Counterexamples to the Blessings of Multiple Causes”——报告称其提出的反例不满足必要的假设（字幕可能有误，建议核对 Ogburn 原文）。 - Grimmer, Knox, Stewart (2020)：“Budget and Actor Effects on Movie Revenue: Re-analysis of Wang and Blei (2019)”——指出在 pinpointability 下简单 OLS 即可产生因果估计。

开放问题（每条扎根于转写/幻灯片中的具体语句）

非精确指代下的不确定性传播
出处：[0:38:49], [0:43:38], 幻灯片 bullet “What if the substitute confounder is not pinpointed?”
描述：当 $P(Z\mid A)$ 不是点质量（即不能唯一确定分隔器）时，因子模型推断 $Z$ 的不确定性既包含估计误差也包含部分识别性（lack of identification）。当前没有已知方法将这种不确定性分解并可靠地传播到下游因果估计中。
如何提取混杂部分 $U_1$ 而非全部分隔器 $U$
出处：[0:44:12], 幻灯片 “Notice that $U_1$ and $U_2$ are both part of the separator … conditioning on $U_2$ only adds variance … Can we fit a factor model and then try to extract the confounding part of $Z$?”
描述：$U$ 的非混杂成分 $U_2$ 除了增加下游估计的方差，没有任何好处。如果能设计一种方法从 $Z$ 中分离出 $U_1$（与 $Y$ 相关的部分），则可减少方差。讲者自行称这“可能太牵强”。
$X_2$（观测的多原因混杂）与分隔器的冗余与互补
出处：问答环节 [0:19:30–0:21:10]：“if you fit a factor model alone … the $Z$ is going to contain the multi-cause confounders that you’ve also observed … but no it wouldn’t matter it would just mean you are conditioning on $X_2$ anyway.”
描述：若观测到的多原因混杂 $X_2$ 实际上也是分隔器的一部分，则条件是冗余的——但也可能 $X_2$ 包含单原因成分，这时只靠因子模型提取 $Z$ 会丢失该成分，必须直接条件化于 $X_2$。实践中如何判断一个观测到的多原因变量是否需要独立加入调整集（而不依赖因子模型）？这是一个待操作的诊断性开放问题。

Maintained by 陈星宇 · Homepage · Source on GitHub

符号	含义
\(i=1,\dots,n\)	数据点（个体）
\(j=1,\dots,m\)	原因（处理、治疗）索引
\(A_{ij}\)	数据点 i 的第 j 个原因取值。记 \(\mathbf{A}_i = (A_{i1},\dots,A_{im})^\top\)
\(Y_i\)	观测结果
\(Y_i(a)\)	如果将 \(\mathbf{A}_i\) 设为 \(a\) 时的潜在结果（只有 \(A_i\) 对应实际分配的那一个可观测）
\(\mathbf{X}_i\)	观测协变量（可含单原因和多原因成分）
\(U_i\)	未观测的多原因分隔器（multi-cause separator）
\(Z_i\)	从因子模型学习到的“替代混杂”

U	P(A₁=1\|U)	P(A₂=1\|U)	P(Y\|U, A₁, A₂) 结构
0	0.1	0.1	\(Y = \beta_1 A_1 + \beta_2 A_2 + \gamma U + \varepsilon\)
1	0.9	0.9	同上，\(\gamma\neq0\)