Partial identification and unmeasured confounding with multiple treatments and multiple outcomes - Discussant : Carlos Cinelli (University of Washington)¶
讲者: Joseph Antonelli
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-09-30
主题: 因果推断
视频: https://youtu.be/5mAK4ivGBdU · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 2311.12252 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
这场报告属于因果推断中利用多变量结构进行部分识别 (partial identification) 这一子方向。
这个大方向追问的问题是: 当标准要求“无未测混杂 (no unobserved confounding)”这一前提无法得到保障时,研究者能否依靠对未测混杂的结构性假设(而非要求其不存在),来对因果效应做出有信息量的推断?核心在于用“部分识别区间 (partial identification region)”代替点估计,区间宽度反映了我们对未测混杂的容忍度。
奠基与主流路线: 经典的工作包括 Manski (1990) 的非参数边界 (worst-case bounds)、Rosenbaum & Rubin (1980) 的敏感性分析体系,以及更近的基于“影响函数 (influence function)”和“释然比 (e-value)”的框架(Ding & VanderWeele, 2016; VanderWeele & Ding, 2017)。Cinelli & Hazlett (2020) 的敏感性分析框架(基于偏R²和形式化基准)是当前被广泛使用的工具,讨论者 Carlos Cinelli 本人正是此框架的代表人物。
当前Frontier与站位: 近年来的前沿工作试图利用多处理 / 多结果的数据结构来约束“结局-处理”之间的未测混杂关系。两条主要子路线是:
- 仅利用多结果:如 Zheng et al. (2023, JASA),通过因子模型捕捉结果之间的协方差结构来识别未测混杂对结局的影响强度。
- 仅利用多处理:如 Zheng et al. (2022, AISTATS),通过类似思路捕捉处理之间的协方差结构来识别未测混杂对处理的影响强度。
- 本报告的创新点:同时利用多处理和多结果(见参考文献[Zheng et al., 2022, 2023]的合并),联合识别偏倚的两个组成部分(即 aᵞΓ 的范数和 Σ^{-1/2} μ 的范数),从而在无外部敏感性参数的情况下得到初始边界。在此基础上,此工作还系统地引入了负对照 (negative controls) 与效应大小约束 (effect size constraints) 等额外信息,通过约束“旋转矩阵 (rotation matrix)” R 来进一步收窄识别区间。这项工作最初应用于空气质量混合暴露的因果效应(Kang、Franks、Audirac、Braun、Antonelli)。
二、最小内核 / 一个最简例子¶
为了让核心思想更可读,我们构造以下最简场景:
- 目标问题: 考察单一污染物(PM2.5 中的元素碳)对单一健康结局(心肌梗死住院率)的因果效应,但担心存在未测量的社会经济混淆因素 U。
- 关键假设: 我们有两个相关结局 Y₁(心肌梗死住院率)和 Y₂(住院总天数),两个相关处理 T₁(元素碳)和 T₂(铵盐)。假设未测混杂因素只有一个,即 m=1,且结构满足因子模型的简单线性形式。
- 可观测数据: (Y, T) 为上述 2×2 向量。
- 符号系统:
- k = q = 2(处理/结果均为 2 维),m = 1(一个未测混杂)。
- T = (T₁, T₂),Y = (Y₁, Y₂)。
- U 是标量(一个未测混杂,归一化)。
- 假设数据生成:
- U ∼ N(0, 1) (独立)
- T = B·U + εₜ, 其中 B = (b₁, b₂)ᵞ 是 2×1,εₜ 是独立同分布噪声。
- Y = g(T) + Γ·U + εᵧ, 其中 Γ = (γ₁, γ₂)ᵞ 是 2×1,εᵧ 是独立噪声。 g(T) 是处理对结果的结构函数(可任意,但这里我们关注差分效应时的核心是 g(T) 部分)。
- Estimand: 例如 T₁ 从低到高增加的因果效应:E[Y₁(t₁=high) - Y₁(t₁=low)] = g₁(high) - g₁(low)。这个量无法直接识别,因为我们只观测到存在 U 影响下的聚合数据。
- 核心思想: 由于未测混杂 U 同时影响 T 和 Y,我们观测到的回归系数存在偏差。偏差可以写为:Bias = aᵞΓ · Σ^{-1/2} μ,其中 a = (1,0)ᵞ(只取第一个结果),μ = E(U|T=t₁) - E(U|T=t₂)(混杂在两种处理水平下的差异),Σ = Var(U | T)。
- 关键识别:
- 在多结果 (q≥2) 下,可以从 Y 的协方差估计出 ||aᵞΓ||(混杂对结果影响的强度)。
- 在多处理 (k≥2) 下,可以从 T 的协方差估计出 ||Σ^{-1/2} μ||(混杂对处理影响的强度)。
- 识别区间的形成: 偏差再写成:Bias = ||aᵞΓ|| · ||Σ^{-1/2} μ|| · cos(θ) ,其中 θ 是 aᵞΓ 与 Σ^{-1/2} μ 之间的夹角。 cos(θ) 完全未知,因此偏差的绝对值被限制在区间 [ - ||aᵞΓ|| · ||Σ^{-1/2} μ|| , + ||aᵞΓ|| · ||Σ^{-1/2} μ|| ]。 于是因果效应 g₁(high)-g₁(low) 的识别区间为:观测到的条件期望之差 ± 这个偏差上限。
- 引入负对照如何改进? 假设我们知道 T₂ 对 Y₁ 的因果效应为零(例如因为 T₂ 是某个过去年份的污染物,causally impossible)。这个“零效应”约束为我们提供了一个关于 R 方程的约束,从而限制了 cos(θ) 的可能范围,区间显著收窄。
三、报告主体:讲者讲了什么¶
[0:02 - 0:06] 动机与应用背景 * 讲者从空气污染健康效应研究的实际需求出发。环境科学中“多污染物分析 (multi-pollutant analyses)”很重要但复杂。 * 点出了该场景下的两个实际难点(但不深入讨论):(a) 如何定义有意义的暴露偏移(Shift in exposure),(b) 严重的策略违反(positivity violations)。 讲者呼吁关注 Rudolph et al. (2025) 关于 multixexposure positivity 的近期工作。 * 核心引子:大多数研究假设“无未测混杂”,这在环境流行病学中非常强。
[0:06 - 0:10] 核心问题与输出 * 目标是:在多处理、多结局下,不依赖于无未测混杂假设,而是对因果效应进行部分识别(通篇用“部分识别”或“边界”两者的同义词)。 * 贡献:(a) 推导出在未测混杂下的边界,(b) 发展解析和数值工具来求取这些边界,(c) 展示如何利用额外假设(如负对照)来获取信息量更强的边界。
[0:10 - 0:14] 符号、Estimand 与标准假设 * 符号:Y (q维结果向量), T (k维暴露向量), X (可观测协变量)。 * Estimand: PATE_{a, t1, t2} = E[aᵞY(t₁) - aᵞY(t₂)]。这里 a 通常是选择单个结果的0-1向量。 * 标准假设:SUTVA, Positivity, 以及假设 Y(t) ⟂⟂ T | X。在这些假设下,E[aᵞY(t)] 可以由 Eₓ[E(aᵞY | X, T=t)] 识别。 * 引入未测混杂 U 后:假设 Y(t) ⟂⟂ T | X, U。因果效应不再可能点识别。
[0:14 - 0:18] 偏差公式与数据生成模型 * 假设线性因子模型 (Linear Gaussian Factor Model): * U = ε_u (ε_u 独立) * T = h(X) + B·U + ε_t (此阶段假定 B 表示 U→T 的系数矩阵;讲者之后对 X 的处理是:所有结果都条件于 X 成立,但为简化符号,先省略 X) * Y = g(T, X) + Γ· Σ^{-1/2}{u|t} ·U + ε_y (这里 Γ 为 U→Y 的系数矩阵;Σ{u|t} = Var(U | T,X) 是归一化矩阵。此时假设 X 已处理完毕,进一步简化,考虑无 X 版本) * 在此模型下,目标是估计 g(T) 部分,但由于 U 未观测,只能得到偏差版本。偏差公式 → Bias = aᵞΓ · Σ^{-1/2}{u|t} · μ{u|Δt},其中 μ_{u|Δt} = E(U|T=t₁) - E(U|T=t₂)。按讲者定义:aᵞΓ 与 Σ^{-1/2} μ 分别捕捉了未测混杂对结局和对处理的关联强度。
[0:18 - 0:22] 因子混淆假设 (Factor Confounding Assumption) 与初步边界 * 关键假设:存在 m 个未测混杂因子 U,且每个混杂因子至少与 3 个结局相关联(条件 C2),且至少与 3 个暴露相关联(条件 C4)。同时,结果数 q 与暴露数 k 必须显著大于 m(例如 (q-m)² ≥ q+m,条件 C1/C3)。这些条件来自经典的因子分析识别性理论(Anderson & Rubin, 1956)。 * 在上述条件下,Γ 和 B 都能被识别,但仅至右旋转 (identifiable up to right rotation),即我们只能得到 Γ_hat = Γ·R 以及 B_hat = B·R',其中 R 是未知正交矩阵。 * 重要的是,某些函数是旋转不变的:如 ||aᵞΓ||_2 和 ||Σ^{-1/2} μ||_2。因此,这两个范数是可以从数据中估计出来的参数! * 于是,偏差可以写成:Bias = ||aᵞΓ||_2 · ||Σ^{-1/2} μ||_2 · cos(θ),其中 θ 是 aᵞΓ 与 Σ^{-1/2} μ 之间的夹角。cos(θ) 完全未知但范围在 [-1,1]。 * 因此,因果效应 = E[aᵞY(t₁)] - E[aᵞY(t₂)] 的一个部分识别区间是:观测到的条件期望差 ± ||aᵞΓ||_2 · ||Σ^{-1/2} μ||_2。 * 这就是不依赖任何敏感度参数的核心结果:仅凭因子混淆假设,研究者能自动生成一个以数据驱动的边界(无需人为设定 R² 等参数)。
[0:22 - 0:24] 实证初步结果 * 讲者应用上述方法到 Medicare 队列(暴露:PM2.5 组分,如有机碳/硝酸盐;结局:多种疾病住院率)。 * 结果:区间非常宽。 例如硝酸盐的影响区间包含了(-2, +2) 甚至更宽,这种区间对于实际决策几乎毫无价值(因为效应值不可能如此大)。 * 结论:仅用因子混淆假设往往不足以产生有信息量的结论,必须寻找额外信息来进一步收紧。
[0:24 - 0:30] 如何做得更好:旋转矩阵 R 与额外信息的来源 * 讲者重新参数化:虽然我们只能得到 Γ_hat = Γ·R (R 正交), 因为可观测量只有 Γ·Γᵞ。但 Bias 公式可以重新表达为只含有一个未知正交矩阵 R 的形式(经过一些运算后,可将 B 也被一并吸收进一个单一正交矩阵)。 * 现在,问题的核心变为:如何约束 R 的空间? * 讲者主要展示了一种方法:负控制对 (negative control pairs)。 * 定义:一个对比(暴露水平 t^{NC} 对 t^{NC} 的差)的因果效应已知为零(例如因 temporality 或生物机理不可能)。在此研究中,讲者把前一年的 COPD 住院率作为此类负控制结局(先于暴露发生)。 * 为什么负控制有帮助? 由于真正的因果效果为零,任何观测到的差异完全等同于偏倚。而偏倚 = function(aᵞΓ, μ, R)。现在这个偏倚是已知的(从数据估算得出),这为 R 施加了强等式约束。
[0:30 - 0:33] 解析边界公式与直觉 * 讲者展示了在单负控制下的部分识别区间的解析解(幻灯片 Sl. 22 的复杂公式,记号以讲者定义为准)。 * 重点在直觉:一个好的负控制应满足: (a) 它自身有大的偏倚(即:它的治疗暴露设置也与 U 有强关联); (b) 与目标结局在混杂机制上相似,即 aᵞΓ 和 bᵞΓ(负控制的相似系数)的夹角较小(绝对值大)。 (c) 与目标暴露在混杂机制上相似,即 μ 在目标暴露与负控制暴露之间的结构相似。 * 某些条件下,负控制可以完全消除不确定性(点识别),尽管他承认实际中少见。
[0:33 - 0:36] 数值方法与更复杂的部分识别区域 * 解析方法的缺陷:(a) 有时保守,(b) 无法处理复杂(如不连通)的识别区域。 * 讲者开发了基于优化 (numerical optimization) 的数值方法: * 将问题转化为:枚举可能的偏倚 b,然后求解一个关于旋转矩阵 R 的优化问题。 * 目标函数是两个约束的平方和:(i) 给定偏倚 b 是否可由某个 R 实现?(ii) 观测到的负控制偏倚是否也可由这个 R 实现? * 如果目标函数能趋近于 0,则该偏倚 b 在部分识别区域内。 * 用一个模拟例子展示:数值方法能揭示出“非连通、对称”的识别区域(如偏倚可能在 ±一个点附近,但不会在中间),而解析方法则会给出一个对称区间,从而扭曲了真实的信息。
[0:36 - 0:40] 其他可融入的假设 * 干预效果大小约束 (Effect size constraints): 根据领域知识,假设某些效应大小在合理范围 (l, u)。 * R² 假设:类似于标准敏感性分析,对未测混杂U与处理/结果间的偏 R² 设定上限。但在因子混淆框架下,因子模型已经提供了这些 R² 的上界(但很保守),用户可在此基础上收紧。
[0:39 - 0:48] 回到实际应用:负控制的威力 * 应用负控制(前一年 COPD 住院):硝酸盐的区间仍然很大。但有机碳在 COPD 和卒中上的区间全部大于零!这意味着:在因子混淆假设 + 一个合理的负控制下,有机碳对呼吸疾病和脑血管疾病有稳健的因果效应。 * 多变量洞察:通过联合分析两个效应(如有机碳对贫血 vs 对哮喘),可以导出更细微的结论。例如,有机碳对贫血的影响要为零,则要求它对哮喘有保护作用(生物上不太可能),从而加强了效应存在的证据。
[0:48 - 1:03] 讨论(Carlos Cinelli 作为讨论者)与 Q&A * 第一类问题:模型假设的敏感性与检验 (Carlos 提问) * 讲了高斯/对角/秩条件假设的关键性。讲者回应:(a) 高斯性可能不是致命的,关键在于处理给定U的条件均值是否线性(这在LPM 中近似),并指出更近的Wu & Franks (2025)在空间混淆中似乎展示了稳健性。 * (b) 对角性是较强的(残差独立),但它默认所有关联是通过U驱动的,这偏向保守;秩条件(3个关联)不可降级,否则因子结构无法识别。可以尝试统计上检验一些模型隐含假设(如同方差、协方差结构)。 * (c) 负控制过多时可能没有R能满足所有约束,此时算法会返回空集——这既可解释为模型误设,也可解释为负控制假设错误。 * 第二类问题:效应翻转的机理 (Carlos 提问) * 针对实践中的结果:不控制U时,OC 对 COPD 是保护的;加入假设后,效应变为正向且非零。 * 讲者推测:因为多种污染物高度相关,传统回归可能遭受“偏倚放大 (bias amplification)”,在多变量暴露中常见。因子模型的假设似乎纠正了这一方向性偏差(环境科学者普遍认为PM对健康是负向的)。
四、对应论文与开放问题¶
(a) 对应论文
这场报告完全对应于同一题为 “Partial Identification and Unmeasured Confounding with Multiple Exposures and Multiple Outcomes” 的 arXiv 论文,标识码:2311.12252(2013年11月首次提交)。合作者:Suyeon Kang, Alexander Franks, Michelle Audirac, Danielle Braun, Joseph Antonelli。审稿者应对比该 ArXiv 版本,并特别关注引用的多结果/多处理因子分析理论(Zheng et al., 2022/2023),以及关于数值优化算法和负控制识别公式的细节。
(b) 开放问题(每条标注转写出处)
-
模型稳健性的理论刻画(转写 [1:03 - 1:05] 讲者对 Carlos 的回应):报告显示秩条件不可降级,但高斯性与对角性可能有空间。一个开放问题是:能否给出一个简洁的放松假设下的偏差最大界?例如,如果因子是相关的(非对角协方差),现有方法给出的界是否会失效?如果失效,如何有界放宽?这直接决定了这个方法在部分非线性或存在额外残差相关的数据上的适用性。
-
因子个数 m 的检测与检验(转写 [0:19] 条件 C1-C4 / 幻灯片):因子混淆假设依赖于预先知道(或至少上界已知)未测混杂的个数 m。开放问题:是否存在一种数据驱动且具备有限样本保证的方法来估计/上界 m?否则人们可能错误地假设 m 太小(不足 3 个关联)而导致估计失败。
-
负控制的可检验性与模型反驳(转写 [0:31] 讲者回应 + 幻灯片 Sl.26/27):当添加多个负控制时,数值优化可能会输出“空集(null)”。如何统计上区分是因子模型假设被违反,还是负控制假设本身错了?是否可以构建假设检验(例如检验某些矩条件)来诊断?这类似于因果推断中“过度识别检验”在因子模型框架下的新形式。
-
区间估计的不确定性传播(讨论环节[0:44] 听众关于 uncertainty 的提问):当前工作侧重于识别(population-level bounds)。一旦涉及估计(e.g., 用估算的 ||aᵞΓ|| 等 构建区间),其采样不确定性如何传播?报告提到“讲者未讨论估计问题”。因此,下一个自然的开放问题是:如何构建这些部分识别区域的置信区间(或是一套稳健的 inferential 程序)?
-
在“计算受限统计”视角下的应用(可以关联研究者的另一兴趣):此方法的核心困难在于寻找 R 的可容许空间——这个问题在矩阵优化上是非凸的。在观测到大量处理且 m 不小的情况下,这可能在计算上变得昂贵(exponential in m)。是否存在一个多项式时间的算法来可靠地(而不是精确地)画出部分识别区域?这直接联系到统计-计算权衡(低次多项式障碍 / 计算困难的分类问题)的兴趣。
Maintained by 陈星宇 · Homepage · Source on GitHub