跳转至

Being Realistic About Unmeasured Biases in Observational Studies

讲者: Paul Rosenbaum
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-20
主题: 因果推断
视频: https://youtu.be/S27_5l7leZI?si=v9h0NAKpo39EMMy2

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这场报告属于观察性研究的敏感性分析这一领域。该领域的核心追问是:当不可忽视的未测量混杂(unmeasured confounding)存在时,一个观察性研究所报告的因果结论到底有多可信?如果存在某种强度为 Γ 的未测量偏倚,它是否足以完全推翻观测到的关联(即把关联解释为偏倚而非因果)?

奠基与主流路线:敏感性分析可追溯到 Cornfield 等人(1959)对吸烟与肺癌的经典论述,以及 Rosenbaum & Rubin(1983)提出的基于倾向得分的框架。当代主流方法有两类: 1. 基于隐变量模型的参数/半参数敏感性分析(如 VanderWeele & Arah, 2011; Ding & VanderWeele, 2016),常通过 E-value 等标量度量报告结果对未测量混杂的鲁棒性; 2. 基于随机化推断的 Rosenbaum 式敏感性分析,即本报告所采用的框架——用一个单一标量 Γ 来量化未测量偏倚的最大可能强度,然后计算"在给定 Γ 下,能否仍拒绝无效应零假设"的上界 p 值。

当前前沿与本报告的位置:Rosenbaum 的工作(尤其自 2002 年《Observational Studies》一书以来)不断发展该框架,但近年的一项重要进展是 设计灵敏度(design sensitivity, Γ̃)Bahadur 渐近相对效率的理论,这给出了一个"无限样本极限下,敏感性分析能容忍多大 Γ"的解析工具。本报告的核心贡献是:(a) 将设计灵敏度理论从匹配对(1:1)推广到多重对照的块设计(1:J 匹配);(b) 系统比较不同加权秩统计量(Wilcoxon 型 vs. Quade 型 vs. U 统计量衍生型)对设计灵敏度的影响;(c) 演示负对照(negative control) ——报告中使用甲基汞作为已知无因果效应的结果——如何能在不削弱原有结论的情况下,进一步排除那些令普通敏感性分析"担忧"的极端偏倚模式(即那些恰好在 Γ 边界上推翻结论的 θ)。

这场报告站在:Rosenbaum 自己 2025 年的两本书/论文(《Being Realistic About Unmeasured Biases》一书和 JRSSB 2025 的论文)的基础上,将其多年积累的敏感性分析思想整合成一整套"设计+分析"的实用指南,并通过一个极具直觉性的酒精与 HDL 胆固醇案例,向听众展示设计选择(1:J vs. 1:1)和分析选择(不同加权函数)可以将观察性研究的"可容忍偏倚"从 Γ≈3.5 提升到 Γ≈6.0,这是一个巨大的量级差别。

关键参考文献(片段来自转写,需核实): - Rosenbaum (2002/2017/2020). Observational Studies (book). - Rosenbaum (2025). Being Realistic About Unmeasured Biases in Observational Studies (book, with R package ITOS). - Rosenbaum (2025) in Chance: mortality and daily alcohol. - Rosenbaum (2025) in JRSSB: block design with decisive pairs. - 合作者:提到 Campbell & Bitterman (系统变异控制;转写中写为 "Bamin",应为 Bitterman)。


二、最小内核 / 一个最简例子

符号与模型: - 有 I 个块(block),每个块有 J 名受试者(本例 J=4)。每块中恰好 1 人被分至处理(Z=1),其余 J−1 人为对照(Z=0)。 - 每个受试者有潜在结果(potential outcomes):\(R_{ij}(z)\),其中 z=1 为处理、z=0 为对照。观测结果记作 \(r_{ij} = Z_{ij} R_{ij}(1) + (1-Z_{ij}) R_{ij}(0)\)。 - 观测协变量 X(本例:年龄、性别、教育程度)。未测量协变量 U("principal unobserved covariate")定义为给定 X 和全部潜在结果下的处理分配概率:\(\theta_{ij} = \Pr(Z_{ij}=1 \mid X, R(1), R(0))\)。 - 在随机化实验中,块内所有受试者的 \(\theta_{ij}\) 均为 1/J。在观察性研究中,\(\theta_{ij}\) 未知且在块内可能不等。

敏感性参数 Γ:假设在任何块内,任意两名受试者 j 与 k 的分配几率比不超过 Γ 且不小于 1/Γ:
\(1/\Gamma \le \theta_{ij} / \theta_{ik} \le \Gamma\)
Γ=1 意味着块内等概率(无偏倚);Γ>1 允许偏倚存在。

最简特例(J=2, 1:1 匹配对)
报告主要演示 J=4 的块,但最简内核可用 J=2 理解。设块 i 中一对匹配受试者,分配概率比为 \(p_i/(1-p_i)\)。Γ=2 意味着其中一人比另一人最多高 2 倍的几率被分配到处理组。对于 Wilcoxon 符号秩检验(即报告中的"weighted rank statistic"且 φ(w)=1),在 Γ=2 下,若处理效应存在且无偏倚,大样本下的检验水平将趋于 0(即正确拒绝无效应零假设);但若改用 U 统计量型加权(φ(w) 截断小范围),同一 Γ=2 下水平趋于 0 的速度更快,即"设计灵敏度 Γ̃"更大。

核心思想
分析者可以选择研究设计(1:J vs. 1:1)和检验统计量的加权函数(φ(w))。设计灵敏度 \(\tilde{\Gamma}\) 是一个依赖于真实数据生成过程(即"favorable situation":有处理效应、无偏倚)的渐近量:若分析时所用的 Γ < \(\tilde{\Gamma}\),则随着样本量→∞,敏感性分析给出的上界 p 值→0(结论鲁棒);若 Γ > \(\tilde{\Gamma}\),上界 p 值→1(无法区分效应 vs. 偏倚)。不同统计量的 \(\tilde{\Gamma}\) 差异巨大,且块设计优于匹配对设计。


三、报告主体:讲者讲了什么

**[H:MM] 时间标注基于转写文本,具体需回看视频确认。

1. 问题设定与动机 [0:05–0:15]
- 每个观察性研究都存在未测量偏倚,但这不必然致命(如吸烟与肺癌)。
- 未测量偏倚虽未测量,但往往有可检测的后果(如通过负对照结果)。
- 敏感性分析虽谈论未测量的量,但其随机性质完全由可观测数据的分布决定——因此分析者可以通过改变设计/分析来改变敏感性。

2. 实例:酒精与 HDL 胆固醇 [0:15–0:40]
- 使用 NHANES 2013-2016 数据,定义:
- 处理组 D:每日饮用 1-3 杯酒,不狂欢饮酒。
- 三个对照:N(终生几乎不饮)、R(极少饮、无狂欢史)、B(曾狂欢酗酒、现已戒)。
- 匹配后:406 个块,每块 4 人(1D + 1N + 1R + 1B),按年龄+性别+教育程度匹配。
- 直觉:讲者让听众想象这些人的生活方式差异——这些差异就是未测量偏倚。
- 数据特征:D 组 HDL 显著高于其他三组(p ≈ 10⁻¹⁶),但对照三组间无显著差异(p > 0.21)。
- 讲者展示未匹配前的协变量差异(D 组男性更多、略年长、教育更高等)——匹配纠正了这些可观测差异。

3. 未测量偏倚的可见证据 [0:40–0:52]
- 用 NHANES 中其他问题(毒品使用、甲基汞水平、牙科就诊)展示:不同饮酒组的生活方式差异巨大
- 曾尝试大麻:D 组 73% vs. N 组 9%。
- 曾尝试可卡因/海洛因:D 组 29% vs. N 组 4%。
- 甲基汞水平:D 组更高,但甲基汞已知几乎全来自鱼/贝类,非酒精引起——这是负对照结果
- 对比 HDL 与甲基汞的块内差异:两幅图(左:HDL;右:甲基汞)惊人相似——但甲基汞显然不是因果效应,而是偏倚信号。

4. 敏感性分析框架 [0:52–1:06]
- 正式引入 principal unobserved covariate(PUC)θ,定义为给定 X 和全部潜在结果下个体被分配处理的条件概率。
- 若没有未测量混杂,则 θ = 1/J(块内均匀)。
- 敏感性参数 Γ 界定任意两人的 θ 比值:\(1/\Gamma \le \theta_{ij} / \theta_{ik} \le \Gamma\)
- 定义集合 B(Γ) 为所有满足此约束的 θ 矩阵。Γ=1 时只有随机化;Γ 越大集合越包容任意偏倚模式(除非确定性分配)。
- 检验零假设 H₀:无处理效应。因为 θ 未知,最大化零假设下的 p 值 over B(Γ) 得到保守上界 p 值——若该上界仍小于 α,则结果对 Γ 大小的偏倚鲁棒。

5. 不同加权秩统计量对灵敏度的巨大影响 [1:06–1:36]
- 引入加权秩统计量:块内先对结局排秩(1→J),再对每块的全距(range)排秩并用 φ(w) 加权,将加权秩与处理组秩相乘后求和。
- φ 函数形式: - φ(w) ≡ 1 → 块内 Wilcoxon 秩和/符号秩;
- φ(w) = w → Quade 统计量;
- φ(w) = 截断上升函数("U 统计量型")→ U868、U878。
- 关键结论(在酒精数据上):
- Γ=3.5:Wilcoxon 统计量已不能拒绝 H₀(最大 p > 0.05);
- 同一数据同一 Γ 下,U878 仍可拒绝(p < 0.05);
- 文章给出具体数字:
- Qui 在 Γ≈4.5 失效;
- U868 在 Γ≈5.5 失效;
- U878 在 Γ≈6 仍可拒绝。
- 对比:吸烟与肺癌的经典研究对 Γ≈6 已很敏感——即"酒精增 HDL 比吸烟致肺癌还鲁棒(若用正确方法)"。

6. 块设计 vs. 匹配对的灵敏度差异 [1:36–1:45]
- 等方差线性模型中,406 个 1:3 块 ≈ 271 个 1:3 块(有效自由度相同)。
- 重采样比较: - 用原数据造 406 对(从每块抽 1 个对照)→ 所有统计量在 Γ=3.5 即崩溃(p>0.99)。
- 用原数据保留 271 个 1:3 块 → 灵敏度变化不大(损失约 1/3 信息)。
- 结论:使用匹配对而非块(多个对照)会灾难性地降低鲁棒性,即使样本量被校准为等精度。

7. 理论分析:设计灵敏度与 Bahadur 效率 [1:45–2:00]
- 定义"favorable situation":有处理效应(τ = 每对差值的期望/SD,设为 0.5 或 0.33)+ 无偏倚。
- 定义设计灵敏度 \(\tilde{\Gamma}\):在给定数据生成模型(正态、t₅)下,存在唯一 \(\tilde{\Gamma}\),当 Γ<\(\tilde{\Gamma}\) 时渐进水平→0(H₀被快速拒绝),Γ>\(\tilde{\Gamma}\) 时水平→1(无法识别)。
- Bahadur 斜率:衡量水平趋于 0 的指数速率,两个统计量之斜率比即为 Bahadur 渐近相对效率。
- 表格展示(基于正态模型,τ=0.5):
- 同统计量,块 vs. 对:效率比约 3(即 1 个块≈3 对)。
- 同设计(块),不同统计量:Wilcoxon 效率最低,U878≈24 倍于 Wilcoxon(在 Γ=2 下)。
- "双重失误"(配对+Wilcoxon)vs. "最佳设计"(块+U878):效率比可达 2481%(≈24.8 倍)。

8. 用负对照(甲基汞)修正敏感性分析 [2:00–2:28]
- 用甲基汞(已知无因果效应)检验 B(Γ) 的各 θ 是否合理。
- "无任何偏倚"(θ∈B₁)被甲基汞数据强烈拒绝(p 极小),证实存在显著未测量混杂。
- 对 HDL,Quade 统计量在 Γ=3.614 处变得敏感(最大 p 越过 0.05)。
- 甲基汞在 Γ=1.993 时即已不能拒绝 θ∈B(Γ)——即酒精组的混杂强度至少对应 Γ≈2。
- 关键洞察:由于 Γ 是全局参数,若甲基汞数据排除掉 B(Γ) 中那些"恰好使敏感性分析临界"的 θ 模式(即"troublesome points"),则即使 Γ=3.614 下仍有未被排除的偏倚模式,这些偏倚模式并非甲基汞数据所支持
- 测试这些 troublesome points 在甲基汞数据中的 p < 10⁻⁷ → 它们完全不可信。
- 最终:将 θ 约束于 B(Γ) ∩ 95% 置信集,得到"知情敏感性分析"——Γ 可升至 3.82 处才达临界 p。发现负对照不仅不削弱结论,反而增强鲁棒性(因需要更大偏倚才能同时解释两个结果)。

9. 总结与推广 [2:28–2:36]
- 未测量偏倚存在但不致命。
- 统计理论(设计灵敏度、Bahadur 效率)可指导设计/分析选择,避免人为放大敏感性。
- 即使检测到偏倚存在,若将其纳入分析,可能反而使结论对偏倚更不敏感
- 推荐设计策略:1:J 块 + 截断型加权秩统计量 + 负对照验证。


四、对应论文与开放问题

(a) 对应论文(依据转写,需核实标题与细节)
1. Rosenbaum, P. R. (2025). Being Realistic About Unmeasured Biases in Observational Studies. Springer.
- 书中数据和 R 包 ITOS 被提及。
2. Rosenbaum, P. R. (2025). "A cross-word puzzle?..." (可能为 Chance 杂志上关于酒精与死亡率的文章)。
3. Rosenbaum, P. R. (2025). "Block design with decisive pairs..." (JRSSB 论文,涉及子样本筛选块)。
4. 方法细节中关于 U 统计量型加权的统计量,转写未给出正式作者/期刊,需查原文。
5. Campbell & Bitterman 的"systematic variation"框架为引用。

(b) 开放问题(每条根植于转写具体位置)
1. 关于统计量的构造:报告使用的 U868/U878 加权函数是经验设计的(基于 rank of ranges 的截断函数),是否可以从半参数/最优加权理论推导出对给定设计灵敏度目标最优的 φ(·)?(转写未给出 φ 的显式公式,仅描述形状。)
2. 知情敏感性分析的推广:报告在甲基汞负对照下约束 θ 集。如果有多维度负对照(多个无关结局),如何有效构造交集置信集并计算有效 p 值上界?计算复杂度随负对照维度如何增长?
3. 块设计时的维度灾难:θ 的维度随 I 增加(I 个块,每块 J−1 个自由参数),报告承认无法一致估计 θ。但设计灵敏度 \(\tilde{\Gamma}\) 是渐近量——是否可能在某些结构(如共享的脆弱性因子)下对 θ 施加低秩或稀疏约束,从而降低置信集的计算复杂度和保守性?
4. 统计计算挑战:最大化 p 值 over B(Γ) 是 I×J 维(I≈400, J=4,即 1624 维)优化问题。报告提到这是 compact 集上的优化可行,但未涉及大规模 I 下的数值方法(如凸 vs. 非凸、对不同统计量目标函数的光滑性要求)。对于更大的 I(如 >10⁴),计算能否有效扩展到高维?
5. "Statistically acceptable design"的紧致性:报告强调设计/分析选择影响灵敏度,但给出的效率比是针对一个具体模型(正态/t₅ 加性误差 + 固定 τ)。实际应用中模型错误设定(heteroskedasticity、非线性)会如何改变相对排名?是否对所用的加权统计量族具有某种 minimax 最优性?
6. 与当前主流敏感性分析(E-value, VanderWeele)的关系:报告未提及 E-value。E-value 是原尺度的标量;而 Rosenbaum 的 Γ 是 odds ratio 形式。二者在大样本下的行为有何不同?(研究者可亲自对比。)


Maintained by 陈星宇 · Homepage · Source on GitHub

评论