Being Realistic About Unmeasured Biases in Observational Studies¶

讲者: Paul Rosenbaum
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-01-20
主题: 因果推断
视频: https://youtu.be/S27_5l7leZI?si=v9h0NAKpo39EMMy2

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告属于观察性研究的敏感性分析这一领域。该领域的核心追问是：当不可忽视的未测量混杂（unmeasured confounding）存在时，一个观察性研究所报告的因果结论到底有多可信？如果存在某种强度为 Γ 的未测量偏倚，它是否足以完全推翻观测到的关联（即把关联解释为偏倚而非因果）？

奠基与主流路线：敏感性分析可追溯到 Cornfield 等人（1959）对吸烟与肺癌的经典论述，以及 Rosenbaum & Rubin（1983）提出的基于倾向得分的框架。当代主流方法有两类： 1. 基于隐变量模型的参数/半参数敏感性分析（如 VanderWeele & Arah, 2011; Ding & VanderWeele, 2016），常通过 E-value 等标量度量报告结果对未测量混杂的鲁棒性； 2. 基于随机化推断的 Rosenbaum 式敏感性分析，即本报告所采用的框架——用一个单一标量 Γ 来量化未测量偏倚的最大可能强度，然后计算"在给定 Γ 下，能否仍拒绝无效应零假设"的上界 p 值。

当前前沿与本报告的位置：Rosenbaum 的工作（尤其自 2002 年《Observational Studies》一书以来）不断发展该框架，但近年的一项重要进展是 设计灵敏度（design sensitivity, Γ̃） 和 Bahadur 渐近相对效率的理论，这给出了一个"无限样本极限下，敏感性分析能容忍多大 Γ"的解析工具。本报告的核心贡献是：(a) 将设计灵敏度理论从匹配对（1:1）推广到多重对照的块设计（1:J 匹配）；(b) 系统比较不同加权秩统计量（Wilcoxon 型 vs. Quade 型 vs. U 统计量衍生型）对设计灵敏度的影响；(c) 演示负对照（negative control） ——报告中使用甲基汞作为已知无因果效应的结果——如何能在不削弱原有结论的情况下，进一步排除那些令普通敏感性分析"担忧"的极端偏倚模式（即那些恰好在 Γ 边界上推翻结论的 θ）。

这场报告站在：Rosenbaum 自己 2025 年的两本书/论文（《Being Realistic About Unmeasured Biases》一书和 JRSSB 2025 的论文）的基础上，将其多年积累的敏感性分析思想整合成一整套"设计+分析"的实用指南，并通过一个极具直觉性的酒精与 HDL 胆固醇案例，向听众展示设计选择（1:J vs. 1:1）和分析选择（不同加权函数）可以将观察性研究的"可容忍偏倚"从 Γ≈3.5 提升到 Γ≈6.0，这是一个巨大的量级差别。

关键参考文献（片段来自转写，需核实）： - Rosenbaum (2002/2017/2020). Observational Studies (book). - Rosenbaum (2025). Being Realistic About Unmeasured Biases in Observational Studies (book, with R package ITOS). - Rosenbaum (2025) in Chance: mortality and daily alcohol. - Rosenbaum (2025) in JRSSB: block design with decisive pairs. - 合作者：提到 Campbell & Bitterman (系统变异控制；转写中写为 "Bamin"，应为 Bitterman)。

二、最小内核 / 一个最简例子¶

符号与模型： - 有 I 个块（block），每个块有 J 名受试者（本例 J=4）。每块中恰好 1 人被分至处理（Z=1），其余 J−1 人为对照（Z=0）。 - 每个受试者有潜在结果（potential outcomes）：\(R_{ij}(z)\)，其中 z=1 为处理、z=0 为对照。观测结果记作 \(r_{ij} = Z_{ij} R_{ij}(1) + (1-Z_{ij}) R_{ij}(0)\)。 - 观测协变量 X（本例：年龄、性别、教育程度）。未测量协变量 U（"principal unobserved covariate"）定义为给定 X 和全部潜在结果下的处理分配概率：\(\theta_{ij} = \Pr(Z_{ij}=1 \mid X, R(1), R(0))\)。 - 在随机化实验中，块内所有受试者的 \(\theta_{ij}\) 均为 1/J。在观察性研究中，\(\theta_{ij}\) 未知且在块内可能不等。

敏感性参数 Γ：假设在任何块内，任意两名受试者 j 与 k 的分配几率比不超过 Γ 且不小于 1/Γ：
\(1/\Gamma \le \theta_{ij} / \theta_{ik} \le \Gamma\)。
Γ=1 意味着块内等概率（无偏倚）；Γ>1 允许偏倚存在。

最简特例（J=2, 1:1 匹配对）：
报告主要演示 J=4 的块，但最简内核可用 J=2 理解。设块 i 中一对匹配受试者，分配概率比为 \(p_i/(1-p_i)\)。Γ=2 意味着其中一人比另一人最多高 2 倍的几率被分配到处理组。对于 Wilcoxon 符号秩检验（即报告中的"weighted rank statistic"且 φ(w)=1），在 Γ=2 下，若处理效应存在且无偏倚，大样本下的检验水平将趋于 0（即正确拒绝无效应零假设）；但若改用 U 统计量型加权（φ(w) 截断小范围），同一 Γ=2 下水平趋于 0 的速度更快，即"设计灵敏度 Γ̃"更大。

核心思想：
分析者可以选择研究设计（1:J vs. 1:1）和检验统计量的加权函数（φ(w)）。设计灵敏度 \(\tilde{\Gamma}\) 是一个依赖于真实数据生成过程（即"favorable situation"：有处理效应、无偏倚）的渐近量：若分析时所用的 Γ < \(\tilde{\Gamma}\)，则随着样本量→∞，敏感性分析给出的上界 p 值→0（结论鲁棒）；若 Γ > \(\tilde{\Gamma}\)，上界 p 值→1（无法区分效应 vs. 偏倚）。不同统计量的 \(\tilde{\Gamma}\) 差异巨大，且块设计优于匹配对设计。

三、报告主体：讲者讲了什么¶

**[H:MM] 时间标注基于转写文本，具体需回看视频确认。

1. 问题设定与动机 [0:05–0:15]
- 每个观察性研究都存在未测量偏倚，但这不必然致命（如吸烟与肺癌）。
- 未测量偏倚虽未测量，但往往有可检测的后果（如通过负对照结果）。
- 敏感性分析虽谈论未测量的量，但其随机性质完全由可观测数据的分布决定——因此分析者可以通过改变设计/分析来改变敏感性。

2. 实例：酒精与 HDL 胆固醇 [0:15–0:40]
- 使用 NHANES 2013-2016 数据，定义：
- 处理组 D：每日饮用 1-3 杯酒，不狂欢饮酒。
- 三个对照：N（终生几乎不饮）、R（极少饮、无狂欢史）、B（曾狂欢酗酒、现已戒）。
- 匹配后：406 个块，每块 4 人（1D + 1N + 1R + 1B），按年龄+性别+教育程度匹配。
- 直觉：讲者让听众想象这些人的生活方式差异——这些差异就是未测量偏倚。
- 数据特征：D 组 HDL 显著高于其他三组（p ≈ 10⁻¹⁶），但对照三组间无显著差异（p > 0.21）。
- 讲者展示未匹配前的协变量差异（D 组男性更多、略年长、教育更高等）——匹配纠正了这些可观测差异。

3. 未测量偏倚的可见证据 [0:40–0:52]
- 用 NHANES 中其他问题（毒品使用、甲基汞水平、牙科就诊）展示：不同饮酒组的生活方式差异巨大。
- 曾尝试大麻：D 组 73% vs. N 组 9%。
- 曾尝试可卡因/海洛因：D 组 29% vs. N 组 4%。
- 甲基汞水平：D 组更高，但甲基汞已知几乎全来自鱼/贝类，非酒精引起——这是负对照结果。
- 对比 HDL 与甲基汞的块内差异：两幅图（左：HDL；右：甲基汞）惊人相似——但甲基汞显然不是因果效应，而是偏倚信号。

4. 敏感性分析框架 [0:52–1:06]
- 正式引入 principal unobserved covariate（PUC）θ，定义为给定 X 和全部潜在结果下个体被分配处理的条件概率。
- 若没有未测量混杂，则 θ = 1/J（块内均匀）。
- 敏感性参数 Γ 界定任意两人的 θ 比值：\(1/\Gamma \le \theta_{ij} / \theta_{ik} \le \Gamma\)。
- 定义集合 B(Γ) 为所有满足此约束的 θ 矩阵。Γ=1 时只有随机化；Γ 越大集合越包容任意偏倚模式（除非确定性分配）。
- 检验零假设 H₀：无处理效应。因为 θ 未知，最大化零假设下的 p 值 over B(Γ) 得到保守上界 p 值——若该上界仍小于 α，则结果对 Γ 大小的偏倚鲁棒。

5. 不同加权秩统计量对灵敏度的巨大影响 [1:06–1:36]
- 引入加权秩统计量：块内先对结局排秩（1→J），再对每块的全距（range）排秩并用 φ(w) 加权，将加权秩与处理组秩相乘后求和。
- φ 函数形式： - φ(w) ≡ 1 → 块内 Wilcoxon 秩和/符号秩；
- φ(w) = w → Quade 统计量；
- φ(w) = 截断上升函数（"U 统计量型"）→ U868、U878。
- 关键结论（在酒精数据上）：
- Γ=3.5：Wilcoxon 统计量已不能拒绝 H₀（最大 p > 0.05）；
- 同一数据同一 Γ 下，U878 仍可拒绝（p < 0.05）；
- 文章给出具体数字：
- Qui 在 Γ≈4.5 失效；
- U868 在 Γ≈5.5 失效；
- U878 在 Γ≈6 仍可拒绝。
- 对比：吸烟与肺癌的经典研究对 Γ≈6 已很敏感——即"酒精增 HDL 比吸烟致肺癌还鲁棒（若用正确方法）"。

6. 块设计 vs. 匹配对的灵敏度差异 [1:36–1:45]
- 等方差线性模型中，406 个 1:3 块 ≈ 271 个 1:3 块（有效自由度相同）。
- 重采样比较： - 用原数据造 406 对（从每块抽 1 个对照）→ 所有统计量在 Γ=3.5 即崩溃（p>0.99）。
- 用原数据保留 271 个 1:3 块 → 灵敏度变化不大（损失约 1/3 信息）。
- 结论：使用匹配对而非块（多个对照）会灾难性地降低鲁棒性，即使样本量被校准为等精度。

7. 理论分析：设计灵敏度与 Bahadur 效率 [1:45–2:00]
- 定义"favorable situation"：有处理效应（τ = 每对差值的期望/SD，设为 0.5 或 0.33）+ 无偏倚。
- 定义设计灵敏度 \(\tilde{\Gamma}\)：在给定数据生成模型（正态、t₅）下，存在唯一 \(\tilde{\Gamma}\)，当 Γ<\(\tilde{\Gamma}\) 时渐进水平→0（H₀被快速拒绝），Γ>\(\tilde{\Gamma}\) 时水平→1（无法识别）。
- Bahadur 斜率：衡量水平趋于 0 的指数速率，两个统计量之斜率比即为 Bahadur 渐近相对效率。
- 表格展示（基于正态模型，τ=0.5）：
- 同统计量，块 vs. 对：效率比约 3（即 1 个块≈3 对）。
- 同设计（块），不同统计量：Wilcoxon 效率最低，U878≈24 倍于 Wilcoxon（在 Γ=2 下）。
- "双重失误"（配对+Wilcoxon）vs. "最佳设计"（块+U878）：效率比可达 2481%（≈24.8 倍）。

8. 用负对照（甲基汞）修正敏感性分析 [2:00–2:28]
- 用甲基汞（已知无因果效应）检验 B(Γ) 的各 θ 是否合理。
- "无任何偏倚"（θ∈B₁）被甲基汞数据强烈拒绝（p 极小），证实存在显著未测量混杂。
- 对 HDL，Quade 统计量在 Γ=3.614 处变得敏感（最大 p 越过 0.05）。
- 甲基汞在 Γ=1.993 时即已不能拒绝 θ∈B(Γ)——即酒精组的混杂强度至少对应 Γ≈2。
- 关键洞察：由于 Γ 是全局参数，若甲基汞数据排除掉 B(Γ) 中那些"恰好使敏感性分析临界"的 θ 模式（即"troublesome points"），则即使 Γ=3.614 下仍有未被排除的偏倚模式，这些偏倚模式并非甲基汞数据所支持。
- 测试这些 troublesome points 在甲基汞数据中的 p < 10⁻⁷ → 它们完全不可信。
- 最终：将 θ 约束于 B(Γ) ∩ 95% 置信集，得到"知情敏感性分析"——Γ 可升至 3.82 处才达临界 p。发现负对照不仅不削弱结论，反而增强鲁棒性（因需要更大偏倚才能同时解释两个结果）。

9. 总结与推广 [2:28–2:36]
- 未测量偏倚存在但不致命。
- 统计理论（设计灵敏度、Bahadur 效率）可指导设计/分析选择，避免人为放大敏感性。
- 即使检测到偏倚存在，若将其纳入分析，可能反而使结论对偏倚更不敏感。
- 推荐设计策略：1:J 块 + 截断型加权秩统计量 + 负对照验证。

四、对应论文与开放问题¶

(a) 对应论文（依据转写，需核实标题与细节）
1. Rosenbaum, P. R. (2025). Being Realistic About Unmeasured Biases in Observational Studies. Springer.
- 书中数据和 R 包 ITOS 被提及。
2. Rosenbaum, P. R. (2025). "A cross-word puzzle?..." (可能为 Chance 杂志上关于酒精与死亡率的文章)。
3. Rosenbaum, P. R. (2025). "Block design with decisive pairs..." (JRSSB 论文，涉及子样本筛选块)。
4. 方法细节中关于 U 统计量型加权的统计量，转写未给出正式作者/期刊，需查原文。
5. Campbell & Bitterman 的"systematic variation"框架为引用。

(b) 开放问题（每条根植于转写具体位置）
1. 关于统计量的构造：报告使用的 U868/U878 加权函数是经验设计的（基于 rank of ranges 的截断函数），是否可以从半参数/最优加权理论推导出对给定设计灵敏度目标最优的 φ(·)？（转写未给出 φ 的显式公式，仅描述形状。）
2. 知情敏感性分析的推广：报告在甲基汞负对照下约束 θ 集。如果有多维度负对照（多个无关结局），如何有效构造交集置信集并计算有效 p 值上界？计算复杂度随负对照维度如何增长？
3. 块设计时的维度灾难：θ 的维度随 I 增加（I 个块，每块 J−1 个自由参数），报告承认无法一致估计 θ。但设计灵敏度 \(\tilde{\Gamma}\) 是渐近量——是否可能在某些结构（如共享的脆弱性因子）下对 θ 施加低秩或稀疏约束，从而降低置信集的计算复杂度和保守性？
4. 统计计算挑战：最大化 p 值 over B(Γ) 是 I×J 维（I≈400, J=4，即 1624 维）优化问题。报告提到这是 compact 集上的优化可行，但未涉及大规模 I 下的数值方法（如凸 vs. 非凸、对不同统计量目标函数的光滑性要求）。对于更大的 I（如 >10⁴），计算能否有效扩展到高维？
5. "Statistically acceptable design"的紧致性：报告强调设计/分析选择影响灵敏度，但给出的效率比是针对一个具体模型（正态/t₅ 加性误差 + 固定 τ）。实际应用中模型错误设定（heteroskedasticity、非线性）会如何改变相对排名？是否对所用的加权统计量族具有某种 minimax 最优性？
6. 与当前主流敏感性分析（E-value, VanderWeele）的关系：报告未提及 E-value。E-value 是原尺度的标量；而 Rosenbaum 的 Γ 是 odds ratio 形式。二者在大样本下的行为有何不同？（研究者可亲自对比。）

Maintained by 陈星宇 · Homepage · Source on GitHub

Being Realistic About Unmeasured Biases in Observational Studies¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论