Transparent and Robust Causal Inference in the Social and Health Sciences¶

讲者: Carlos Cinelli
讨论人: Guido Imbens
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-10-26
主题: 因果推断
视频: https://youtu.be/j7mN_G5Gpyg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这场报告的核心工作线是 “如何系统性地评估未观测混杂（unobserved confounding）对因果估计的影响” ，它属于因果推断中敏感性分析（Sensitivity Analysis） 这一子方向。

这个方向在追问什么：在最常见的“无未观测混杂”（也称条件可忽略性/ignorability）假设下，因果效应是点识别的。但这一假设在观测研究中几乎不可能被完全相信。敏感性分析试图回答一个反事实问题：“如果我们的关键假设被违背，结论会变得多脆弱？”更具体地，它量化一个未观测混杂变量需要“多强”才能推翻研究结论（例如使点估计归零或使置信区间包含零）。
奠基与主流路线：该方向的起源可追溯到Cornfield et al. (1959) 在吸烟与肺癌辩论中的工作，他们发现若吸烟完全无害，那么一个能解释全部关联的未观测混杂基因在吸烟人群中的流行度必须是非吸烟人群的9倍以上，且当时专家认为这种强度不可信。后续发展出多条路线：
- Rosenbaum-style 敏感性分析：对二值处理，通过引入一个隐含的混杂参数Γ来调整匹配后的p值（Rosenbaum 2002）。
- Imbens (2003)：提出基于极大似然的二元正态模型，用偏R²参数化混杂。
- Frank (2000)：提出了“影响阈值”（impact threshold）。
- Oster (2017)：基于系数稳定性（coefficient stability）的方法，通过比较加入已知协变量前后估计量的变化来推断未观测混杂的影响。
- E-value (VanderWeele & Ding 2017)：提出一个单一标量度量，表示要推翻观测到的风险比，混杂所需的最小关联强度（以风险比尺度）。
这场报告站在哪：Cinelli & Hazlett (2020) 站在一个对数据使用者极度友好的位置。他们在熟悉的遗漏变量偏误（Omitted Variable Bias, OVB） 框架下，用偏R²作为统一参数化解空间。这使得方法：（i）不需假设混杂的分布或函数形式；（ii）天然处理多个混杂（可能非线性）；（iii）给出一个直觉上的标量汇总——“鲁棒性值”（Robustness Value, RV）和“偏R² of treatment with the outcome”，可以从标准回归输出（t值、自由度）直接计算。并且这些度量可以扩展到工具变量（IV） 的敏感性分析（这个报告的另一组成部分），这相当新颖，因为传统IV敏感性分析通常很复杂。

二、最小内核 / 一个最简例子¶

为了理解该框架的核心思想，考虑最简单的场景：一个连续结果 \(Y\)，一个二值或连续处理 \(D\)，一组观测协变量 \(X\)（不含常数），以及一个单个未观测混杂变量 \(U\)。

符号与模型： - 可观测数据：\((Y_i, D_i, X_i)_{i=1}^n\)，i.i.d.。 - 全模型（假设未观测，但作为思想实验）：

\[Y = \tau D + X^\top \beta + \gamma U + \varepsilon, \quad D = X^\top \delta + \theta U + \eta.\]

这里 \(\tau\) 是目标因果参数（平均处理效应，在完全线性和常数效应的假设下）。\(U\) 对 \(Y\) 和 \(D\) 都有线性影响，且 \(U \perp (X, \varepsilon, \eta)\) 或至少与 \(X\) 正交。 - 目标参数：\(\tau\)。 - 可估计量：实际只观测到 \(X\)，所以只能拟合受限模型：

\[Y = \tau_{\text{res}} D + X^\top \beta_{\text{res}} + \varepsilon_{\text{res}}.\]

通过OLS得到 \(\hat{\tau}_{\text{res}}\)。 - 潜在不可观测量：\(\gamma, \theta, U\) 以及其与 \(Y,D\) 的部分变异性。

核心偏差公式：利用 Frisch-Waugh-Lovell 定理，当 \(X\) 被“部分掉”后（用 \(\perp X\) 表示），

\[\hat{\tau}_{\text{res}} = \hat{\tau} + \hat{\gamma} \cdot \frac{\widehat{\text{Cov}}(D_{\perp X}, U_{\perp X})}{\widehat{\text{Var}}(D_{\perp X})}.\]

记 \(\hat{\delta} = \widehat{\text{Cov}}(D_{\perp X}, U_{\perp X}) / \widehat{\text{Var}}(D_{\perp X})\)，则

\[\hat{\tau}_{\text{res}} = \hat{\tau} + \hat{\gamma} \hat{\delta}.\]

这验证了遗漏变量偏误是 \(\hat{\gamma}\hat{\delta}\)。

用偏R²参数化： - 定义偏R² 是衡量在控制 \(X\) 后，某个变量能解释的剩余变异的比例。 - \(R^2_{U \sim D | X}\)：未观测混杂 \(U\) 对 \(D\) 解释的偏R²（在将 \(X\) 部分掉后的 \(D\) 变异中，\(U\) 占了多少）。 - \(R^2_{U \sim Y | X, D}\)：\(U\) 对 \(Y\) 解释的偏R²（在将 \(X, D\) 部分掉后的 \(Y\) 变异中，\(U\) 占了多少）。 - 偏差公式用偏R²重新表达：

\[\text{bias}(\hat{\tau}_{\text{res}}) \propto \sqrt{R^2_{U \sim D | X} \cdot R^2_{U \sim Y | X, D}}.\]

严格来说，假设混杂方向“最坏”且符号与效应反向，那么

\[\hat{\tau}_{\text{res}} - \hat{\tau} \approx \hat{\tau} \cdot \frac{\sqrt{R^2_{U \sim D | X} \cdot R^2_{U \sim Y | X, D}}}{1 - R^2_{U \sim D | X}}.\]

一个最简特例：假设只有一个二值处理 \(D \in \{0,1\}\)，无任何观测协变量 \(X = \emptyset\)。我们想知道一个未观测混杂 \(U\) 能多强地证明“处理效应完全是假的”（即 \(\tau=0\)）。

模型：\(Y = \tau D + \gamma U + \varepsilon\)，\(D = \theta U + \eta\)。\(U\) 可视为连续。
核心度量：
- 偏R² of treatment with the outcome：这其实就是 OLS 输出的普通 R²：\(R^2_{Y \sim D}\)。若这个 R² 很小（例如 0.022），那么即使一个未观测混杂在 最坏情况（它解释了 \(Y\) 的全部剩余变异），它也需要与 \(D\) 至少有这么强的关联（\(R^2_{U \sim D | \emptyset} \ge 0.022\)）才能将 \(\tau\) 归零。这给出了一个非常低的下界。
- 鲁棒性值：若要求 \(R^2_{U \sim D | X} = R^2_{U \sim Y | X, D} = \text{RV}\) 才能归零，则 RV 是一个对称的标量。在我们的例子中，通过求解使 \(\hat{\tau}_{\text{res}} - \hat{\tau} = \hat{\tau}\)（归零）的方程，可得 \(\text{RV} = \frac{1}{2} \left( \sqrt{1 + 4f^2} - 1 \right)\)，其中 \(f = |t| / \sqrt{df}\) 是 t 统计量的某种函数。若 \(t=4.8\)，则 RV ≈ 13.9%。这意味着：如果未观测混杂在解释剩余 Outcome 变异和处理变异上都是“中强力”，那它就足够强劲。同时，至少有一个关联需要大于 RV。

关键洞察：这个框架将是否“推翻结论”的判断从“必须宣称不存在混杂”转换为“必须宣称未观测混杂的强度低于某个可计算的、基于数据和领域知识的阈值”。

三、报告主体：讲者讲了什么¶

报告结构清晰：先介绍动机与背景，然后重点介绍 OLS 的敏感性分析工具，最后扩展到 IV。

第一部分：动机与背景 [0:00 – 0:05] - [0:00:03] 开场。讲者用吸烟与肺癌的经典案例树立动机。Cornfield 条件指出：若吸烟完全无害，未观测混杂（如基因）在吸烟者中的流行度必须是非吸烟者的9倍。专家判断这根不可能，所以吸烟有因果效应。 - [0:02:30] 提出两个核心观点：(1) machine learning 只处理关联，因果必须用模型；(2) 即使有 Nobel 奖般的因果推断进展，主流实践仍依赖不可信的确切假设（如无未观测混杂），而敏感性分析应成为常规。

第二部分：OLS 敏感性分析的挑战与工具 [0:05 – 0:15] - [0:05:15] 指出目前敏感性分析使用率低的原因：需强额外假设、缺乏简易可报告的标量、难以连接结果与领域知识。 - [0:06:50] 引入 Darfur 研究：估计暴露于暴力（DirectHarm）对和态度（PeaceIndex）的影响。假定 village 和 gender 已足够，OLS 点估计 = 0.098。 - [0:08:00] 提出问题清单：1) 单个/多个混杂需多强才能改变结论？2) 最坏情况下，所有未观测混杂联合何时能推翻？3) 相对于某个关键观测变量（如 female），未观测混杂需多强？4) 如何简化为可常规报告的统计量？ - [0:09:30] 展示最小敏感性报告表格。两个关键新统计量： - 偏R² of treatment with the outcome：这里为 2.2%。解读：这是最坏情况图景，即使未观测混杂解释了 Outcome 的全部剩余变异，它仍需要与 Treatment 有至少 2.2% 的偏R²才能将点估计归零。这是一种极端的下限。 - 鲁棒性值 (Robustness Value, RV)：这里为 13.9%。解读：如果未观测混杂对 Treatment 和 Outcome 的偏R²相等且均为 13.9%，那它足够回答你的变数。同时，至少有一方偏R²需要大于 RV，否则任何单个混杂或组都无法解释。对于 5% 显著性，RV 为 7.6%，考虑抽样不确定性后的 RPM。 - 如何计算：讲者强调只需点估计的 t 值（或 F 统计量）和自由度，完全从标准回归输出可得。 - [0:11:00] 讲者指出这是对单混杂精确的，对多混杂则是保守的（因为多个混杂的联合偏R² ≤ 各偏R²之和，偏差公式是线性的，最坏情况是正交方向）。

第三部分：借助观测协变量进行界限估计 [0:11 – 0:16] - 关键洞察：仅知道 RV = 13.9% 还不够，需要领域知识判断其是否“大”。报告提出了通过观测变量来校准的正式方法。 - 例如，考虑‘female’这一协变量。计算它在模型中可解释的偏R²： - 对 Outcome: 最多约 12%。 - 对 Treatment: 最多约 1%。 - 由于 12% < 13.9% 且 1% < 2.2%，结论是：一个与 ‘female’ 等强的未观测混杂无法解释本研究的点估计或统计显著性（即使考虑最坏情况）。讲者说：“如果专家认为残剩混杂不可能比 female 更强，则结论稳健”。 - 还提出了一个 t-dagger 值，即调整了系统偏差后的新临界值（例如，给定与 female 等强的偏差下，维持 5% 显著性的 t 阈值约为 2.8，而我们观测的 t 值 4.8 大于它，说明显著仍存在）。

第四部分：可视化的轮廓图 [0:16 – 0:20] - [0:16:00] 展示了点估计的轮廓图：x 轴是偏R² of confounder with treatment，y 轴是偏R² with outcome。不同颜色曲线对应于不同偏R²组合下的调整后点估计。从原点的 0.098开始，混杂越强，点估计越向零移动。标出 1×、2×、3× female 的位置。 - [0:17:00] 类似的t值轮廓图，可评估对零假设检验的敏感性。2× female 不足以使 t 值不显著，但 3× female 则可能。

第五部分：工具变量 (IV) 的敏感性分析 [0:20 – 0:35] - [0:20:00] 引用 Card (1995) 的教育与收入研究：IV 点估计 = 13.2%（OLS = 7.5%）。 - 核心问题：IV 本身（如附近大学的存在）可能受未观测混杂影响（如家庭财富）或存在排除性限制违反（如通过其他途径影响收入）。与传统 IV 敏感性分析的繁琐不同，本方法闪亮地转换问题： - 对于零假设 H0: IV效应 = 0：它等价于检验简约形式（Reduced Form）的系数。只需对简约形式应用 OLS 敏感性工具即可。如果简约形式对未观测混杂足够稳健，IV 估计的零假设也稳健。 - 对于一般性假设：利用 Anderson-Rubin (AR) 检验。AR 检验的核心是构造潜在结果 \(Y(\tau_0) = Y - \tau_0 D\)，然后检验 z 对 \(Y(\tau_0)\) 的回归系数 φ=0。对任意 τ₀，对该 φ 的 OLS 敏感性分析，正好就是对 iv 效应= τ₀ 的敏感性分析。 - [0:25:00] 展示了 IV 的置信区间轮廓图：在混杂对 Instrument 和对潜在 Outcome 的偏R²空间上绘制调整后的置信区间（上下界）。贡献：点明了 IV 的脆弱性可能只取决于非常小的偏R²（如 < 1%），远比 OLS 容易受到影响。 - 提议的软件 sensemakr 支持 R, Stata，Python 版本在开发。报告结尾给出了对比 Oster 的讨论（见 Q&A）。

四、对应论文与开放问题¶

(a) 对应论文： 1. 核心 OLS 论文： - Cinelli, C. & Hazlett, C. (2020). Making Sense of Sensitivity: Extending Omitted Variable Bias. Journal of the Royal Statistical Society, Series B. 这是报告的主要支柱。合作者 Chad Hazlett 在 Q&A 环节。 - 软件论文与 R 包：sensemakr (Cinelli & Hazlett 2019 on CRAN) 和一个 Shiny App。 2. IV 论文（工作论文，尚未发表，讲者注明）： - Cinelli, C. & Hazlett, C. (2021?). An Omitted Variable Bias Framework for Sensitivity Analysis of Instrumental Variables. 无进一步引用信息，但从对话看，这部分仍在开发中（未来会出完善软件和图表）。

(b) 开放问题（植根于转写与讨论）： 1. 鲁棒性值的可解释性 [1:00:00 – 1:10:00 讨论节]（由讨论者 Guido Imbens 提出）：他问了一个类似于“两个观测研究，点估计和标准误相同，但 RV 不同，这是否意味着研究者该更信任较小 RV 的研究？直觉上这听起来反直觉”。讲者Carlos Cinelli的回应是：如果点估计和标准误相同，更小的RV通常意味着处理效应的大部分变异性来自抽样脚气而非大效应本身，因此对系统偏误更敏感，但并没有给出一个令人完全信服的、公理化的判定标准。这提出了一个方法论上的开放问题：如何定义和论证跨研究可比的“稳健性”？RV 发挥了效用在给定点估计-标准误组合来确立“变更所需的最小偏离”，但它不是跨设定可比的绝对指标。这提醒应用者：不应只比较 RV 数字，而要结合特定领域知识判断混杂的绝对大小是否在 RV 之下。研究人员可以尝试构建一个正式的理论体系来统一不同敏感性度量。 2. 基准方法（benchmarking）的选择及其影响 [0:52:00 – 0:53:00 讨论提问]：多个观众问到与 Oster (2017) 方法的具体差异。讲者在Q&A中强调：Oster 的方法在构造一个“多混合指数”并对该指数的方差协方差比提出隐含假设时，可能导致“混杂强度”的测量难以直接解读。但如何形式化地比较不同基准变量之间的选择同敏感性结论之间的关系，仍是一个未充分探索的理论问题。研究可探讨在特定数据集中，采用不同基准会如何系统性地影响 RV 或界限。这本质上是一种“敏感性分析”对“敏感性分析”的方法论研究。 3. 线性模型假设的局限性与扩展 [0:14:00 – 0:15:00])：观众问是否适用于非线型效应。讲者纠正说这个框架主要针对线性回归系数的敏感性，但如果目标不是回归系数而是某种加权平均因果效应，该框架不能直接适用。他提出一个潜在的扩展路径：用部分线性模型 NLP (Nueral & Partially-Linear Model) 加上Double Machine Learning【0:14:00 左右】来灵活处理观测协变量，但仍需要确保目标量为部分线性模型的参数或可解释为某种加权平均。这个未解的开放问题是：如何在真正非参数*（如 CATE 估计）或高度非线性设定中，保留这个 OVB-based 敏感性分析的简洁性（只需 t 值和自由度）？这涉及如何定义非参数场景下的“偏R²”和“鲁棒性值”。

对研究者的潜在价值：这场报告提供了一本关于‘如何在主流量化研究中推广敏感性分析’的实用方法论手册。主讲者的 sensemakr 软件实现意味着这些方法可直接用于实验。作为一个以效率和半参数为特长、关心因果推断和数值计算的研究生，你可能会从以下角度切入： - 理论连接：RV 或其他基于偏R²的度量，是否可以推广到其他推断框架（如弱工具变量、三元组做中介分析中的敏感性）？ - 方法论推广：能否结合你的高维统计与半参数效率理论背景，将这种（基于 OVB 的、仅依赖回归输出的）敏感性分析，匹配到更复杂的半参数因果估计量（如 AIPTW或双重稳健估计）的灵敏度分析上？ - 计算挑战：这个框架非常简单——基本上是公式上的代数转换。它的大部分结果是从一个单独的 t-统计量和自由度推导出来的，免去了计算复杂的步骤。你的计算专长可以探索：当目标从“归零”变为“改变符号”或“显著下降”时，对应的条件会怎样改变计算复杂度，或者能否使用高阶U统计量的视角来推导类似 RV 的闭合形式？这个‘简单框架’意味着巨大的推广空间。

Maintained by 陈星宇 · Homepage · Source on GitHub

Transparent and Robust Causal Inference in the Social and Health Sciences¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论