Rothenhäusler Calibrated inference: statistical inference that accounts for both sampling uncertainty and distributional uncertainty¶

讲者: Dominik
讨论人: Guido Imbens
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-22
主题: 因果推断
视频: https://youtu.be/LrMzAKDEbDA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

核心问题：统计推断的标准框架（i.i.d. 抽样 + 渐近正态性）只量化了抽样不确定性（sampling uncertainty），但实践中结果不稳定的根源往往还包括： 1. 分布不确定性（distributional uncertainty）：样本并非来自目标分布 \(P_0\)，而是来自某个未知的、被扰动过的分布 \(P_\xi\)（例如抽样偏差、污染、相关性、未观测混杂）。 2. 研究者自由度（researcher degrees of freedom）：同一研究问题可通过多种不同方式操作化（不同的调整集、缺失值处理方法、模型选择等），这些选择会影响结论，但标准推断完全忽视了这种变异性。

本报告的位置与贡献： - 这是一个正在发展的工作线，不是颠覆性新方法，而是试图为现有实践中已经存在的做法（运行多个合理估计量、观察它们之间的变异性）提供严格的理论保证。报告明确说“NOT to introduce drastically new methods”。 - 它与以下文献线交汇： - 模型稳定性 / 灵敏度分析：Leamer (1983)、Rosenbaum (2010)、Yu & Kumbier (2020) 等提倡评估结论对模型选择 / 样本变化的稳健性。本报告向前走一步：把这种“稳定性”量化成一个校准因子 \(\hat{\delta}\)，并证明调整后的置信区间在渐近意义下覆盖真值。 - 遗漏变量偏误的稳定性分析：Murphy & Topel (1990)、Altonji et al. (2005, 2011)、Oster (2019) 通过比较不同调整集下的回归系数来估计遗漏变量偏误的大小。本报告提供了另一种解释：估计量之间的变异性 = 分布不确定性强度 \(\delta\) 的信号。 - 条件独立 / 因果发现中的稳定性原则：Peters et al. (2016)、Heinze-Deml et al. (2018)、Bühlmann (2020) 利用跨环境 / 跨分布的稳定性来推断因果关系。本报告把“稳定性”直接纳入了推断的方差膨胀因子中。 - 多重比较 / 模型选择后推断：Berk et al. (2013)、Fithian et al. (2014) 处理数据驱动模型选择后的推断问题。本报告与之不同：即使模型选择是固定的（没有数据驱动选择），但多个合理估计量本身就暗示了分布不确定性有多大。

本报告站在哪： - 假设：存在一个未知的扰动参数 \(\delta\)，它统一地将所有统计量的方差放大了 \(\delta^2\) 倍（即“各向同性扰动”假设）。 - 手段：使用多个渐近线性估计量（如不同调整集）之间的相对变异性（相对于 i.i.d. 抽样下期望的变异性）来估计 \(\delta\)。 - 输出：将标准置信区间乘以 \(\hat{\delta}\)，得到同时覆盖了抽样不确定性和部分分布不确定性的“校准”区间。

关键引用（转写与幻灯片均提到）： - Leamer (1983) “Let’s Take the Con Out of Econometrics” —— 研究者自由度问题的经典奠基。 - Peters et al. (2016) Causal inference by using invariant prediction —— 稳定性用于因果发现。 - Oster (2019) “Unobservable selection and coefficient stability” —— 经济学中利用回归系数变化做灵敏度分析。

二、最小内核 / 一个最简例子¶

符号与设定： - 目标参数：\(\theta(P_0)\)，例如线性回归系数 \(\arg\min_\theta E_{P_0}[(Y - X\theta)^2]\)。 - 可观测数据：\((X_i, Y_i),\; i=1,\dots,n\)。 - 潜在不可观测量：目标分布 \(P_0\) 与真实抽样分布 \(P_\xi\) 之间的扰动机制（\(\xi\) 是随机扰动因子）。 - 采样模型：观测样本来自 \(P_\xi\)，而非 \(P_0\)；但 \(P_\xi\) 与 \(P_0\) 的关系是未知的，且扰动的强度由一个未知标量 \(\delta\) 控制。

最简特例：一个二元线性回归，感兴趣的是 \(X_1\) 对 \(Y\) 的因果效应（假设线性结构、无混杂）。
- 合理调整集可能有多个：只控制 \(X_2\)，或控制 \(X_2\) 和 \(X_3\)，等等。记每个调整集对应的估计量为 \(\hat{\theta}_k\)。 - 在经典 i.i.d. 假设下，所有这些 \(\hat{\theta}_k\) 都渐近地、以 \(\sqrt{n}\) 速率收敛到同一个真值 \(\theta(P_0)\)，且它们之间的差异（乘以 \(\sqrt{n}\)）依分布收敛到均值为零的正态分布。 - 但若数据来自被扰动的分布 \(P_\xi\)，则 \(\hat{\theta}_k\) 之间的变异性会比 i.i.d. 下预期的更大（因为每个估计量对扰动模式的敏感度不同），且这个额外变异性对所有估计量是成比例的。

核心思想（一句话）：

把多个估计量之间的变异性（除以它们在 i.i.d. 下应有的变异性）作为一把尺子，估算“数据被扰动”的全局强度 \(\delta\)；然后用这个 \(\delta\) 放大置信区间，使其覆盖目标参数 \(\theta(P_0)\) 而非只是 \(\theta(P_\xi)\)。

为什么这个例子最小：
- 只需要两个时间点 / 一个自变量 / 两个调整集（即两个估计量）就能展示思想。 - 概念上只有“抽样方差”和“分布扰动方差”两层级，\(\delta\) 是唯一的额外参数。 - 估计量只需渐近线性（influence function 存在），且它们的差异关于同一 \(\delta\) 成比例——这是报告核心 Assumption 1 的精髓。

三、报告主体：讲者讲了什么¶

1. 背景与动机 [0:00-0:05]¶

[0:00:06] 讲者 Dominik Rothenhäusler（斯坦福）介绍合作者 Yujin Jeong（斯坦福博士生，负责大量工作）。
[0:02:00] 声明：本报告不全关于因果推断，也不引入全新方法，而是为现有实践（用多个估计量评估稳定性）提供严格保证。

2. 两个问题：分布不确定性与研究者自由度 [0:04-0:12]¶

[0:04:00] 标准线性回归推断：假设 i.i.d. 抽样，\(\hat{\theta}\) 渐近正态，置信区间来自影响函数 \(\phi\) 的方差估计。
[0:05:00-0:06:50] Issue 1: 分布不确定性：不直接抽样于 \(P_0\)，而是来自某种未观察到的扰动分布 \(P_\xi\)。误差分解为

\[\hat{\theta} - \theta(P_0) = (\hat{\theta} - \theta(P_\xi)) + (\theta(P_\xi) - \theta(P_0))\]

第一项是抽样误差，第二项是扰动误差。
[0:08:10-0:09:50] Issue 2: 研究者自由度：同一问题有多种合理操作化方式（丢弃哪些点、包含哪些协变量、用何种模型/估计方法）。若这些选择没有强理论依据，结论可能严重依赖任意决策（引用 Leamer 1983, Yu & Kumbier 2020）。

3. 核心方法：校准推断 (Calibrated Inference) [0:12-0:30]¶

[0:14:50] 设计决策：将两种不确定性整合进一个单一量（而非报告多个稳定性指标）；渐近框架选择：抽样不确定性与分布不确定性同阶（同为 \(1/\sqrt{n}\) 量级），因为这是最有趣、也最常用的情形。
Assumption 1（简化版）[0:16:14]：对任意有界、有界全变差的函数 \(\psi\)，
\[\frac{1}{\sqrt{n}}\sum_{i=1}^n (\psi(D_i) - E_{P_0}[\psi(D)]) \approx N(0,\; \delta^2 \text{Var}(\psi(D)))\]
其中 \(\delta\) 未知；若 i.i.d. 抽样于 \(P_0\)，\(\delta=1\)。
Assumption 2 [0:25:30]：存在 \(K\) 个渐近线性估计量 \(\hat{\theta}_k\)，均收敛到 \(\theta(P_0)\)，且有影响函数 \(\phi_k\)。
[0:27:16-0:29:00] 构建 \(\delta\) 的估计量：
\[\hat{\delta}^2 = \frac{\sum_{k=1}^K n(\hat{\theta}_k - \bar{\hat{\theta}})^2}{\sum_{k=1}^K \frac{1}{n}\sum_{i=1}^n (\hat{\phi}_k(D_i) - \bar{\hat{\phi}}(D_i))^2}\]

分子是估计量之间的观测变异性，分母是 i.i.d. 抽样下预期变异性；比值接近 1 表示无额外分布扰动，> 1 表示需要膨胀方差。
Theorem [0:29:53-0:30:52]：在 Assumption 1 & 2 及正则条件下，当 \(K\to\infty\) 时，
\[P\left(\theta(P_0) \in \left[\hat{\theta} \pm z_{1-\alpha/2} \cdot \hat{\delta} \sqrt{\frac{\widehat{\text{Var}}(\phi)}{n}}\right]\right) \to 1-\alpha.\]
关键：即使数据来自 \(P_\xi \neq P_0\)，该区间仍覆盖 \(\theta(P_0)\)。
强调：分母至关重要性——如果只用绝对偏差（如“不同调整集估计值都差不多”），则无法区分“估计量真的对扰动不敏感”与“把所有估计量建成了同一个估计量”。

4. 分布扰动模型（何时 Assumption 1 成立）[0:31-0:36]¶

[0:31:00] 引入一个具体的扰动模型（discrete 简化版）：
\(P_0\) 均匀分布（m 类），随机权重 \(\xi_k \ge 0\) 独立同分布，归一化后构成 \(P_\xi\)。
则方差公式中出现额外项 \(\frac{n}{m} \frac{\text{Var}(\xi)}{E[\xi]^2}\)，即 \(\delta^2 = 1 + \frac{n}{m} \frac{\text{Var}(\xi)}{E[\xi]^2}\)。
直觉：随机上调或下调事件的概率，导致总体方差被一个公共因子放大。
其他满足假设的模型 [0:20:58]：带替换的有限总体抽样、簇抽样（簇内单位相关但簇成员未知）等。
各向同性扰动唯一性定理 [0:32:02]：若扰动满足两个对称性条件（任意两个等概率事件被扰动的方差相同；概率趋零的事件扰动方差也趋零），则唯一的扰动模式就是全局方差缩放——即我们的模型。换言之：如果对扰动结构几乎没有先验知识，“各向同性”是一个自然的默认起点。
[0:33:46-0:35:30] 与因果推断的关系：
从满足无混杂的分布 \(P_0\) 加上随机扰动后，大概率破坏无混杂性——可视为随机混杂模型。
边际上，观测会出现正相关（\(\text{Cov}(D_i,D_j) = \delta^2_{\text{dist}} \sigma^2\)），可看作一种未知相关结构。

5. 数值实验 [0:40-0:47]¶

覆盖概率实验 [0:40:41-0:43:58]：
用线性结构因果模型生成数据（真值：\(X_1\) 对 \(Y\) 的因果效应），人为施加扰动（随机调整个体权重）。
比较“校准”区间与“未校准”区间的覆盖率。校准区间覆盖率接近名义水平（如 95%），未校准区间严重偏低。
如果部分调整集选错（不包含必要混杂 \(X_2\)），则 \(\hat{\delta}\) 会高估（保守），导致置信区间偏宽——讲者将此视为稳健性特征。
稳定性排名实验 [0:44:05-0:46:40]：
真实学生成绩数据集（Cortez & Silva 2008），用 12 种随机调整集对 7 个协变量排名效应大小。
方法 1：随机选一个调整集做一次 OLS 回归排名；方法 2：用校准方法（多调整集 + 逆方差加权 + \(\hat{\delta}\) 膨胀）排名。在两个数据子集上比较排名一致性。
结果：校准方法在 top-1、top-2、top-3 位置的排名稳定性明显更高（如 top-1：0.04 vs 0.16, 0.18 vs 0.25）。

6. 讨论人 Guido Imbens 的点评 [0:47:23-0:59:20]¶

Imbens 将这项工作的定位概括为：在只给决策者“点估计 + 标准误”的惯例之外，尝试系统量化模型不确定性与分布不确定性。
他特别指出与计量经济学中过度识别检验（over-identification testing）的联系：经济学者通常用多个工具变量检验模型的正确性（被拒绝则模型无效），而这里则“更建设性”地用估计量间变异性来直接膨胀置信区间。
他提出几个开放问题（见第四节）。

7. 讲者回应 [0:59:29-1:03:50]¶

如果所有估计量的影响函数渐近相同（如不同倾向得分加权方法），则分母会接近零，估计量变不稳定，但这也反映“我们没有关于分布不确定性的额外信号”。
关于如何选择估计量集合：当前靠随机改动分析过程来生成，理想情况下应基于领域知识。
可以扩展出更一般的扰动模型（允许对 \(X\) 和 \(Y|X\) 的扰动不同），但稳定性的代价未知。

四、对应论文与开放问题¶

(a) 对应论文¶

标题与作者：幻灯片首屏显示“Calibrated inference: statistical inference that accounts for both sampling uncertainty and distributional uncertainty”，作者 Dominik Rothenhäusler & Yujin Jeong，均为斯坦福大学。
状态：讲者在结束 [1:03:03] 时说“Manuscript will be posted on arXiv within the next few days”（2022-02-22 报告）。截至回答生成时刻，最相关的公开论文可能是：
arXiv 链接（待核实）：搜索“Rothenhäusler Jeong calibrated inference”可能找到 arXiv:2203.xxxxx 或类似编号。转写未提供 arXiv ID，因此具体编号不可靠。
注意：报告明确说是“ongoing work”，论文中可能有更完整的理论推导、更细致的数值实验，以及上面讲者口头未覆盖的推论（如逆方差加权、更一般的扰动模型）。
合作者：报告中只提到 Eugene (Yujin Jeong)；讨论人 Guido Imbens 是独立评论者而非合作者。

(b) 开放问题（扎根于转写与幻灯片）¶

当多个估计量的影响函数渐近相同时，方法是否仍有效？
来源：Imbens 讨论 [0:56:00-0:56:50] 和讲者回应 [1:00:18-1:00:40]。
讲者承认此时分母接近零，估计量变会不稳定；但指出“我们很清楚地知道这一点”而非隐藏问题。尚缺乏正式的渐近理论或有限样本指导：如果影响函数之间的差异是 \(o(1/\sqrt{n})\) 阶，\(\hat{\delta}\) 的收敛速率会怎样？置信区间是否仍具有名义覆盖率或过保守？
如何（原则性地）选择估计量集合？
来源：Imbens 讨论 [0:58:11-0:58:34] 和讲者回应 [1:01:25-1:01:54]。
当前做法是“随机改变一些小东西”或者依据背景知识，但缺乏一个系统化方案：应在哪些维度上变动？是否需要覆盖“最小充分调整集”、“包含多余协变量的调整集”甚至“错误调整集”？不同选择会改变 \(\hat{\delta}\) 的偏差与方差。
是否能将单一标量 \(\delta\) 扩展为更一般的扰动模型（如对 \(X\) 和 \(Y|X\) 的扰动不同）？
来源：讲者回应 [1:02:01-1:02:30]。
理论上可以写出高维扰动参数，但稳定性和实际推断潜力如何未知。若扰动模式不是各向同性的（例如只影响某些协变量的分布而对其他变量无影响），当前方法可能低估真实不确定性。
抽样不确定性与分布不确定性应当合并报告还是分开报告？
来源：Imbens 讨论 [0:59:07-0:59:16] 和讲者回应 [1:02:31-1:03:20]。
两者有不同的性质：抽样不确定性随着 \(n\to\infty\) 消失，分布不确定性不消失；合并成单一置信区间方便决策，但可能掩盖“结果对模型假设敏感但样本量足够大”的情况。该问题没有在报告中解决，是开放的设计取舍。
在因果推断中，该方法与现有灵敏度分析（如 E-value、Rosenbaum bounds、Oster’s \(\delta\)）有何异同与互补性？
来源：Imbens 讨论中提到 Leamer 和 Rosenbaum [0:50:42-0:51:30]，但未深入比较。
需要条件比较：传统灵敏度分析要求研究者指定一个或两个敏感度参数（如混杂强度），而本例则完全依靠估计量之间变异性来自动推断一个全局膨胀因子。两者适用范围、假设强度、输出形式都不同。

提醒：以上问题均来自报告中的口头讨论和 Q&A，不是研究者本人的主动判断；是否值得跟进应由研究者结合自身武器库与兴趣决定。

Maintained by 陈星宇 · Homepage · Source on GitHub