跳转至

Rothenhäusler Calibrated inference: statistical inference that accounts for both sampling uncertainty and distributional uncertainty

讲者: Dominik
讨论人: Guido Imbens
来源: OCIS (Online Causal Inference Seminar)
日期: 2022-02-22
主题: 因果推断
视频: https://youtu.be/LrMzAKDEbDA · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

核心问题:统计推断的标准框架(i.i.d. 抽样 + 渐近正态性)只量化了抽样不确定性(sampling uncertainty),但实践中结果不稳定的根源往往还包括: 1. 分布不确定性(distributional uncertainty):样本并非来自目标分布 \(P_0\),而是来自某个未知的、被扰动过的分布 \(P_\xi\)(例如抽样偏差、污染、相关性、未观测混杂)。 2. 研究者自由度(researcher degrees of freedom):同一研究问题可通过多种不同方式操作化(不同的调整集、缺失值处理方法、模型选择等),这些选择会影响结论,但标准推断完全忽视了这种变异性。

本报告的位置与贡献: - 这是一个正在发展的工作线,不是颠覆性新方法,而是试图为现有实践中已经存在的做法(运行多个合理估计量、观察它们之间的变异性)提供严格的理论保证。报告明确说“NOT to introduce drastically new methods”。 - 它与以下文献线交汇: - 模型稳定性 / 灵敏度分析:Leamer (1983)、Rosenbaum (2010)、Yu & Kumbier (2020) 等提倡评估结论对模型选择 / 样本变化的稳健性。本报告向前走一步:把这种“稳定性”量化成一个校准因子 \(\hat{\delta}\),并证明调整后的置信区间在渐近意义下覆盖真值。 - 遗漏变量偏误的稳定性分析:Murphy & Topel (1990)、Altonji et al. (2005, 2011)、Oster (2019) 通过比较不同调整集下的回归系数来估计遗漏变量偏误的大小。本报告提供了另一种解释:估计量之间的变异性 = 分布不确定性强度 \(\delta\) 的信号。 - 条件独立 / 因果发现中的稳定性原则:Peters et al. (2016)、Heinze-Deml et al. (2018)、Bühlmann (2020) 利用跨环境 / 跨分布的稳定性来推断因果关系。本报告把“稳定性”直接纳入了推断的方差膨胀因子中。 - 多重比较 / 模型选择后推断:Berk et al. (2013)、Fithian et al. (2014) 处理数据驱动模型选择后的推断问题。本报告与之不同:即使模型选择是固定的(没有数据驱动选择),但多个合理估计量本身就暗示了分布不确定性有多大。

本报告站在哪: - 假设:存在一个未知的扰动参数 \(\delta\),它统一地将所有统计量的方差放大了 \(\delta^2\) 倍(即“各向同性扰动”假设)。 - 手段:使用多个渐近线性估计量(如不同调整集)之间的相对变异性(相对于 i.i.d. 抽样下期望的变异性)来估计 \(\delta\)。 - 输出:将标准置信区间乘以 \(\hat{\delta}\),得到同时覆盖了抽样不确定性和部分分布不确定性的“校准”区间。

关键引用(转写与幻灯片均提到): - Leamer (1983) “Let’s Take the Con Out of Econometrics” —— 研究者自由度问题的经典奠基。 - Peters et al. (2016) Causal inference by using invariant prediction —— 稳定性用于因果发现。 - Oster (2019) “Unobservable selection and coefficient stability” —— 经济学中利用回归系数变化做灵敏度分析。

二、最小内核 / 一个最简例子

符号与设定: - 目标参数:\(\theta(P_0)\),例如线性回归系数 \(\arg\min_\theta E_{P_0}[(Y - X\theta)^2]\)。 - 可观测数据:\((X_i, Y_i),\; i=1,\dots,n\)。 - 潜在不可观测量:目标分布 \(P_0\) 与真实抽样分布 \(P_\xi\) 之间的扰动机制(\(\xi\) 是随机扰动因子)。 - 采样模型:观测样本来自 \(P_\xi\),而非 \(P_0\);但 \(P_\xi\)\(P_0\) 的关系是未知的,且扰动的强度由一个未知标量 \(\delta\) 控制。

最简特例:一个二元线性回归,感兴趣的是 \(X_1\)\(Y\) 的因果效应(假设线性结构、无混杂)。
- 合理调整集可能有多个:只控制 \(X_2\),或控制 \(X_2\)\(X_3\),等等。记每个调整集对应的估计量为 \(\hat{\theta}_k\)。 - 在经典 i.i.d. 假设下,所有这些 \(\hat{\theta}_k\) 都渐近地、以 \(\sqrt{n}\) 速率收敛到同一个真值 \(\theta(P_0)\),且它们之间的差异(乘以 \(\sqrt{n}\))依分布收敛到均值为零的正态分布。 - 但若数据来自被扰动的分布 \(P_\xi\),则 \(\hat{\theta}_k\) 之间的变异性会比 i.i.d. 下预期的更大(因为每个估计量对扰动模式的敏感度不同),且这个额外变异性对所有估计量是成比例的。

核心思想(一句话)

把多个估计量之间的变异性(除以它们在 i.i.d. 下应有的变异性)作为一把尺子,估算“数据被扰动”的全局强度 \(\delta\);然后用这个 \(\delta\) 放大置信区间,使其覆盖目标参数 \(\theta(P_0)\) 而非只是 \(\theta(P_\xi)\)

为什么这个例子最小
- 只需要两个时间点 / 一个自变量 / 两个调整集(即两个估计量)就能展示思想。 - 概念上只有“抽样方差”和“分布扰动方差”两层级,\(\delta\) 是唯一的额外参数。 - 估计量只需渐近线性(influence function 存在),且它们的差异关于同一 \(\delta\) 成比例——这是报告核心 Assumption 1 的精髓。

三、报告主体:讲者讲了什么

1. 背景与动机 [0:00-0:05]

  • [0:00:06] 讲者 Dominik Rothenhäusler(斯坦福)介绍合作者 Yujin Jeong(斯坦福博士生,负责大量工作)。
  • [0:02:00] 声明:本报告不全关于因果推断,也不引入全新方法,而是为现有实践(用多个估计量评估稳定性)提供严格保证。

2. 两个问题:分布不确定性与研究者自由度 [0:04-0:12]

  • [0:04:00] 标准线性回归推断:假设 i.i.d. 抽样,\(\hat{\theta}\) 渐近正态,置信区间来自影响函数 \(\phi\) 的方差估计。
  • [0:05:00-0:06:50] Issue 1: 分布不确定性:不直接抽样于 \(P_0\),而是来自某种未观察到的扰动分布 \(P_\xi\)。误差分解为
    \[\hat{\theta} - \theta(P_0) = (\hat{\theta} - \theta(P_\xi)) + (\theta(P_\xi) - \theta(P_0))\]

    第一项是抽样误差,第二项是扰动误差。
  • [0:08:10-0:09:50] Issue 2: 研究者自由度:同一问题有多种合理操作化方式(丢弃哪些点、包含哪些协变量、用何种模型/估计方法)。若这些选择没有强理论依据,结论可能严重依赖任意决策(引用 Leamer 1983, Yu & Kumbier 2020)。

3. 核心方法:校准推断 (Calibrated Inference) [0:12-0:30]

  • [0:14:50] 设计决策:将两种不确定性整合进一个单一量(而非报告多个稳定性指标);渐近框架选择:抽样不确定性与分布不确定性同阶(同为 \(1/\sqrt{n}\) 量级),因为这是最有趣、也最常用的情形。
  • Assumption 1(简化版)[0:16:14]:对任意有界、有界全变差的函数 \(\psi\)
    \[\frac{1}{\sqrt{n}}\sum_{i=1}^n (\psi(D_i) - E_{P_0}[\psi(D)]) \approx N(0,\; \delta^2 \text{Var}(\psi(D)))\]
    其中 \(\delta\) 未知;若 i.i.d. 抽样于 \(P_0\)\(\delta=1\)
  • Assumption 2 [0:25:30]:存在 \(K\) 个渐近线性估计量 \(\hat{\theta}_k\),均收敛到 \(\theta(P_0)\),且有影响函数 \(\phi_k\)
  • [0:27:16-0:29:00] 构建 \(\delta\) 的估计量:
    \[\hat{\delta}^2 = \frac{\sum_{k=1}^K n(\hat{\theta}_k - \bar{\hat{\theta}})^2}{\sum_{k=1}^K \frac{1}{n}\sum_{i=1}^n (\hat{\phi}_k(D_i) - \bar{\hat{\phi}}(D_i))^2}\]

    分子是估计量之间的观测变异性,分母是 i.i.d. 抽样下预期变异性;比值接近 1 表示无额外分布扰动,> 1 表示需要膨胀方差。
  • Theorem [0:29:53-0:30:52]:在 Assumption 1 & 2 及正则条件下,当 \(K\to\infty\) 时,
    \[P\left(\theta(P_0) \in \left[\hat{\theta} \pm z_{1-\alpha/2} \cdot \hat{\delta} \sqrt{\frac{\widehat{\text{Var}}(\phi)}{n}}\right]\right) \to 1-\alpha.\]
    关键:即使数据来自 \(P_\xi \neq P_0\),该区间仍覆盖 \(\theta(P_0)\)
  • 强调:分母至关重要性——如果只用绝对偏差(如“不同调整集估计值都差不多”),则无法区分“估计量真的对扰动不敏感”与“把所有估计量建成了同一个估计量”。

4. 分布扰动模型(何时 Assumption 1 成立)[0:31-0:36]

  • [0:31:00] 引入一个具体的扰动模型(discrete 简化版):
  • \(P_0\) 均匀分布(m 类),随机权重 \(\xi_k \ge 0\) 独立同分布,归一化后构成 \(P_\xi\)
  • 则方差公式中出现额外项 \(\frac{n}{m} \frac{\text{Var}(\xi)}{E[\xi]^2}\),即 \(\delta^2 = 1 + \frac{n}{m} \frac{\text{Var}(\xi)}{E[\xi]^2}\)
  • 直觉:随机上调或下调事件的概率,导致总体方差被一个公共因子放大。
  • 其他满足假设的模型 [0:20:58]:带替换的有限总体抽样、簇抽样(簇内单位相关但簇成员未知)等。
  • 各向同性扰动唯一性定理 [0:32:02]:若扰动满足两个对称性条件(任意两个等概率事件被扰动的方差相同;概率趋零的事件扰动方差也趋零),则唯一的扰动模式就是全局方差缩放——即我们的模型。换言之:如果对扰动结构几乎没有先验知识,“各向同性”是一个自然的默认起点。
  • [0:33:46-0:35:30] 与因果推断的关系:
  • 从满足无混杂的分布 \(P_0\) 加上随机扰动后,大概率破坏无混杂性——可视为随机混杂模型。
  • 边际上,观测会出现正相关(\(\text{Cov}(D_i,D_j) = \delta^2_{\text{dist}} \sigma^2\)),可看作一种未知相关结构。

5. 数值实验 [0:40-0:47]

  • 覆盖概率实验 [0:40:41-0:43:58]:
  • 用线性结构因果模型生成数据(真值:\(X_1\)\(Y\) 的因果效应),人为施加扰动(随机调整个体权重)。
  • 比较“校准”区间与“未校准”区间的覆盖率。校准区间覆盖率接近名义水平(如 95%),未校准区间严重偏低。
  • 如果部分调整集选错(不包含必要混杂 \(X_2\)),则 \(\hat{\delta}\) 会高估(保守),导致置信区间偏宽——讲者将此视为稳健性特征。
  • 稳定性排名实验 [0:44:05-0:46:40]:
  • 真实学生成绩数据集(Cortez & Silva 2008),用 12 种随机调整集对 7 个协变量排名效应大小。
  • 方法 1:随机选一个调整集做一次 OLS 回归排名;方法 2:用校准方法(多调整集 + 逆方差加权 + \(\hat{\delta}\) 膨胀)排名。在两个数据子集上比较排名一致性。
  • 结果:校准方法在 top-1、top-2、top-3 位置的排名稳定性明显更高(如 top-1:0.04 vs 0.16, 0.18 vs 0.25)。

6. 讨论人 Guido Imbens 的点评 [0:47:23-0:59:20]

  • Imbens 将这项工作的定位概括为:在只给决策者“点估计 + 标准误”的惯例之外,尝试系统量化模型不确定性与分布不确定性。
  • 他特别指出与计量经济学中过度识别检验(over-identification testing)的联系:经济学者通常用多个工具变量检验模型的正确性(被拒绝则模型无效),而这里则“更建设性”地用估计量间变异性来直接膨胀置信区间。
  • 他提出几个开放问题(见第四节)。

7. 讲者回应 [0:59:29-1:03:50]

  • 如果所有估计量的影响函数渐近相同(如不同倾向得分加权方法),则分母会接近零,估计量变不稳定,但这也反映“我们没有关于分布不确定性的额外信号”。
  • 关于如何选择估计量集合:当前靠随机改动分析过程来生成,理想情况下应基于领域知识。
  • 可以扩展出更一般的扰动模型(允许对 \(X\)\(Y|X\) 的扰动不同),但稳定性的代价未知。

四、对应论文与开放问题

(a) 对应论文

  • 标题与作者:幻灯片首屏显示“Calibrated inference: statistical inference that accounts for both sampling uncertainty and distributional uncertainty”,作者 Dominik Rothenhäusler & Yujin Jeong,均为斯坦福大学。
  • 状态:讲者在结束 [1:03:03] 时说“Manuscript will be posted on arXiv within the next few days”(2022-02-22 报告)。截至回答生成时刻,最相关的公开论文可能是:
  • arXiv 链接(待核实):搜索“Rothenhäusler Jeong calibrated inference”可能找到 arXiv:2203.xxxxx 或类似编号。转写未提供 arXiv ID,因此具体编号不可靠。
  • 注意:报告明确说是“ongoing work”,论文中可能有更完整的理论推导、更细致的数值实验,以及上面讲者口头未覆盖的推论(如逆方差加权、更一般的扰动模型)。
  • 合作者:报告中只提到 Eugene (Yujin Jeong);讨论人 Guido Imbens 是独立评论者而非合作者。

(b) 开放问题(扎根于转写与幻灯片)

  1. 当多个估计量的影响函数渐近相同时,方法是否仍有效?
  2. 来源:Imbens 讨论 [0:56:00-0:56:50] 和讲者回应 [1:00:18-1:00:40]。
  3. 讲者承认此时分母接近零,估计量变会不稳定;但指出“我们很清楚地知道这一点”而非隐藏问题。尚缺乏正式的渐近理论或有限样本指导:如果影响函数之间的差异是 \(o(1/\sqrt{n})\) 阶,\(\hat{\delta}\) 的收敛速率会怎样?置信区间是否仍具有名义覆盖率或过保守?

  4. 如何(原则性地)选择估计量集合?

  5. 来源:Imbens 讨论 [0:58:11-0:58:34] 和讲者回应 [1:01:25-1:01:54]。
  6. 当前做法是“随机改变一些小东西”或者依据背景知识,但缺乏一个系统化方案:应在哪些维度上变动?是否需要覆盖“最小充分调整集”、“包含多余协变量的调整集”甚至“错误调整集”?不同选择会改变 \(\hat{\delta}\) 的偏差与方差。

  7. 是否能将单一标量 \(\delta\) 扩展为更一般的扰动模型(如对 \(X\)\(Y|X\) 的扰动不同)?

  8. 来源:讲者回应 [1:02:01-1:02:30]。
  9. 理论上可以写出高维扰动参数,但稳定性和实际推断潜力如何未知。若扰动模式不是各向同性的(例如只影响某些协变量的分布而对其他变量无影响),当前方法可能低估真实不确定性。

  10. 抽样不确定性与分布不确定性应当合并报告还是分开报告?

  11. 来源:Imbens 讨论 [0:59:07-0:59:16] 和讲者回应 [1:02:31-1:03:20]。
  12. 两者有不同的性质:抽样不确定性随着 \(n\to\infty\) 消失,分布不确定性不消失;合并成单一置信区间方便决策,但可能掩盖“结果对模型假设敏感但样本量足够大”的情况。该问题没有在报告中解决,是开放的设计取舍。

  13. 在因果推断中,该方法与现有灵敏度分析(如 E-value、Rosenbaum bounds、Oster’s \(\delta\))有何异同与互补性?

  14. 来源:Imbens 讨论中提到 Leamer 和 Rosenbaum [0:50:42-0:51:30],但未深入比较。
  15. 需要条件比较:传统灵敏度分析要求研究者指定一个或两个敏感度参数(如混杂强度),而本例则完全依靠估计量之间变异性来自动推断一个全局膨胀因子。两者适用范围、假设强度、输出形式都不同。

提醒:以上问题均来自报告中的口头讨论和 Q&A,不是研究者本人的主动判断;是否值得跟进应由研究者结合自身武器库与兴趣决定。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论