跳转至

Inference on Winners

讲者: Isaiah Andrews
讨论人: Will Fithian
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-07-06
主题: 因果推断
视频: https://youtu.be/Zs6FqGvRIuQ · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

本报告属于 选择性推断 (Selective Inference) 的子方向,更具体地,是 “对赢家 (winners) 的推断”——即当目标参数是通过数据驱动的优化(如取 argmax)选择出来时,如何对该参数进行有效的统计推断。该问题在经济学、流行病学、A/B 测试等领域广泛存在,典型例子是:在多个处理组中推荐表现最好的一个,然后报告该推荐的效应估计及其置信区间。直接使用选定组的样本均值会因“赢家诅咒”(winner’s curse)而向上偏,且置信区间可能严重欠覆盖。

方向背景与奠基工作
- 经典的选择性推断文献处理“在模型选择后进行推断”(如 Lasso 选择后对系数的推断):Lee, Sun, Sun, & Taylor (2016) “Exact post-selection inference with application to the lasso”;Fithian, Sun, & Taylor (2014) “Optimal inference after model selection”。这些工作基于条件推断:给定选择事件(如,选择了哪些变量),构造在条件分布下有效的推断。
- 投影方法 (Projection method) 则属于无条件推断一脉:先构造联合置信集(如对全体参数向量),再投影到被选参数上。这类方法在多重比较(如 Scheffé 方法)和经济学中已有使用。
- 在“赢家”特定问题上,早期有“winner’s curse”的觉察(多见于基因组学),但系统的频率推断方案较少。

当前 frontier
- 如何放松正态性、已知协方差、独立同方差等强假设?
- 如何将选择性推断推广到更复杂的决策规则(多臂 Bandit、自适应试验、结构化选择)?
- 与贝叶斯/经验贝叶斯方法的比较:条件推断在某些设置下过于保守(尤其当选择事件边界附近时长度无限),而投影方法在“明显赢家”情形下冗余。

本报告的站位
报告在正态-已知协方差的 有限样本精确框架 下,系统解决了对 argmax 选择的赢家进行频率推断的问题。核心贡献有二:
1. 条件推断:利用截断正态属于指数族的性质,获得最优中位数无偏估计和等尾置信区间(在文献中已知,但在此问题下提供了显式构造与最优性)。
2. 混合方法 (Hybrid method):这是主要新贡献——将投影方法与条件推断结合,得到无条件有效的置信区间和估计量,其长度在均匀性上优于单纯的投影或条件方法。该思路简洁且可推广。

与研究者兴趣的潜在联系:因果推断中广泛存在“基于数据选择参数”的需求(如选择最优工具变量、最优子群体、最优治疗策略),因此本报告的方法论可视为一个重要的识别后推断模块。同时,报告中的条件推断利用了指数族结构,与半参数理论中条件似然的思想有交叉。


二、最小内核 / 一个最简例子

符号与模型
- 假设有 \(k\) 个处理组(或候选参数),每个处理 \(j\) 的观测估计值为 \(X_j\),其真实均值为 \(\mu_j\)
- 可观测数据:向量 \(X = (X_1,\dots,X_k)^\top\) 服从 \(N(\mu, \Sigma)\),其中 \(\Sigma\) 已知(有限样本精确假设下)。
- 选择规则:令 \(\hat{\theta} = \arg\max_{j} X_j\),即选择观测值最大的处理。
- 目标量:被选处理的真实均值 \(\mu_{\hat{\theta}}\)
- 直接估计:\(\hat{\mu}_{\text{naive}} = X_{\hat{\theta}}\)(选中的样本均值)。

最简特例:\(k=2\)\(\Sigma = I_2\)
- 此时 \(X_1 \perp X_2\),均方差为 1。
- 选择事件:\(\{\hat{\theta}=1\} = \{X_1 > X_2\}\)
- 条件分布:\(X_1 \mid X_2, \hat{\theta}=1 \;\sim\; \text{TN}(\mu_1, 1; \text{lower}=X_2)\),即截断下限为随机变量 \(X_2\) 的正态分布。
- 因此 \(P(X_1 > \mu_1 \mid \hat{\theta}=1) > 1/2\)(条件过度估计概率超过一半),且因此无条件过度估计概率也 \(>1/2\)
- 对 覆盖 的有趣现象:当 \(k=2\) 时,若 \(\Sigma=I\),传统的 95% 置信区间 \(X_{\hat{\theta}} \pm 1.96\) 实际上仍能保持 95% 无条件覆盖(因为选择事件与估计的 Student-t 分布有对称性,见讨论中 Will Fithian 的评论和 Jotum Heklinger? 等的工作),但当 \(k\ge 3\) 时覆盖急剧下降(如报告图所示,\(k=50\) 时覆盖低至约 30%)。

问题本质\(\hat{\theta}\)\(X_{\hat{\theta}}\) 之间存在相关,导致条件偏差;传统推断忽略选择,因此无效。


三、报告主体:讲者讲了什么

[0:00–0:04] 开场与动机

  • 介绍问题:对基于优化选择的参数(如实验中最优处理)进行推断,会导致偏差和欠覆盖。合作者:Toru Kitagawa(不确定拼写,转写为「torah kidagawa」) 和 Adam McCloskey。

[0:04–0:06] 玩具例子与数值演示

  • 设定:\(k\) 个处理,\(X_j \sim N(\mu_j, 1)\) 独立,选择 \(X\) 最大的处理。
  • 概率图(水平轴 \(\mu_1 - \mu_{\text{others}}\),垂直轴过度估计概率减去 0.5):当所有处理等有效时,对 \(k=2\) 过度估计概率约 75%,对 \(k=10\) 约 95%,对 \(k=50\) 接近 1;随 \(\mu_1\) 增大逐渐降至 0.5。
  • 中位数误差图类似。
  • 覆盖图(名义 95%):\(k=2\) 时覆盖仍为 95%(对称性使然);\(k=10\) 时在等有效时降至约 80%;\(k=50\) 时降至约 30%。
  • 时间标记:[0:04] 开始讨论覆盖。

[0:06–0:12] 条件推断

  • 定义条件有效:给定选中的处理 \(\hat{\theta}=j\),推断需在该条件分布下有效(条件覆盖 \(\ge 1-\alpha\),条件中位数无偏)。
  • 识别关键:条件分布 \(X_j \mid \hat{\theta}=j\) 是截断正态,且属于指数族。利用指数族结果可以获得最优中位数无偏估计(probability of overestimation exactly \(\alpha\))和等尾置信区间(optimal in the sense of uniformly most accurate unbiased, 见附录)。
  • 直觉:当选择事件是 \(\{X_1 > X_2\}\),对 \(\mu_1\) 的条件推断中,\(X_2\) 是关于 \(\mu_2\) 的充分统计量;条件在 \(X_2\) 后,\(X_1\) 的分布为截断正态。

[0:12–0:14] 无条件推断:投影方法

  • 定义无条件有效:平均(无条件)覆盖要求 \(\ge 1-\alpha\),中位数无偏要求无条件过度估计概率 = 1/2。
  • 投影区间:构造联合矩形置信集(如通过 max of absolute values 的 1−α 分位数),再取选中的坐标。在例子中,该区间在等有效时覆盖恰好 95%,但在明显赢家时过长(过度覆盖)。

[0:14–0:17] 混合方法 (Hybrid)

  • 核心思路:将条件推断与投影方法结合。改变条件事件:除了条件于 \(\hat{\theta}=j\),还条件于“\(\mu_{\hat{\theta}}\) 落在某个 level-\(\beta\) 投影区间内”(\(\beta< \alpha\))。
  • 效果:混合区间始终包含在投影区间中,因此限制了最差情况下的长度(当多个处理相近时),同时保留条件推断在明显赢家时的短长度。
  • 仿真([0:17–0:19]):对 \(k=50\),混合方法的覆盖接近 95% 均匀,中位长度优于投影且几乎接近条件推断在远离原点时的长度。

[0:19–0:22] 文献定位

  • 条件推断植根于指数族经典结果和选择性推断近期文献(Fithian, Sun, Taylor 等)。
  • 混合方法相对于 post-selection 文献是新颖的。

[0:22–0:27] 一般框架

  • 推广到:观测向量 \((X,Y)\) 联合正态(可选择 X 和 Y 不同),选择基于 X(argmax),推断目标为 \(\mu_{Y,\hat{\theta}}\)(基于 Y 的均值)。协方差阵可任意。
  • 条件推断直接扩展:利用充分统计量处理截断。
  • 条件推断在“几乎总是选同一处理”时退化到传统推断。
  • 样本分裂(sample splitting)作为替代方案:用部分数据选择,另一部分推断。但被 Fithian, Sun, Taylor 证明是被条件推断主导的;本报告在附录中给出了一个更有效的分裂样本方法(数据雕刻 data carving),但更强调使用全数据的选择优势。

[0:29–0:35] 应用:社区效应研究

  • 背景:Chetty & Hendren (2018) 发现社区对儿童成年结果有巨大因果效应;Bergman et al. (2020) 在西雅图进行随机试验,帮助低收入家庭搬到高机会社区(定义为 top 1/3 的经济机会测量)。
  • 模拟:用 Bergman 等真实的经济机会估计作为真值,添加正态噪声,选择 top 1/3,对被选出的 tract 的平均质量相对于全 commuting zone 的增益进行推断。
  • 结果图示:
  • Panel A: 所有 50 个 commuting zone 的增益为正。
  • Panel B: 中位数偏——naive 向上偏;经验贝叶斯(基于正态先验)偏有正有负;条件/混合接近无偏。
  • Panel C: 中位数绝对误差——经验贝叶斯最好(因其收缩),条件/混合次之。
  • Panel D: 覆盖——naive 严重欠覆盖;经验贝叶斯变化大(有些 zone 覆盖极低);投影略微过覆盖;条件与混合接近 95%。
  • Panel E: 中位长度——条件 > 投影 > 混合 > naive ≈ 经验贝叶斯但后者欠覆盖。
  • 实证结果([0:35–0:37]):展示 50 个 commuting zone 的区间——混合和投影区间均不包含 0,表明即使在纠正后,目标遴选策略仍显著有效。

[0:37–0:48] 讨论 (Will Fithian)

  • 关键评论:
  • \(k=2\) 时名义 95% CI 实际覆盖 95%(与直觉相反),因为选择区域形状特殊(Jotum Heklinger? 等近期工作)。
  • 条件推断在截断边界附近时区间极长(如观察值 3.1 时无法排除 \(\mu=-5\)),这是条件推断的代价。
  • 数据雕刻(Fithian 等)可缓解但牺牲选择精度;混合方法通过投影区域加“clip”解决了该问题。
  • 问题:混合方法能否推广到其他选择问题(如模型选择)?能否与随机化方法结合?能否只用单侧边界?能否通过精心构造区域使得混合区间在“明显赢家”时收敛到名义区间?
  • 对经验贝叶斯的讨论:模拟中覆盖差是因为我们的 DGP 固定真值(非随机),若真值来自正态先验则经验贝叶斯应覆盖良好;但若来自非正态,则仍可能出问题。能否将协变量纳入频率分析?

[0:48–0:56] 讲者回应

  • 混合方法可一般化——Adam McCloskey 有一篇后续论文将其推广到模型选择设置。
  • 与随机化结合:对“选择赢家”问题,随机化牺牲推荐质量,不吸引人;但在更一般的模型选择中可能有用。
  • 对单侧边界:在一般协方差下可能出现双侧截断,故采用双侧投影;但可以针对特定情形优化。
  • 关于收敛到名义区间:确实可以通过更精细的投影形状实现,但尚未完成。
  • 经验贝叶斯:在随机效应(真值来自正态)时覆盖好,但在固定效应下覆盖差;可探索非正态先验。
  • 加入协变量:理论上可行,但尚未做。

四、对应论文与开放问题

对应论文(基于转写推断,可能存在误差,需查 arXiv / 作者网页确认)
- Andrews, I., Kitagawa, T., & McCloskey, A. (2021). Inference on Winners. 工作论文,可能已投稿或发表在 Journal of Econometrics / Econometrica 等。
- 标题可在转写中确认:「inference on winners」。
- 合作者拼写的不确定性:转写为「torah kidagawa」和「adam mccloskey」,根据领域常识应为 Toru Kitagawa (University College London?) 和 Adam McCloskey (University of Colorado at Boulder?)。
- 报告日期 2021-07-06,论文可能已更新。

开放问题(每条扎根于转写中的具体位置)

  1. 推广到非正态、未知协方差 [0:22–0:24] 报告聚焦于有限样本正态已知协方差,仅提及可通过一致估计渐近推广。如何在高维或半参数估计中得到类似结果?这对研究者(他在高维统计和半参数理论上有深厚背景)是一个直接问题。

  2. 如何将混合方法应用于更一般的选择规则(如 Lasso、模型选择)? [0:48–0:50] 讲者提到 Adam McCloskey 有后续工作,但报告本身未展开。Will Fithian 的评论也问能否推广。

  3. 如何处理多阶段/自适应选择(如多臂 Bandit)? [0:52–0:56] 在 Q&A 中,Hiro 提到 multi-armed bandit,讲者回应在早期讨论中(与 Kevin Chen)。这需要处理非独立、非充分选择规则。

  4. 能否在混合方法中整合协变量信息以缩小区间? [0:47–0:48] Will 指出经验贝叶斯利用了 census tract 协变量,而频率方法未用;讲者承认这是有趣的问题但未做。

  5. 如何同时获得有意义的一侧截断和更短的区间? [0:43–0:45] Will 提出是否可以用单侧投影(下界)来改善;讲者回答在一般协方差下可能双侧都需要。是否可以设计灵活形状?

  6. 如何实现混合方法的统一最优性? 报告展示了混合在仿真中表现好,但没有像条件推断那样的最优性证明(例如 minimax 或平均长度最优)。是否存在理论保证?

  7. 与经验贝叶斯的深层联系 [0:51–0:53] 当真实分布偏离正态先验时,经验贝叶斯覆盖差;能否构造一种频率方法在随机效应下也保持良好覆盖,即结合贝叶斯收缩与频率保证?


备注
- 转写中的人名/术语可能有 ASR 错误:如「torah kidagawa」极可能为 Toru Kitagawa;「will ian」为 Will Fithian(UC Berkeley);「chatty and hendra」为 Chetty & Hendren;「birdman at all」为 Bergman et al.;「50 and sun and taylor」可能指 Fithian, Sun, Taylor 的文献。
- 转写中“jotum hecklinger”等名字不清楚,未作为依据。
- 上述开放问题已扎根到具体时间点,供研究者亲自核对视频。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论