Inference on Winners¶
讲者: Isaiah Andrews
讨论人: Will Fithian
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-07-06
主题: 因果推断
视频: https://youtu.be/Zs6FqGvRIuQ · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
本报告属于 选择性推断 (Selective Inference) 的子方向,更具体地,是 “对赢家 (winners) 的推断”——即当目标参数是通过数据驱动的优化(如取 argmax)选择出来时,如何对该参数进行有效的统计推断。该问题在经济学、流行病学、A/B 测试等领域广泛存在,典型例子是:在多个处理组中推荐表现最好的一个,然后报告该推荐的效应估计及其置信区间。直接使用选定组的样本均值会因“赢家诅咒”(winner’s curse)而向上偏,且置信区间可能严重欠覆盖。
方向背景与奠基工作
- 经典的选择性推断文献处理“在模型选择后进行推断”(如 Lasso 选择后对系数的推断):Lee, Sun, Sun, & Taylor (2016) “Exact post-selection inference with application to the lasso”;Fithian, Sun, & Taylor (2014) “Optimal inference after model selection”。这些工作基于条件推断:给定选择事件(如,选择了哪些变量),构造在条件分布下有效的推断。
- 投影方法 (Projection method) 则属于无条件推断一脉:先构造联合置信集(如对全体参数向量),再投影到被选参数上。这类方法在多重比较(如 Scheffé 方法)和经济学中已有使用。
- 在“赢家”特定问题上,早期有“winner’s curse”的觉察(多见于基因组学),但系统的频率推断方案较少。
当前 frontier
- 如何放松正态性、已知协方差、独立同方差等强假设?
- 如何将选择性推断推广到更复杂的决策规则(多臂 Bandit、自适应试验、结构化选择)?
- 与贝叶斯/经验贝叶斯方法的比较:条件推断在某些设置下过于保守(尤其当选择事件边界附近时长度无限),而投影方法在“明显赢家”情形下冗余。
本报告的站位
报告在正态-已知协方差的 有限样本精确框架 下,系统解决了对 argmax 选择的赢家进行频率推断的问题。核心贡献有二:
1. 条件推断:利用截断正态属于指数族的性质,获得最优中位数无偏估计和等尾置信区间(在文献中已知,但在此问题下提供了显式构造与最优性)。
2. 混合方法 (Hybrid method):这是主要新贡献——将投影方法与条件推断结合,得到无条件有效的置信区间和估计量,其长度在均匀性上优于单纯的投影或条件方法。该思路简洁且可推广。
与研究者兴趣的潜在联系:因果推断中广泛存在“基于数据选择参数”的需求(如选择最优工具变量、最优子群体、最优治疗策略),因此本报告的方法论可视为一个重要的识别后推断模块。同时,报告中的条件推断利用了指数族结构,与半参数理论中条件似然的思想有交叉。
二、最小内核 / 一个最简例子¶
符号与模型
- 假设有 \(k\) 个处理组(或候选参数),每个处理 \(j\) 的观测估计值为 \(X_j\),其真实均值为 \(\mu_j\)。
- 可观测数据:向量 \(X = (X_1,\dots,X_k)^\top\) 服从 \(N(\mu, \Sigma)\),其中 \(\Sigma\) 已知(有限样本精确假设下)。
- 选择规则:令 \(\hat{\theta} = \arg\max_{j} X_j\),即选择观测值最大的处理。
- 目标量:被选处理的真实均值 \(\mu_{\hat{\theta}}\)。
- 直接估计:\(\hat{\mu}_{\text{naive}} = X_{\hat{\theta}}\)(选中的样本均值)。
最简特例:\(k=2\),\(\Sigma = I_2\)
- 此时 \(X_1 \perp X_2\),均方差为 1。
- 选择事件:\(\{\hat{\theta}=1\} = \{X_1 > X_2\}\)。
- 条件分布:\(X_1 \mid X_2, \hat{\theta}=1 \;\sim\; \text{TN}(\mu_1, 1; \text{lower}=X_2)\),即截断下限为随机变量 \(X_2\) 的正态分布。
- 因此 \(P(X_1 > \mu_1 \mid \hat{\theta}=1) > 1/2\)(条件过度估计概率超过一半),且因此无条件过度估计概率也 \(>1/2\)。
- 对 覆盖 的有趣现象:当 \(k=2\) 时,若 \(\Sigma=I\),传统的 95% 置信区间 \(X_{\hat{\theta}} \pm 1.96\) 实际上仍能保持 95% 无条件覆盖(因为选择事件与估计的 Student-t 分布有对称性,见讨论中 Will Fithian 的评论和 Jotum Heklinger? 等的工作),但当 \(k\ge 3\) 时覆盖急剧下降(如报告图所示,\(k=50\) 时覆盖低至约 30%)。
问题本质:\(\hat{\theta}\) 与 \(X_{\hat{\theta}}\) 之间存在相关,导致条件偏差;传统推断忽略选择,因此无效。
三、报告主体:讲者讲了什么¶
[0:00–0:04] 开场与动机¶
- 介绍问题:对基于优化选择的参数(如实验中最优处理)进行推断,会导致偏差和欠覆盖。合作者:Toru Kitagawa(不确定拼写,转写为「torah kidagawa」) 和 Adam McCloskey。
[0:04–0:06] 玩具例子与数值演示¶
- 设定:\(k\) 个处理,\(X_j \sim N(\mu_j, 1)\) 独立,选择 \(X\) 最大的处理。
- 概率图(水平轴 \(\mu_1 - \mu_{\text{others}}\),垂直轴过度估计概率减去 0.5):当所有处理等有效时,对 \(k=2\) 过度估计概率约 75%,对 \(k=10\) 约 95%,对 \(k=50\) 接近 1;随 \(\mu_1\) 增大逐渐降至 0.5。
- 中位数误差图类似。
- 覆盖图(名义 95%):\(k=2\) 时覆盖仍为 95%(对称性使然);\(k=10\) 时在等有效时降至约 80%;\(k=50\) 时降至约 30%。
- 时间标记:[0:04] 开始讨论覆盖。
[0:06–0:12] 条件推断¶
- 定义条件有效:给定选中的处理 \(\hat{\theta}=j\),推断需在该条件分布下有效(条件覆盖 \(\ge 1-\alpha\),条件中位数无偏)。
- 识别关键:条件分布 \(X_j \mid \hat{\theta}=j\) 是截断正态,且属于指数族。利用指数族结果可以获得最优中位数无偏估计(probability of overestimation exactly \(\alpha\))和等尾置信区间(optimal in the sense of uniformly most accurate unbiased, 见附录)。
- 直觉:当选择事件是 \(\{X_1 > X_2\}\),对 \(\mu_1\) 的条件推断中,\(X_2\) 是关于 \(\mu_2\) 的充分统计量;条件在 \(X_2\) 后,\(X_1\) 的分布为截断正态。
[0:12–0:14] 无条件推断:投影方法¶
- 定义无条件有效:平均(无条件)覆盖要求 \(\ge 1-\alpha\),中位数无偏要求无条件过度估计概率 = 1/2。
- 投影区间:构造联合矩形置信集(如通过 max of absolute values 的 1−α 分位数),再取选中的坐标。在例子中,该区间在等有效时覆盖恰好 95%,但在明显赢家时过长(过度覆盖)。
[0:14–0:17] 混合方法 (Hybrid)¶
- 核心思路:将条件推断与投影方法结合。改变条件事件:除了条件于 \(\hat{\theta}=j\),还条件于“\(\mu_{\hat{\theta}}\) 落在某个 level-\(\beta\) 投影区间内”(\(\beta< \alpha\))。
- 效果:混合区间始终包含在投影区间中,因此限制了最差情况下的长度(当多个处理相近时),同时保留条件推断在明显赢家时的短长度。
- 仿真([0:17–0:19]):对 \(k=50\),混合方法的覆盖接近 95% 均匀,中位长度优于投影且几乎接近条件推断在远离原点时的长度。
[0:19–0:22] 文献定位¶
- 条件推断植根于指数族经典结果和选择性推断近期文献(Fithian, Sun, Taylor 等)。
- 混合方法相对于 post-selection 文献是新颖的。
[0:22–0:27] 一般框架¶
- 推广到:观测向量 \((X,Y)\) 联合正态(可选择 X 和 Y 不同),选择基于 X(argmax),推断目标为 \(\mu_{Y,\hat{\theta}}\)(基于 Y 的均值)。协方差阵可任意。
- 条件推断直接扩展:利用充分统计量处理截断。
- 条件推断在“几乎总是选同一处理”时退化到传统推断。
- 样本分裂(sample splitting)作为替代方案:用部分数据选择,另一部分推断。但被 Fithian, Sun, Taylor 证明是被条件推断主导的;本报告在附录中给出了一个更有效的分裂样本方法(数据雕刻 data carving),但更强调使用全数据的选择优势。
[0:29–0:35] 应用:社区效应研究¶
- 背景:Chetty & Hendren (2018) 发现社区对儿童成年结果有巨大因果效应;Bergman et al. (2020) 在西雅图进行随机试验,帮助低收入家庭搬到高机会社区(定义为 top 1/3 的经济机会测量)。
- 模拟:用 Bergman 等真实的经济机会估计作为真值,添加正态噪声,选择 top 1/3,对被选出的 tract 的平均质量相对于全 commuting zone 的增益进行推断。
- 结果图示:
- Panel A: 所有 50 个 commuting zone 的增益为正。
- Panel B: 中位数偏——naive 向上偏;经验贝叶斯(基于正态先验)偏有正有负;条件/混合接近无偏。
- Panel C: 中位数绝对误差——经验贝叶斯最好(因其收缩),条件/混合次之。
- Panel D: 覆盖——naive 严重欠覆盖;经验贝叶斯变化大(有些 zone 覆盖极低);投影略微过覆盖;条件与混合接近 95%。
- Panel E: 中位长度——条件 > 投影 > 混合 > naive ≈ 经验贝叶斯但后者欠覆盖。
- 实证结果([0:35–0:37]):展示 50 个 commuting zone 的区间——混合和投影区间均不包含 0,表明即使在纠正后,目标遴选策略仍显著有效。
[0:37–0:48] 讨论 (Will Fithian)¶
- 关键评论:
- 当 \(k=2\) 时名义 95% CI 实际覆盖 95%(与直觉相反),因为选择区域形状特殊(Jotum Heklinger? 等近期工作)。
- 条件推断在截断边界附近时区间极长(如观察值 3.1 时无法排除 \(\mu=-5\)),这是条件推断的代价。
- 数据雕刻(Fithian 等)可缓解但牺牲选择精度;混合方法通过投影区域加“clip”解决了该问题。
- 问题:混合方法能否推广到其他选择问题(如模型选择)?能否与随机化方法结合?能否只用单侧边界?能否通过精心构造区域使得混合区间在“明显赢家”时收敛到名义区间?
- 对经验贝叶斯的讨论:模拟中覆盖差是因为我们的 DGP 固定真值(非随机),若真值来自正态先验则经验贝叶斯应覆盖良好;但若来自非正态,则仍可能出问题。能否将协变量纳入频率分析?
[0:48–0:56] 讲者回应¶
- 混合方法可一般化——Adam McCloskey 有一篇后续论文将其推广到模型选择设置。
- 与随机化结合:对“选择赢家”问题,随机化牺牲推荐质量,不吸引人;但在更一般的模型选择中可能有用。
- 对单侧边界:在一般协方差下可能出现双侧截断,故采用双侧投影;但可以针对特定情形优化。
- 关于收敛到名义区间:确实可以通过更精细的投影形状实现,但尚未完成。
- 经验贝叶斯:在随机效应(真值来自正态)时覆盖好,但在固定效应下覆盖差;可探索非正态先验。
- 加入协变量:理论上可行,但尚未做。
四、对应论文与开放问题¶
对应论文(基于转写推断,可能存在误差,需查 arXiv / 作者网页确认)
- Andrews, I., Kitagawa, T., & McCloskey, A. (2021). Inference on Winners. 工作论文,可能已投稿或发表在 Journal of Econometrics / Econometrica 等。
- 标题可在转写中确认:「inference on winners」。
- 合作者拼写的不确定性:转写为「torah kidagawa」和「adam mccloskey」,根据领域常识应为 Toru Kitagawa (University College London?) 和 Adam McCloskey (University of Colorado at Boulder?)。
- 报告日期 2021-07-06,论文可能已更新。
开放问题(每条扎根于转写中的具体位置)
-
推广到非正态、未知协方差 [0:22–0:24] 报告聚焦于有限样本正态已知协方差,仅提及可通过一致估计渐近推广。如何在高维或半参数估计中得到类似结果?这对研究者(他在高维统计和半参数理论上有深厚背景)是一个直接问题。
-
如何将混合方法应用于更一般的选择规则(如 Lasso、模型选择)? [0:48–0:50] 讲者提到 Adam McCloskey 有后续工作,但报告本身未展开。Will Fithian 的评论也问能否推广。
-
如何处理多阶段/自适应选择(如多臂 Bandit)? [0:52–0:56] 在 Q&A 中,Hiro 提到 multi-armed bandit,讲者回应在早期讨论中(与 Kevin Chen)。这需要处理非独立、非充分选择规则。
-
能否在混合方法中整合协变量信息以缩小区间? [0:47–0:48] Will 指出经验贝叶斯利用了 census tract 协变量,而频率方法未用;讲者承认这是有趣的问题但未做。
-
如何同时获得有意义的一侧截断和更短的区间? [0:43–0:45] Will 提出是否可以用单侧投影(下界)来改善;讲者回答在一般协方差下可能双侧都需要。是否可以设计灵活形状?
-
如何实现混合方法的统一最优性? 报告展示了混合在仿真中表现好,但没有像条件推断那样的最优性证明(例如 minimax 或平均长度最优)。是否存在理论保证?
-
与经验贝叶斯的深层联系 [0:51–0:53] 当真实分布偏离正态先验时,经验贝叶斯覆盖差;能否构造一种频率方法在随机效应下也保持良好覆盖,即结合贝叶斯收缩与频率保证?
备注:
- 转写中的人名/术语可能有 ASR 错误:如「torah kidagawa」极可能为 Toru Kitagawa;「will ian」为 Will Fithian(UC Berkeley);「chatty and hendra」为 Chetty & Hendren;「birdman at all」为 Bergman et al.;「50 and sun and taylor」可能指 Fithian, Sun, Taylor 的文献。
- 转写中“jotum hecklinger”等名字不清楚,未作为依据。
- 上述开放问题已扎根到具体时间点,供研究者亲自核对视频。
Maintained by 陈星宇 · Homepage · Source on GitHub