Inference on Winners¶

讲者: Isaiah Andrews
讨论人: Will Fithian
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-07-06
主题: 因果推断
视频: https://youtu.be/Zs6FqGvRIuQ · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

本报告属于 选择性推断 (Selective Inference) 的子方向，更具体地，是 “对赢家 (winners) 的推断”——即当目标参数是通过数据驱动的优化（如取 argmax）选择出来时，如何对该参数进行有效的统计推断。该问题在经济学、流行病学、A/B 测试等领域广泛存在，典型例子是：在多个处理组中推荐表现最好的一个，然后报告该推荐的效应估计及其置信区间。直接使用选定组的样本均值会因“赢家诅咒”（winner’s curse）而向上偏，且置信区间可能严重欠覆盖。

方向背景与奠基工作
- 经典的选择性推断文献处理“在模型选择后进行推断”（如 Lasso 选择后对系数的推断）：Lee, Sun, Sun, & Taylor (2016) “Exact post-selection inference with application to the lasso”；Fithian, Sun, & Taylor (2014) “Optimal inference after model selection”。这些工作基于条件推断：给定选择事件（如，选择了哪些变量），构造在条件分布下有效的推断。
- 投影方法 (Projection method) 则属于无条件推断一脉：先构造联合置信集（如对全体参数向量），再投影到被选参数上。这类方法在多重比较（如 Scheffé 方法）和经济学中已有使用。
- 在“赢家”特定问题上，早期有“winner’s curse”的觉察（多见于基因组学），但系统的频率推断方案较少。

当前 frontier
- 如何放松正态性、已知协方差、独立同方差等强假设？
- 如何将选择性推断推广到更复杂的决策规则（多臂 Bandit、自适应试验、结构化选择）？
- 与贝叶斯/经验贝叶斯方法的比较：条件推断在某些设置下过于保守（尤其当选择事件边界附近时长度无限），而投影方法在“明显赢家”情形下冗余。

本报告的站位
报告在正态-已知协方差的 有限样本精确框架 下，系统解决了对 argmax 选择的赢家进行频率推断的问题。核心贡献有二：
1. 条件推断：利用截断正态属于指数族的性质，获得最优中位数无偏估计和等尾置信区间（在文献中已知，但在此问题下提供了显式构造与最优性）。
2. 混合方法 (Hybrid method)：这是主要新贡献——将投影方法与条件推断结合，得到无条件有效的置信区间和估计量，其长度在均匀性上优于单纯的投影或条件方法。该思路简洁且可推广。

与研究者兴趣的潜在联系：因果推断中广泛存在“基于数据选择参数”的需求（如选择最优工具变量、最优子群体、最优治疗策略），因此本报告的方法论可视为一个重要的识别后推断模块。同时，报告中的条件推断利用了指数族结构，与半参数理论中条件似然的思想有交叉。

二、最小内核 / 一个最简例子¶

符号与模型
- 假设有 \(k\) 个处理组（或候选参数），每个处理 \(j\) 的观测估计值为 \(X_j\)，其真实均值为 \(\mu_j\)。
- 可观测数据：向量 \(X = (X_1,\dots,X_k)^\top\) 服从 \(N(\mu, \Sigma)\)，其中 \(\Sigma\) 已知（有限样本精确假设下）。
- 选择规则：令 \(\hat{\theta} = \arg\max_{j} X_j\)，即选择观测值最大的处理。
- 目标量：被选处理的真实均值 \(\mu_{\hat{\theta}}\)。
- 直接估计：\(\hat{\mu}_{\text{naive}} = X_{\hat{\theta}}\)（选中的样本均值）。

最简特例：\(k=2\)，\(\Sigma = I_2\)
- 此时 \(X_1 \perp X_2\)，均方差为 1。
- 选择事件：\(\{\hat{\theta}=1\} = \{X_1 > X_2\}\)。
- 条件分布：\(X_1 \mid X_2, \hat{\theta}=1 \;\sim\; \text{TN}(\mu_1, 1; \text{lower}=X_2)\)，即截断下限为随机变量 \(X_2\) 的正态分布。
- 因此 \(P(X_1 > \mu_1 \mid \hat{\theta}=1) > 1/2\)（条件过度估计概率超过一半），且因此无条件过度估计概率也 \(>1/2\)。
- 对覆盖的有趣现象：当 \(k=2\) 时，若 \(\Sigma=I\)，传统的 95% 置信区间 \(X_{\hat{\theta}} \pm 1.96\) 实际上仍能保持 95% 无条件覆盖（因为选择事件与估计的 Student-t 分布有对称性，见讨论中 Will Fithian 的评论和 Jotum Heklinger? 等的工作），但当 \(k\ge 3\) 时覆盖急剧下降（如报告图所示，\(k=50\) 时覆盖低至约 30%）。

问题本质：\(\hat{\theta}\) 与 \(X_{\hat{\theta}}\) 之间存在相关，导致条件偏差；传统推断忽略选择，因此无效。

三、报告主体：讲者讲了什么¶

[0:00–0:04] 开场与动机¶

介绍问题：对基于优化选择的参数（如实验中最优处理）进行推断，会导致偏差和欠覆盖。合作者：Toru Kitagawa（不确定拼写，转写为「torah kidagawa」）和 Adam McCloskey。

[0:04–0:06] 玩具例子与数值演示¶

设定：\(k\) 个处理，\(X_j \sim N(\mu_j, 1)\) 独立，选择 \(X\) 最大的处理。
概率图（水平轴 \(\mu_1 - \mu_{\text{others}}\)，垂直轴过度估计概率减去 0.5）：当所有处理等有效时，对 \(k=2\) 过度估计概率约 75%，对 \(k=10\) 约 95%，对 \(k=50\) 接近 1；随 \(\mu_1\) 增大逐渐降至 0.5。
中位数误差图类似。
覆盖图（名义 95%）：\(k=2\) 时覆盖仍为 95%（对称性使然）；\(k=10\) 时在等有效时降至约 80%；\(k=50\) 时降至约 30%。
时间标记：[0:04] 开始讨论覆盖。

[0:06–0:12] 条件推断¶

定义条件有效：给定选中的处理 \(\hat{\theta}=j\)，推断需在该条件分布下有效（条件覆盖 \(\ge 1-\alpha\)，条件中位数无偏）。
识别关键：条件分布 \(X_j \mid \hat{\theta}=j\) 是截断正态，且属于指数族。利用指数族结果可以获得最优中位数无偏估计（probability of overestimation exactly \(\alpha\)）和等尾置信区间（optimal in the sense of uniformly most accurate unbiased, 见附录）。
直觉：当选择事件是 \(\{X_1 > X_2\}\)，对 \(\mu_1\) 的条件推断中，\(X_2\) 是关于 \(\mu_2\) 的充分统计量；条件在 \(X_2\) 后，\(X_1\) 的分布为截断正态。

[0:12–0:14] 无条件推断：投影方法¶

定义无条件有效：平均（无条件）覆盖要求 \(\ge 1-\alpha\)，中位数无偏要求无条件过度估计概率 = 1/2。
投影区间：构造联合矩形置信集（如通过 max of absolute values 的 1−α 分位数），再取选中的坐标。在例子中，该区间在等有效时覆盖恰好 95%，但在明显赢家时过长（过度覆盖）。

[0:14–0:17] 混合方法 (Hybrid)¶

核心思路：将条件推断与投影方法结合。改变条件事件：除了条件于 \(\hat{\theta}=j\)，还条件于“\(\mu_{\hat{\theta}}\) 落在某个 level-\(\beta\) 投影区间内”（\(\beta< \alpha\)）。
效果：混合区间始终包含在投影区间中，因此限制了最差情况下的长度（当多个处理相近时），同时保留条件推断在明显赢家时的短长度。
仿真（[0:17–0:19]）：对 \(k=50\)，混合方法的覆盖接近 95% 均匀，中位长度优于投影且几乎接近条件推断在远离原点时的长度。

[0:19–0:22] 文献定位¶

条件推断植根于指数族经典结果和选择性推断近期文献（Fithian, Sun, Taylor 等）。
混合方法相对于 post-selection 文献是新颖的。

[0:22–0:27] 一般框架¶

推广到：观测向量 \((X,Y)\) 联合正态（可选择 X 和 Y 不同），选择基于 X（argmax），推断目标为 \(\mu_{Y,\hat{\theta}}\)（基于 Y 的均值）。协方差阵可任意。
条件推断直接扩展：利用充分统计量处理截断。
条件推断在“几乎总是选同一处理”时退化到传统推断。
样本分裂（sample splitting）作为替代方案：用部分数据选择，另一部分推断。但被 Fithian, Sun, Taylor 证明是被条件推断主导的；本报告在附录中给出了一个更有效的分裂样本方法（数据雕刻 data carving），但更强调使用全数据的选择优势。

[0:29–0:35] 应用：社区效应研究¶

背景：Chetty & Hendren (2018) 发现社区对儿童成年结果有巨大因果效应；Bergman et al. (2020) 在西雅图进行随机试验，帮助低收入家庭搬到高机会社区（定义为 top 1/3 的经济机会测量）。
模拟：用 Bergman 等真实的经济机会估计作为真值，添加正态噪声，选择 top 1/3，对被选出的 tract 的平均质量相对于全 commuting zone 的增益进行推断。
结果图示：
Panel A: 所有 50 个 commuting zone 的增益为正。
Panel B: 中位数偏——naive 向上偏；经验贝叶斯（基于正态先验）偏有正有负；条件/混合接近无偏。
Panel C: 中位数绝对误差——经验贝叶斯最好（因其收缩），条件/混合次之。
Panel D: 覆盖——naive 严重欠覆盖；经验贝叶斯变化大（有些 zone 覆盖极低）；投影略微过覆盖；条件与混合接近 95%。
Panel E: 中位长度——条件 > 投影 > 混合 > naive ≈ 经验贝叶斯但后者欠覆盖。
实证结果（[0:35–0:37]）：展示 50 个 commuting zone 的区间——混合和投影区间均不包含 0，表明即使在纠正后，目标遴选策略仍显著有效。

[0:37–0:48] 讨论 (Will Fithian)¶

关键评论：
当 \(k=2\) 时名义 95% CI 实际覆盖 95%（与直觉相反），因为选择区域形状特殊（Jotum Heklinger? 等近期工作）。
条件推断在截断边界附近时区间极长（如观察值 3.1 时无法排除 \(\mu=-5\)），这是条件推断的代价。
数据雕刻（Fithian 等）可缓解但牺牲选择精度；混合方法通过投影区域加“clip”解决了该问题。
问题：混合方法能否推广到其他选择问题（如模型选择）？能否与随机化方法结合？能否只用单侧边界？能否通过精心构造区域使得混合区间在“明显赢家”时收敛到名义区间？
对经验贝叶斯的讨论：模拟中覆盖差是因为我们的 DGP 固定真值（非随机），若真值来自正态先验则经验贝叶斯应覆盖良好；但若来自非正态，则仍可能出问题。能否将协变量纳入频率分析？

[0:48–0:56] 讲者回应¶

混合方法可一般化——Adam McCloskey 有一篇后续论文将其推广到模型选择设置。
与随机化结合：对“选择赢家”问题，随机化牺牲推荐质量，不吸引人；但在更一般的模型选择中可能有用。
对单侧边界：在一般协方差下可能出现双侧截断，故采用双侧投影；但可以针对特定情形优化。
关于收敛到名义区间：确实可以通过更精细的投影形状实现，但尚未完成。
经验贝叶斯：在随机效应（真值来自正态）时覆盖好，但在固定效应下覆盖差；可探索非正态先验。
加入协变量：理论上可行，但尚未做。

四、对应论文与开放问题¶

对应论文（基于转写推断，可能存在误差，需查 arXiv / 作者网页确认）
- Andrews, I., Kitagawa, T., & McCloskey, A. (2021). Inference on Winners. 工作论文，可能已投稿或发表在 Journal of Econometrics / Econometrica 等。
- 标题可在转写中确认：「inference on winners」。
- 合作者拼写的不确定性：转写为「torah kidagawa」和「adam mccloskey」，根据领域常识应为 Toru Kitagawa (University College London?) 和 Adam McCloskey (University of Colorado at Boulder?)。
- 报告日期 2021-07-06，论文可能已更新。

开放问题（每条扎根于转写中的具体位置）

推广到非正态、未知协方差 [0:22–0:24] 报告聚焦于有限样本正态已知协方差，仅提及可通过一致估计渐近推广。如何在高维或半参数估计中得到类似结果？这对研究者（他在高维统计和半参数理论上有深厚背景）是一个直接问题。
如何将混合方法应用于更一般的选择规则（如 Lasso、模型选择）？ [0:48–0:50] 讲者提到 Adam McCloskey 有后续工作，但报告本身未展开。Will Fithian 的评论也问能否推广。
如何处理多阶段/自适应选择（如多臂 Bandit）？ [0:52–0:56] 在 Q&A 中，Hiro 提到 multi-armed bandit，讲者回应在早期讨论中（与 Kevin Chen）。这需要处理非独立、非充分选择规则。
能否在混合方法中整合协变量信息以缩小区间？ [0:47–0:48] Will 指出经验贝叶斯利用了 census tract 协变量，而频率方法未用；讲者承认这是有趣的问题但未做。
如何同时获得有意义的一侧截断和更短的区间？ [0:43–0:45] Will 提出是否可以用单侧投影（下界）来改善；讲者回答在一般协方差下可能双侧都需要。是否可以设计灵活形状？
如何实现混合方法的统一最优性？ 报告展示了混合在仿真中表现好，但没有像条件推断那样的最优性证明（例如 minimax 或平均长度最优）。是否存在理论保证？
与经验贝叶斯的深层联系 [0:51–0:53] 当真实分布偏离正态先验时，经验贝叶斯覆盖差；能否构造一种频率方法在随机效应下也保持良好覆盖，即结合贝叶斯收缩与频率保证？

备注：
- 转写中的人名/术语可能有 ASR 错误：如「torah kidagawa」极可能为 Toru Kitagawa；「will ian」为 Will Fithian（UC Berkeley）；「chatty and hendra」为 Chetty & Hendren；「birdman at all」为 Bergman et al.；「50 and sun and taylor」可能指 Fithian, Sun, Taylor 的文献。
- 转写中“jotum hecklinger”等名字不清楚，未作为依据。
- 上述开放问题已扎根到具体时间点，供研究者亲自核对视频。

Maintained by 陈星宇 · Homepage · Source on GitHub