Selection bias in 2020¶
讲者: Qingyuan Zhao
讨论人: Louisa Smith
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-12-08
主题: 因果推断
视频: https://www.youtube.com/watch?v=xfaMej1NSa4 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告的标题是 "Selection bias in 2020",讲者是剑桥大学的 Qingyuan Zhao(赵清源)。它不在推进某个单一的新理论,而是用两个2020年的社会热点案例,极具冲击力地展示 选择偏误(selection bias)在实操中可以大到令人震惊的程度,并呼吁统计/因果推断研究者从“第一性原理”出发,正视和校正这种偏误。
该方向的核心追问¶
选择偏误是一个经典的、跨学科的“伞状术语”。报告的幻灯片引用了两个定义:Cambridge Dictionary of Statistics 的定义强调“治疗选择由个体做出或受制于研究者未观察到的约束”;Wikipedia 的定义则强调“选择方式未能实现随机化”。维基百科还列举了多种特定类型的偏误(抽样偏误、删失/截断、易感性偏误、Berkson 悖论等)。这个方向的核心追问是:当数据的生成过程(招募、流失、记录)不是随机的,而是与研究的变量(暴露/结局)相关时,观察到的关联能否无偏地估计目标人群中的描述性统计量或因果效应?
奠基与主流路线¶
- 流行病学与缺失数据框架:以 Rubin (1976) 的缺失数据机制(MCAR/MAR/MNAR)为基础,通过加权(IPW)、多重插补、选择模型等方法处理。典型工作如 Little & Rubin Statistical Analysis with Missing Data。
- 图模型 / DAG (Directed Acyclic Graphs):以 Pearl (1995) 的因果图为基础,通过 d-separation 和 do-算子判断条件的选择是否引入了碰撞偏误(collider bias)或改变了效应路径。这是报告中 Knox et al. (2020) 的主要工具。
- 逆概率加权(IPW)与标准化:通过在分母中纳入选择概率(倾向性得分),试图恢复目标人群的分布。
- 敏感性分析:在无法完全已知选择机制时,通过参数化偏误强度(如偏误因子、E-value)评估结果对未测量混杂的稳健性。
当前 Frontier 与这场报告站在哪¶
当前 frontiery 的探索包括:半参数效率理论下的双重稳健估计、Proximal causal inference (Tchetgen et al.) 处理未测量混杂、以及在截断/删失下的因果推断 (e.g., 截断回归, survival with competing risks)。
这场报告站在一个批判性、警告性的位置。 它没有提出新的数学框架,而是通过两个精心建模的案例,对“天真的应用常规方法以避免选择偏误”这一假设进行压力测试。报告展示了在COVID-19流行病早期(武汉出口病例)和警政种族偏见这两个高度敏感的领域,若不做够建模功课,偏误可以轻松导致10倍、甚至数十倍的估计偏差,从而让推断结论彻底反转。其方法论贡献在于:针对第一个案例,根据数据生成过程从第一性原理推导了条件似然函数,系统校正了“出口”这一非随机选择;针对第二个案例,明确给出了一个“选择偏误因子”的解析表达式,该因子可以通过外部数据估计,直观揭示了naive估计与真实因果风险比之间的巨大鸿沟。
二、最小内核 / 一个最简例子¶
1. COVID-19 案例的核心思想:从“武汉暴露人群”到“武汉出口病例”的选择¶
-
目标人群(目标分布):P = 所有在 2019年12月1日(时间0)到2020年1月24日(封锁时间 L)之间在武汉停留过的人。对这个人群,我们关心两个量:(a) 疫情增长率(通过感染时间 T 的分布 g(t) 估计,如在指数模型下为增长率 r 或倍加时间);(b) 潜伏期分布(从感染到症状出现的分布 h(⋅))。
-
观测样本:D = 那些在武汉被感染、且后来被诊断为COVID-19并出现在其旅行目的地(14个地点之一)的武汉出口病例。这仅仅是在目标人群 P 中的一个高度选择性、非随机的子集。
-
选择机制:要成为观测样本,观察值必须满足:在武汉被感染(B ≤ T ≤ E),在封锁前离开武汉(E ≤ L),且出现症状(S < ∞)。这是一个一级截断/选择问题。潜在感染时间越接近封锁日,离开武汉的机会越小,因此观测到的发病率曲线早在封锁前就达到顶峰并开始下降,完全不能反映真实的疫情增长。
-
一个最简单的特例(忽略潜伏期和个体差异):
- 假设感染时间 T 的密度在武汉人口中是指数增长的:g(t) ∝ exp(r t)。
- 再假设每个感染者离开武汉的时间 E 是独立于 T 的,且在 [B, L] 上均匀分布(一个强假设,但方便理解)。
- 那么,在样本 D 中(即 T ≤ E ≤ L),观测到的感染时间 T 的密度为:f_T|D(t) ∝ g(t) * P(E ≥ t | t) ∝ exp(r t) * (L - t)。这是一个指数增长项乘以一个线性下降项。尽管丈夫在人群中是增长最快的点,在样本中它却会下降。若直接用观测到的数量拟合指数模型,会严重低估 r。
2. 警政案例的核心思想:从“所有人-警方接触”到“被拘留者”的选择¶
-
变量:
- D = 种族(1=少数族裔, 0=非少数族裔)。
- M = 是否被警方拘留(1=是, 0=否)。
- Y = 是否被警方使用武力(1=是, 0=否)。
- U = 未测量的混杂因素(如警方的普遍怀疑程度、巡逻强度,同时影响 M 和 Y)。
-
观测数据:只有 M = 1 的记录(警方行政数据)。我们丢失了 D = 1/0, M = 0 的庞大人口基数。
-
模型/因果图:
当我们条件在 M=1(只能分析被拘留者)时,D 和 U 之间会因为这条路径 D -[?]- M ← U 产生碰撞偏误:D 的估计效应会混杂 U 的维数低(collider stratification)。简单说,即便 D 对 Y 没有直接效应(无歧视),但如果少数族裔(D=1)被拘留的门槛(通过U)与非少数族裔不同,那么在被拘留者(M=1)中,D 与 Y 之间会出现虚假关联。D ──→ M ──→ Y U ──→ M U ──→ Y -
核心结果(解析的偏误因子): 在假设“未被拘留就不存在武力(Y(M=0)=0)”和“处理可忽略性(D ⊥ Y(d), M(d))”下,真实的因果风险比 RR = E[Y(1)]/E[Y(0)] 可以表示为:
其中RR = naive_RR * selection_bias_factornaive_RR = E[Y|D=1, M=1] / E[Y|D=0, M=1](直接从警方数据算出),而selection_bias_factor = [P(D=1|M=1)/P(D=0|M=1)] / [P(D=1)/P(D=0)]。后者的分子来自警方数据(被拘留者中的种族比例),分母需要来自外部人口调查(总人口中的种族比例)。这清晰地表明:观测到的种族间武力风险差异(naive_RR)还必须乘上一个关于“谁更可能被拘留”的偏误因子。如果少数族裔被拘留的概率更高,P(D=1|M=1) > P(D=1),那么偏误因子 > 1,真实的 RR 将远大于 naive RR。
三、报告主体:讲者讲了什么¶
[0:00:00 - 0:07:30] 引言与引子 - 讲者先介绍“选择偏误”是一个“伞状术语”,给出 Cambridge Dictionary of Statistics 和 Wikipedia 的不同定义,并列举维基百科中一系列偏误名称。 - 核心论点:在2020年之前,讲者以为选择偏误只是教科书上的概念,离自己的日常研究很远,但在2020年的两个案例中,他遭遇了“统计学家的存在危机”。
[0:07:30 - 0:31:00] 案例一:COVID-19早期估计中的选择偏误
-
[0:07:30 - 0:13:30] 问题背景与数据:
- 很多早期COVID-19研究(如 Wu et al., Lancet)基于武汉的“出口病例”(exported cases)。
- 举例一项在Lancet发表的 SEIR 模型研究,该研究仅用17例国际病例拟合出“R0 和倍加时间非常准确”的结果。
- 数据详情:讲者与合作者收集了14个地点1460例确诊(含378例武汉出口病例),并获取了每个病例的详细旅行史、暴露窗[B, E]、感染时间T(未观测)、症状出现时间S。
-
[0:13:30 - 0:18:00] 天真的方法与问题诊断:
- 讲者演示了一个“天真”的Poisson log-linear模型(仅用症状时间S)。仅用1月20日前数据(17例)得倍加时间5.9天,扩大数据到1月24日附近得3.9天(非常不稳定)。
- 诊断出两个根本问题:(a) 忽略了1月23日的武汉旅行禁令;(b) 忽略了病例详细的流行病学信息(B, E)。
-
[0:18:00 - 0:31:00] “第一性原理”的模型构建:
- 步骤1:定义目标人群 P。正式定义了四个关键事件变量 B, E, T, S,设定其数学支持(B ∈ [0,L];E ∈ [B, L] ∪ {∞} 等),其中∞表示未发生(未感染、无症状等)。
- 步骤2:构造生成模型(BETS模型)。分解 f(B,E,T,S) = f_B(B)·f_E(E|B)·f_T(T|B,E)·f_S(S|B,E,T)。
- 步骤3:简化假设:
- 假设1(传输独立于旅行):f_T(t|B,E) = g(t),g(t)是疫情在武汉的增长函数(如指数增长)。
- 假设2(疾病进展独立于旅行):S ⊥ (B,E) | T。潜伏期分布 h(·) 与B,E独立。
- 假设3(指数增长参数化):g(t) = κ · exp(r t)。
- 假设4(潜伏期Gamma分布参数化):h(Δt) ~ Gamma(α, β)。
- 步骤4:定义观测样本 D 与似然函数:
- D = {B ≤ T ≤ E ≤ L, S < ∞}。
- 讲者比较了无条件似然(对全体 f(B,E,T,S|D) 建模,需建模B,E的分布)和条件似然(f(T,S|B,E,D) 建模,仅依赖g和h,对B,E分布鲁棒)。幻灯片给出了在假设1-4下 条件似然函数 L_cond 的显式表达式,并指出当 r=0 时退化为 Reich et al. (2009) 的似然。
- 步骤5:结果:
- 幻灯片表格给出基于不同地点子集、条件和无条件的倍加时间与潜伏期估计。所有估计高度一致:倍加时间约2.1-2.5天(95% CI [1.8, 2.5]),远快于3-6天的初始估计。
- 解释原因:讲者推导了在D中T的边缘分布 f_T|D(t) ∝ exp(r t) (L-t),揭示“出口”过程如何截断并扭曲了增长特征。幻灯片进一步画出观测到的S的直方图与模型拟合曲线(理论密度 f_S|D(s)),展示模型出色地拟合了数据且解释了非线性形状。
- [0:31:00 - 0:39:00] 关于潜伏期估计的补充与Q&A:
- 讲者展示了一个“实验”:随日期(病例确诊日)推移,分别用三种似然估计潜伏期:“不调整”、“仅调整增长”、“调整增长+右截断”。结果如前文幻灯片所示:不调整增长会高估潜伏期(因为增长原形掩盖了早期病例的长潜伏期),不调整右截断会低估潜伏期(因为检测窗口限制)。
- Q&A (0:36:00 - 0:38:00):观众提问家庭内聚集性感染。讲者回应,已通过“每家庭仅选一例”的方式处理,且结果对定义方式稳健。
[0:39:00 - 0:49:00] 案例二:警政种族歧视中的选择偏误
- [0:39:00 - 0:42:30] 问题背景:
- 动机是 Knox et al. (2020) 和 Gaebler et al. (2020) 两篇关于警方行政数据的工作。
- 核心挑战:
- 数据选择性:我们只能观测到 M=1(被拘留)的数据。大量“警民接触但未被拘留”的人完全丢失。
- 碰撞偏误:存在未测量的M-Y混杂因子U(如警局文化)。在模型 D → M ← U → Y 中,条件在 M=1 会打开从D到Y的后门路径D -?[关联]- U → Y。
- [0:42:30 - 0:49:00] 分析方法与结果:
- 对 Knox et al. 的批评:讲者指出 ATE_{M=1} 和 ATT_{M=1} 等条件效应难以解释,甚至可能符号与真实因果效应相反。
- 核心结果(偏误因子公式):
在 Knox et al. 的假设(强制报告、处理可忽略性、中介单调性)下,讲者给出了真实的因果关系风险比 RR = E[Y(1)]/E[Y(0)] 的识别公式:
RR = [E[Y|D=1, M=1] / E[Y|D=0, M=1]] * [ (P(D=1|M=1) / P(D=0|M=1)) / (P(D=1) / P(D=0)) ]- 第一个因子是来自警方数据的naive估计。
- 第二个因子是选择偏误因子,完全由D和M在人群中的边际分布和条件分布决定。
- 实证结果(幻灯片第34页):
- 用NYPD Stop-and-Frisk数据做 naive估计,RR=1.29(即少数族裔被使用武力的风险仅高29%)。
- 分别用 Current Population Survey (CPS) 和 Police-Public Contact Survey (PPCS) 估计分母的P(D)后,经偏误调整后的 RR上升到13.6至32.3(即风险高出10-30倍)。
- 结论:选择偏误在市井中可能巨大到使 naive 估计几乎毫无价值。
四、对应论文与开放问题¶
1. 对应论文¶
-
COVID-19 案例:
- Zhao, Q., Ju, N., Bacallado, S., & Shah, R. D. (2020). BETS: The dangers of selection bias in early analyses of the coronavirus disease (COVID-19) pandemic. The Annals of Applied Statistics (in press). arXiv: 2004.07743.
- 注意:讲者说明了这是与 Ju (可能是 “Ju Nian”?)、Sergio Bacallado 和 Rajen Shah 的合作。
-
警政歧视案例:
- Zhao, Q., Keele, L., Small, D. S., & Joffe, M. M. (2020). A note on post-treatment selection in studying racial discrimination in policing. arXiv: 2009.04832.
- 合作者:Luke Keele、Dylan Small、Marshall Joffe。
-
讨论者引用的工作(与研究者可能相关):
- Smith, L. (讨论者) 提到她与团队的工作,针对案例二的敏感性分析,框架基于对图模型中的未测量因子 U 进行参数化(例如离散化U,建立界限)。这为报告中的案例提供了后处理定量敏感度分析的途径。
2. 主要开放问题(扎根于转写)¶
-
一般化的选择校正方法:讲者反复强调“从第一性原理出发”构建模型。幻灯片第35页总结提到:“The only solution (I think): Start from the first principles.” [0:49:00 附近] 问题是:能否将这些案例中的“量身定制”的解决方法提炼成更一般化、可重复的范式? 例如,对于“事后选择”(post-treatment selection)的通用因果框架,在多大程度上可以绕过对具体选择机制(如BETS或警政模型)的细致建模,而仅依赖一些如“强制报告”、“单调性”等结构假设?转写中讲者对警政案例的回应 [0:49:20] 和听众讨论的方式暗示,这个方向(通过结构假设(单调性、强可忽略性)来框定选择偏误的界限,而不是完全模型化它)是活跃的。
-
显著性偏误与夸大效应:虽然报告主要展示低估或反转效应,但原理上,选择偏误也可以人为制造或放大虚假关联。特别是当研究者只报告“显著”的结果(选择性的结果报告,publication bias)或在数据挖掘中进行多重比较后选择模型(data dredging时),选择偏误的方向可能是高估效应。这是一个开放的方法论挑战:如何刻画和校正那些由模型选择、结果选择或分析自由度(researcher degrees of freedom)引入的系统性高估偏误? 转写 [0:04:20 - 0:05:20] 中讲者提到咨询中面对客户“一系列数据处理和模型选择后”的困难,正是此问题的反映。
-
多阶段选择(Multi-stage Selection):COVID案例展示了事实上的两阶段选择:(1) 只有被感染且在出口前存活的人才可能成为出口病例;(2) 只有被诊断和记录才会出现在最终数据。这两个选择机制是嵌套且相互作用的。转写 [0:07:30 - 0:18:00] 中讲者在数据描述中详细列举了从病例确认到获取B、E、S信息的过程,暗示了多阶段选择的复杂性。一个开放问题是:当数据生成过程具有复杂的多阶段选择(如抽样、流失、记录、报告偏误)时,如何设计出可计算且高效的似然函数或估计方程来同时校正所有阶段性偏误,并评估其对最终估计的影响?
Maintained by 陈星宇 · Homepage · Source on GitHub