A First Course in Causal Inference¶
作者: Alessandra Mattei
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向解决的是“如何将因果推断的潜在结果框架与随机化实验下的平均处理效应(ATE)识别/估计,以仅依赖基础概率、统计推断与线性/逻辑回归的数学语言,系统性地传递给本科生”的教学与教材构建问题。当前成熟度极高:潜在结果框架与基础估计(IPW、回归调整)的数学推导已完全标准化,但将其转化为无需半参数理论、高维统计或经验过程理论支撑的本科生自洽体系,仍存在教学法上的裁剪与重构空间。
发展脉络: 由于提供的材料仅为摘要,无法提取具体的 introduction 与 bibliography 细节,以下脉络基于此类本科生教材在因果推断教学史中的标准定位与 UC Berkeley 的教学传承进行重构: - 奠基工作:Neyman (1923) 与 Rubin (1974) 建立了潜在结果框架与 SUTVA 假设,为随机化实验下的因果推断提供了数学地基;他们留下了“如何在不引入复杂半参数工具的前提下,严格定义并估计 ATE”的初始版本。 - 主要进展(研究生教材化):Imbens & Rubin (2015) 的 Causal Inference for Statistics, Social, and Biomedical Sciences 将随机化实验与观察性研究的理论系统化至研究生层级,使用了 Fisher randomization test 与 Neyman 的重复抽样推理;Hernán & Robins (2020) 的 Causal Inference: What If 则向应用研究者推广,但其在结构因果模型与 IV 的处理上仍需超越基础回归的数学准备。这些工作留下了“本科生层级教材”的口子——数学门槛依然过高。 - 当前 frontier(本科生教材化):近年来,UC Berkeley 的 Peng Ding 等人推动了本科生因果推断课程的标准化(如 Stat 157/258 的讲义演化),将 Fisher 与 Neyman 的经典理论剥离经验过程,用有限样本与基础期望代数重构。Mattei 的这本讲义正是这一 frontier 的产物:作者明确声明其受众包含一半本科生,且仅要求基础概率与回归。 - 本文的位置:本文是 UC Berkeley 本科生因果推断课程的讲义结晶,定位为填补“本科生可读的严格潜在结果教材”的空白,但主动切断了与半参数效率界、proximal CI、IV 等进阶理论的连接。
子线索聚类: 被引与相关文献大致落在以下三条子线索上: 1. 经典随机化推断(Fisher/Neyman 范式):做有限样本下的精确检验与重复抽样方差估计,不依赖大样本渐近理论,依赖基础概率与排列组合。 2. 基础观察性研究估计(IPW / Regression Adjustment):在强可忽略性(Strong Ignorability)下,用倾向得分加权或协变量调整估计 ATE,推导仅依赖期望代数与简单渐近(Delta method 级别)。 3. 进阶半参数与效率理论(本文主动排除的线索):涉及 Influence Function、Double Robustness、Cross-fitting、Proximal CI,依赖经验过程与半参数理论,本文完全未触及。
这个方向在追问的核心问题: 1. 如何在不引入测度论或经验过程的前提下,自洽地定义潜在结果、SUTVA 与一致性假设? 2. 在随机化实验下,Fisher 的精确检验与 Neyman 的重复抽样方差,如何用本科生能懂的期望/方差代数讲清楚其区别与联系? 3. 基础 IPW 与回归调整的偏差/方差分解,在何种最简数学设定下可以给出闭式解? 当前主流方法:用有限样本代数与简单渐近讲随机化,用倾向得分定理讲观察性。已知瓶颈:一旦脱离随机化或强可忽略性(如进入 IV 或 Proximal 设定),基础代数无法支撑识别与估计的严格推导,必须引入半参数工具,导致本科生教材在此处断裂。
⚠️ 作者的 framing(这是作者的说法): - 作者把缺口 frame 成:“过去七年中,UC Berkeley 的一半本科生需要一门仅依赖基础概率与回归的因果推断课,而现有教材未能满足这一低门槛需求”,从而让自己的讲义成为“显然的下一步”。 - 竞争路线被淡化或回避:作者在摘要中完全回避了 Hernán & Robins (2020) 的目标因果图路线、以及 Ding (2024+) 近期在 Berkeley 推动的更偏数理的本科生讲义;也未提及任何半参数效率或 Debiasing 路线,将因果推断的边界强行锁定在“随机化 + 强可忽略性 + 基础调整”。 - 什么明显该被引 / 该存在、却没出现在摘要里?:作为一本声称覆盖因果推断的教材,摘要中未提及任何关于缺失数据、IV、Longitudinal / G-methods、或 Sensitivity Analysis 的章节暗示。这值得研究者去查:该讲义正文是否真的完全切断了这些主题,还是摘要仅是片面宣传?若正文确无这些主题,则该教材对因果推断的覆盖是不完整的。
张力: 未见明显对立引用。摘要为单一作者的教学总结,未涉及学术观点冲突。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚
- 符号:
- \(i = 1, \ldots, n\):样本单元指标。
- \(Z_i \in \{0, 1\}\):二值处理变量(1=处理,0=对照)。
- \(Y_i(1), Y_i(0)\):潜在结果,为固定但部分不可观测的常数(非随机变量,在 Neyman 模型下)。
- \(Y_i\):可观测结果。
- \(X_i \in \mathbb{R}^p\):预处理协变量向量。
- \(\tau_i = Y_i(1) - Y_i(0)\):单元个体处理效应(固定常数)。
- \(\tau_{SATE} = \frac{1}{n} \sum_{i=1}^n \tau_i\):样本平均处理效应(estimand,有限样本参数)。
- \(\tau_{PATE} = E[Y_i(1) - Y_i(0)]\):总体平均处理效应(estimand,超总体参数)。
-
\(e(X_i) = P(Z_i = 1 | X_i)\):倾向得分(观察性研究下的条件概率)。
-
模型:
- 随机化实验模型:\(Z_i\) 由实验者随机分配,\((Y_i(1), Y_i(0))\) 视为固定常数,\(Z_i \perp (Y_i(1), Y_i(0))\)(或给定 \(X_i\) 下独立,即强可忽略性)。
- 观察性研究模型:\((Z_i, X_i, Y_i(1), Y_i(0))\) 从超总体中联合抽样,满足强可忽略性 \(Z_i \perp (Y_i(1), Y_i(0)) | X_i\) 与倾向得分有界 \(0 < e(X_i) < 1\)。
-
要估的对象:\(\tau_{SATE}\) 或 \(\tau_{PATE}\)。
-
可观测数据:
- 研究者实际观测到的是三元组 \((Z_i, X_i, Y_i)\),其中 \(Y_i = Z_i Y_i(1) + (1 - Z_i) Y_i(0)\)。
- 潜在 / 不可观测量:对于每个单元 \(i\),必然缺失一个潜在结果(若 \(Z_i=1\) 则 \(Y_i(0)\) 不可观测;若 \(Z_i=0\) 则 \(Y_i(1)\) 不可观测)。只能靠随机化假设或强可忽略性假设去识别。
第二步:讲最小内核
支撑整篇本科生教材的最小内核是完全随机化实验下 Neyman 的 SATE 估计与方差界。剥掉所有协变量调整、观察性设定与渐近理论,核心数学问题如下:
- 最简特例:\(n\) 个单元,完全随机化分配 \(n_1\) 个到处理、\(n_0\) 个到对照(\(n_1 + n_0 = n\))。无协变量 \(X_i\)。
- 要证的命题:样本平均处理效应 \(\tau_{SATE}\) 的无偏估计量是什么?其精确方差是什么?为什么方差中包含不可观测的 \(\text{Var}(Y_i(1))\) 与 \(\text{Var}(Y_i(0))\) 项,如何用可观测数据给出保守的方差估计?
- 证明怎么走(本科生代数级别):
- 定义估计量 \(\hat{\tau} = \bar{Y}_1 - \bar{Y}_0\),其中 \(\bar{Y}_1 = \frac{1}{n_1} \sum_{i: Z_i=1} Y_i\),\(\bar{Y}_0 = \frac{1}{n_0} \sum_{i: Z_i=0} Y_i\)。
- 利用 \(Z_i\) 的随机分配性质(\(E[Z_i] = n_1/n\),\(Z_i\) 与潜在结果独立),展开期望: \(E[\hat{\tau}] = E[\bar{Y}_1] - E[\bar{Y}_0] = \frac{1}{n} \sum_{i=1}^n Y_i(1) - \frac{1}{n} \sum_{i=1}^n Y_i(0) = \tau_{SATE}\)。无偏性仅靠期望代数与独立性即得。
- 计算精确方差:\(\text{Var}(\hat{\tau}) = \frac{S_1^2}{n_1} + \frac{S_0^2}{n_0}\),其中 \(S_1^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i(1) - \bar{Y}(1))^2\) 为潜在结果的样本方差。
- 核心数学困难:\(S_1^2\) 与 \(S_0^2\) 依赖所有单元的潜在结果,但每个单元必缺一个潜在结果,故不可直接计算。
- 破局想法:利用样本方差与个体效应方差的恒等式 \(S_{\tau}^2 = S_1^2 + S_0^2 - 2S_{01}\)(其中 \(S_{01}\) 为潜在结果协方差),将 \(\text{Var}(\hat{\tau})\) 重写为包含 \(S_{\tau}^2\) 的形式。因为 \(S_{\tau}^2 \ge 0\),丢弃 \(S_{\tau}^2\) 项即得保守方差界 \(\text{Var}(\hat{\tau}) \le \frac{\hat{S}_1^2}{n_1} + \frac{\hat{S}_0^2}{n_0}\),其中 \(\hat{S}_z^2\) 是可观测组的样本方差。
- 为什么成立:完全依赖于 \(Z_i\) 的置换分布与潜在结果的固定性,无需大样本渐近,无需测度论。这是整本教材的逻辑起点:只要本科生懂期望代数与有限样本方差分解,因果推断的估计与推断大门即被打开。后续的 IPW 与回归调整,本质上是将此逻辑从“完全随机化”平移至“条件随机化(给定 \(X_i\))”的加壳版本。
三、这篇论文做了什么¶
三句话: ① 研究了如何将基于潜在结果的因果推断基础理论(随机化实验下的 ATE 识别与估计)系统化为一本本科生教材;② 核心工具是有限样本期望代数、简单渐近理论(Delta method)与线性/逻辑回归模型;③ 主要结论是提供了一套仅依赖基础统计知识即可自洽推导 IPW 与回归调整的讲义体系,但明确排除了半参数效率、IV、Proximal 等进阶主题。
关键设定与假设: 在第二节最小记号的基础上,教材的完整设定补全如下: - SUTVA(稳定单元处理值假设):潜在结果 \(Y_i(z)\) 仅依赖自身处理 \(Z_i\),不依赖他人处理,且处理版本单一。统计含义:排除了干扰与多版本处理,使 \(Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)\) 的一致性等式成立。 - 强可忽略性(Strong Ignorability / Unconfoundedness):\(Z_i \perp (Y_i(1), Y_i(0)) | X_i\)。统计含义:在给定协变量下,处理分配如同随机化,是观察性研究中用 \(X_i\) 替代随机化机制的识别基石。相比已有文献(如 Imbens & Rubin 2015),此假设的引入停留在逻辑陈述与简单概率定义层面,未深入探讨其半参数含义或检验不可验证性。 - 倾向得分有界(Positivity / Overlap):\(0 < e(X_i) < 1\)。统计含义:保证所有协变量子群均有概率接受处理与对照,避免 IPW 分母为零或方差爆炸。本文未涉及现代文献中对该假设的弱化或 trimming 策略。
主要结果: 本文为教材公告/摘要,不含原创定理。其“结果”为教学法的结构化呈现: 1. 随机化实验下的识别与估计:在完全随机化与分层随机化下,利用期望代数严格证明差均值估计量 \(\hat{\tau}\) 的无偏性与 Neyman 保守方差界;引入 Fisher 的精确检验作为补充推断视角。 2. 观察性研究下的基础调整:在强可忽略性下,推导 IPW 估计量 \(\hat{\tau}_{IPW} = \frac{1}{n} \sum_{i=1}^n \left( \frac{Z_i Y_i}{e(X_i)} - \frac{(1-Z_i) Y_i}{1-e(X_i)} \right)\) 的渐近无偏性(依赖倾向得分 \(e(X_i)\) 的正确设定,通常用逻辑回归估计);推导回归调整估计量 \(\hat{\tau}_{reg}\) 的性质(依赖线性回归模型设定)。 3. 未触及的界:未推导半参数效率界,未引入 Influence Function,未展示 Double Robustness 估计量(如 AIPW),未涉及 Cross-fitting 或 Debiasing。
证明路线与技术技巧: 本文为教材讲义,不含研究论文级别的原创证明路线或高级技术技巧。其内部推导依赖以下标准工具: - 整体路线:从 SUTVA 与一致性定义出发 → 引入潜在结果 → 在随机化假设下用期望代数证明识别 → 构造简单估计量 → 计算方差或渐近方差 → 在观察性设定下用条件期望与倾向得分定理复刻上述逻辑。 - 关键跳跃点:从“完全随机化下的有限样本推断”跳跃至“观察性设定下的大样本渐近推断”。此跳跃在本科生层级被平滑处理,未展示经验过程控制的严格条件,仅依赖经典 Delta method 与 Slutsky 定理。 - 技术技巧点名: - 期望代数:用于证明 \(\hat{\tau}\) 的无偏性与方差分解。 - Delta method:用于推导 IPW 估计量在代入估计的倾向得分 \(\hat{e}(X_i)\) 后的渐近分布。 - 条件期望迭代:用于证明 \(E[Y(1)] = E\left[\frac{Z Y}{e(X)}\right]\) 的识别公式。 - 无 Empirical process、无 Higher-order U-statistics、无 Stein's method、无 Coupling。
真实例子与应用: 摘要中未指明具体真实数据例子。基于 UC Berkeley 本科生因果推断课程(如 Stat 157)的惯例,讲义正文极大概率包含以下标准教学例子: - 用的什么数据 / 场景:经典随机化实验(如 Fisher 的女士品茶实验、随机化药物试验)与观察性研究(如 Lalonde 数据集评估职业培训对收入的影响)。 - 怎么把本文方法用上去:在随机化数据上计算差均值与 Neyman 方差界;在 Lalonde 数据上用逻辑回归估计倾向得分,构造 IPW 估计量,与回归调整结果对比。 - 得到什么结果:验证基础估计量在随机化下的无偏性,展示观察性下 IPW 与回归调整的敏感性(对模型设定的依赖)。 - 这个例子想说明什么:向本科生展示“随机化是因果推断的金标准”,以及“观察性研究需依赖不可检验的强可忽略性假设,且基础估计量对倾向得分模型极度敏感”。(注:此段为基于课程惯例的推断,非摘要直接陈述,研究者需查阅讲义正文确认。)
🔎 结论是否比证明窄: 作为教材,其“结论”(因果推断可用基础概率讲清楚)比其“证明”(仅在强可忽略性与线性/逻辑回归正确设定下成立)宽泛得多。教材在观察性部分必然泛泛 claim“IPW 可以消除混杂”,但严格证明仅覆盖“当倾向得分模型正确设定且 overlap 假设满足时”的渐近无偏性,未覆盖模型错误设定或高维协变量下的行为。摘要中声称“仅要求基础概率与回归知识”,但这一 claim 在进入 Debiasing 或 IV 章节时必然失效,作者选择直接切除这些章节来维持 claim,而非在基础框架内解决更难的问题。
四、开放问题(点到为止)¶
- 如何在本科生层级讲清楚 Double Robustness 与 AIPW?:当前教材在 IPW 与回归调整处断裂,未触及 AIPW。若要在不引入 Influence Function 与经验过程的前提下讲 AIPW 的渐近性质,需何种最简设定?(扎根于摘要明确排除的进阶主题,以及研究者武器库中 HOIF / semiparametric theory 的空白地带)。
- 基础 IPW 对倾向得分模型误设的敏感性,能否在本科生层级给出定量的偏差界?:教材通常只展示模拟中的敏感性,未给出误设下偏差的解析界。(扎根于 IPW 估计量渐近推导中“正确设定”的隐含假设)。
- 如何将 Proximal CI 的识别公式(用负控制替代不可观测混杂)用基础概率语言讲出?:当前教材在强可忽略性不满足时直接停笔。Proximal CI 提供了不依赖强可忽略性的识别路线,但其半参数推导远超本科生水平,是否存在仅依赖条件期望迭代的极简特例?(扎根于摘要对 Proximal CI 的完全回避,以及研究者 primary interests 中的 proximal CI 方向)。
- Neyman 的保守方差界在有限样本下的覆盖概率究竟差多少?:教材讲保守界,但未讲在何种样本量下保守界导致的置信区间会过度宽泛。这需要超越基础代数的精确分布推导或高阶渐近。(扎根于 Neyman 方差估计的经典推导,本文未触及的 finite-sample refinement)。
Maintained by 陈星宇 · Homepage · Source on GitHub