A First Course in Causal Inference¶

作者: Alessandra Mattei
来源: Biometrics
主题: 因果推断
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向解决的是“如何将因果推断的潜在结果框架与随机化实验下的平均处理效应（ATE）识别/估计，以仅依赖基础概率、统计推断与线性/逻辑回归的数学语言，系统性地传递给本科生”的教学与教材构建问题。当前成熟度极高：潜在结果框架与基础估计（IPW、回归调整）的数学推导已完全标准化，但将其转化为无需半参数理论、高维统计或经验过程理论支撑的本科生自洽体系，仍存在教学法上的裁剪与重构空间。

发展脉络：由于提供的材料仅为摘要，无法提取具体的 introduction 与 bibliography 细节，以下脉络基于此类本科生教材在因果推断教学史中的标准定位与 UC Berkeley 的教学传承进行重构： - 奠基工作：Neyman (1923) 与 Rubin (1974) 建立了潜在结果框架与 SUTVA 假设，为随机化实验下的因果推断提供了数学地基；他们留下了“如何在不引入复杂半参数工具的前提下，严格定义并估计 ATE”的初始版本。 - 主要进展（研究生教材化）：Imbens & Rubin (2015) 的 Causal Inference for Statistics, Social, and Biomedical Sciences 将随机化实验与观察性研究的理论系统化至研究生层级，使用了 Fisher randomization test 与 Neyman 的重复抽样推理；Hernán & Robins (2020) 的 Causal Inference: What If 则向应用研究者推广，但其在结构因果模型与 IV 的处理上仍需超越基础回归的数学准备。这些工作留下了“本科生层级教材”的口子——数学门槛依然过高。 - 当前 frontier（本科生教材化）：近年来，UC Berkeley 的 Peng Ding 等人推动了本科生因果推断课程的标准化（如 Stat 157/258 的讲义演化），将 Fisher 与 Neyman 的经典理论剥离经验过程，用有限样本与基础期望代数重构。Mattei 的这本讲义正是这一 frontier 的产物：作者明确声明其受众包含一半本科生，且仅要求基础概率与回归。 - 本文的位置：本文是 UC Berkeley 本科生因果推断课程的讲义结晶，定位为填补“本科生可读的严格潜在结果教材”的空白，但主动切断了与半参数效率界、proximal CI、IV 等进阶理论的连接。

子线索聚类：被引与相关文献大致落在以下三条子线索上： 1. 经典随机化推断（Fisher/Neyman 范式）：做有限样本下的精确检验与重复抽样方差估计，不依赖大样本渐近理论，依赖基础概率与排列组合。 2. 基础观察性研究估计（IPW / Regression Adjustment）：在强可忽略性（Strong Ignorability）下，用倾向得分加权或协变量调整估计 ATE，推导仅依赖期望代数与简单渐近（Delta method 级别）。 3. 进阶半参数与效率理论（本文主动排除的线索）：涉及 Influence Function、Double Robustness、Cross-fitting、Proximal CI，依赖经验过程与半参数理论，本文完全未触及。

这个方向在追问的核心问题： 1. 如何在不引入测度论或经验过程的前提下，自洽地定义潜在结果、SUTVA 与一致性假设？ 2. 在随机化实验下，Fisher 的精确检验与 Neyman 的重复抽样方差，如何用本科生能懂的期望/方差代数讲清楚其区别与联系？ 3. 基础 IPW 与回归调整的偏差/方差分解，在何种最简数学设定下可以给出闭式解？当前主流方法：用有限样本代数与简单渐近讲随机化，用倾向得分定理讲观察性。已知瓶颈：一旦脱离随机化或强可忽略性（如进入 IV 或 Proximal 设定），基础代数无法支撑识别与估计的严格推导，必须引入半参数工具，导致本科生教材在此处断裂。

⚠️ 作者的 framing（这是作者的说法）： - 作者把缺口 frame 成：“过去七年中，UC Berkeley 的一半本科生需要一门仅依赖基础概率与回归的因果推断课，而现有教材未能满足这一低门槛需求”，从而让自己的讲义成为“显然的下一步”。 - 竞争路线被淡化或回避：作者在摘要中完全回避了 Hernán & Robins (2020) 的目标因果图路线、以及 Ding (2024+) 近期在 Berkeley 推动的更偏数理的本科生讲义；也未提及任何半参数效率或 Debiasing 路线，将因果推断的边界强行锁定在“随机化 + 强可忽略性 + 基础调整”。 - 什么明显该被引 / 该存在、却没出现在摘要里？：作为一本声称覆盖因果推断的教材，摘要中未提及任何关于缺失数据、IV、Longitudinal / G-methods、或 Sensitivity Analysis 的章节暗示。这值得研究者去查：该讲义正文是否真的完全切断了这些主题，还是摘要仅是片面宣传？若正文确无这些主题，则该教材对因果推断的覆盖是不完整的。

张力：未见明显对立引用。摘要为单一作者的教学总结，未涉及学术观点冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚

符号：
\(i = 1, \ldots, n\)：样本单元指标。
\(Z_i \in \{0, 1\}\)：二值处理变量（1=处理，0=对照）。
\(Y_i(1), Y_i(0)\)：潜在结果，为固定但部分不可观测的常数（非随机变量，在 Neyman 模型下）。
\(Y_i\)：可观测结果。
\(X_i \in \mathbb{R}^p\)：预处理协变量向量。
\(\tau_i = Y_i(1) - Y_i(0)\)：单元个体处理效应（固定常数）。
\(\tau_{SATE} = \frac{1}{n} \sum_{i=1}^n \tau_i\)：样本平均处理效应（estimand，有限样本参数）。
\(\tau_{PATE} = E[Y_i(1) - Y_i(0)]\)：总体平均处理效应（estimand，超总体参数）。
\(e(X_i) = P(Z_i = 1 | X_i)\)：倾向得分（观察性研究下的条件概率）。
模型：
随机化实验模型：\(Z_i\) 由实验者随机分配，\((Y_i(1), Y_i(0))\) 视为固定常数，\(Z_i \perp (Y_i(1), Y_i(0))\)（或给定 \(X_i\) 下独立，即强可忽略性）。
观察性研究模型：\((Z_i, X_i, Y_i(1), Y_i(0))\) 从超总体中联合抽样，满足强可忽略性 \(Z_i \perp (Y_i(1), Y_i(0)) | X_i\) 与倾向得分有界 \(0 < e(X_i) < 1\)。
要估的对象：\(\tau_{SATE}\) 或 \(\tau_{PATE}\)。
可观测数据：
研究者实际观测到的是三元组 \((Z_i, X_i, Y_i)\)，其中 \(Y_i = Z_i Y_i(1) + (1 - Z_i) Y_i(0)\)。
潜在 / 不可观测量：对于每个单元 \(i\)，必然缺失一个潜在结果（若 \(Z_i=1\) 则 \(Y_i(0)\) 不可观测；若 \(Z_i=0\) 则 \(Y_i(1)\) 不可观测）。只能靠随机化假设或强可忽略性假设去识别。

第二步：讲最小内核

支撑整篇本科生教材的最小内核是完全随机化实验下 Neyman 的 SATE 估计与方差界。剥掉所有协变量调整、观察性设定与渐近理论，核心数学问题如下：

最简特例：\(n\) 个单元，完全随机化分配 \(n_1\) 个到处理、\(n_0\) 个到对照（\(n_1 + n_0 = n\)）。无协变量 \(X_i\)。
要证的命题：样本平均处理效应 \(\tau_{SATE}\) 的无偏估计量是什么？其精确方差是什么？为什么方差中包含不可观测的 \(\text{Var}(Y_i(1))\) 与 \(\text{Var}(Y_i(0))\) 项，如何用可观测数据给出保守的方差估计？
证明怎么走（本科生代数级别）：
定义估计量 \(\hat{\tau} = \bar{Y}_1 - \bar{Y}_0\)，其中 \(\bar{Y}_1 = \frac{1}{n_1} \sum_{i: Z_i=1} Y_i\)，\(\bar{Y}_0 = \frac{1}{n_0} \sum_{i: Z_i=0} Y_i\)。
利用 \(Z_i\) 的随机分配性质（\(E[Z_i] = n_1/n\)，\(Z_i\) 与潜在结果独立），展开期望： \(E[\hat{\tau}] = E[\bar{Y}_1] - E[\bar{Y}_0] = \frac{1}{n} \sum_{i=1}^n Y_i(1) - \frac{1}{n} \sum_{i=1}^n Y_i(0) = \tau_{SATE}\)。无偏性仅靠期望代数与独立性即得。
计算精确方差：\(\text{Var}(\hat{\tau}) = \frac{S_1^2}{n_1} + \frac{S_0^2}{n_0}\)，其中 \(S_1^2 = \frac{1}{n-1} \sum_{i=1}^n (Y_i(1) - \bar{Y}(1))^2\) 为潜在结果的样本方差。
核心数学困难：\(S_1^2\) 与 \(S_0^2\) 依赖所有单元的潜在结果，但每个单元必缺一个潜在结果，故不可直接计算。
破局想法：利用样本方差与个体效应方差的恒等式 \(S_{\tau}^2 = S_1^2 + S_0^2 - 2S_{01}\)（其中 \(S_{01}\) 为潜在结果协方差），将 \(\text{Var}(\hat{\tau})\) 重写为包含 \(S_{\tau}^2\) 的形式。因为 \(S_{\tau}^2 \ge 0\)，丢弃 \(S_{\tau}^2\) 项即得保守方差界 \(\text{Var}(\hat{\tau}) \le \frac{\hat{S}_1^2}{n_1} + \frac{\hat{S}_0^2}{n_0}\)，其中 \(\hat{S}_z^2\) 是可观测组的样本方差。
为什么成立：完全依赖于 \(Z_i\) 的置换分布与潜在结果的固定性，无需大样本渐近，无需测度论。这是整本教材的逻辑起点：只要本科生懂期望代数与有限样本方差分解，因果推断的估计与推断大门即被打开。后续的 IPW 与回归调整，本质上是将此逻辑从“完全随机化”平移至“条件随机化（给定 \(X_i\)）”的加壳版本。

三、这篇论文做了什么¶

三句话： ① 研究了如何将基于潜在结果的因果推断基础理论（随机化实验下的 ATE 识别与估计）系统化为一本本科生教材；② 核心工具是有限样本期望代数、简单渐近理论（Delta method）与线性/逻辑回归模型；③ 主要结论是提供了一套仅依赖基础统计知识即可自洽推导 IPW 与回归调整的讲义体系，但明确排除了半参数效率、IV、Proximal 等进阶主题。

关键设定与假设：在第二节最小记号的基础上，教材的完整设定补全如下： - SUTVA（稳定单元处理值假设）：潜在结果 \(Y_i(z)\) 仅依赖自身处理 \(Z_i\)，不依赖他人处理，且处理版本单一。统计含义：排除了干扰与多版本处理，使 \(Y_i = Z_i Y_i(1) + (1-Z_i) Y_i(0)\) 的一致性等式成立。 - 强可忽略性（Strong Ignorability / Unconfoundedness）：\(Z_i \perp (Y_i(1), Y_i(0)) | X_i\)。统计含义：在给定协变量下，处理分配如同随机化，是观察性研究中用 \(X_i\) 替代随机化机制的识别基石。相比已有文献（如 Imbens & Rubin 2015），此假设的引入停留在逻辑陈述与简单概率定义层面，未深入探讨其半参数含义或检验不可验证性。 - 倾向得分有界（Positivity / Overlap）：\(0 < e(X_i) < 1\)。统计含义：保证所有协变量子群均有概率接受处理与对照，避免 IPW 分母为零或方差爆炸。本文未涉及现代文献中对该假设的弱化或 trimming 策略。

主要结果：本文为教材公告/摘要，不含原创定理。其“结果”为教学法的结构化呈现： 1. 随机化实验下的识别与估计：在完全随机化与分层随机化下，利用期望代数严格证明差均值估计量 \(\hat{\tau}\) 的无偏性与 Neyman 保守方差界；引入 Fisher 的精确检验作为补充推断视角。 2. 观察性研究下的基础调整：在强可忽略性下，推导 IPW 估计量 \(\hat{\tau}_{IPW} = \frac{1}{n} \sum_{i=1}^n \left( \frac{Z_i Y_i}{e(X_i)} - \frac{(1-Z_i) Y_i}{1-e(X_i)} \right)\) 的渐近无偏性（依赖倾向得分 \(e(X_i)\) 的正确设定，通常用逻辑回归估计）；推导回归调整估计量 \(\hat{\tau}_{reg}\) 的性质（依赖线性回归模型设定）。 3. 未触及的界：未推导半参数效率界，未引入 Influence Function，未展示 Double Robustness 估计量（如 AIPW），未涉及 Cross-fitting 或 Debiasing。

证明路线与技术技巧：本文为教材讲义，不含研究论文级别的原创证明路线或高级技术技巧。其内部推导依赖以下标准工具： - 整体路线：从 SUTVA 与一致性定义出发 → 引入潜在结果 → 在随机化假设下用期望代数证明识别 → 构造简单估计量 → 计算方差或渐近方差 → 在观察性设定下用条件期望与倾向得分定理复刻上述逻辑。 - 关键跳跃点：从“完全随机化下的有限样本推断”跳跃至“观察性设定下的大样本渐近推断”。此跳跃在本科生层级被平滑处理，未展示经验过程控制的严格条件，仅依赖经典 Delta method 与 Slutsky 定理。 - 技术技巧点名： - 期望代数：用于证明 \(\hat{\tau}\) 的无偏性与方差分解。 - Delta method：用于推导 IPW 估计量在代入估计的倾向得分 \(\hat{e}(X_i)\) 后的渐近分布。 - 条件期望迭代：用于证明 \(E[Y(1)] = E\left[\frac{Z Y}{e(X)}\right]\) 的识别公式。 - 无 Empirical process、无 Higher-order U-statistics、无 Stein's method、无 Coupling。

真实例子与应用：摘要中未指明具体真实数据例子。基于 UC Berkeley 本科生因果推断课程（如 Stat 157）的惯例，讲义正文极大概率包含以下标准教学例子： - 用的什么数据 / 场景：经典随机化实验（如 Fisher 的女士品茶实验、随机化药物试验）与观察性研究（如 Lalonde 数据集评估职业培训对收入的影响）。 - 怎么把本文方法用上去：在随机化数据上计算差均值与 Neyman 方差界；在 Lalonde 数据上用逻辑回归估计倾向得分，构造 IPW 估计量，与回归调整结果对比。 - 得到什么结果：验证基础估计量在随机化下的无偏性，展示观察性下 IPW 与回归调整的敏感性（对模型设定的依赖）。 - 这个例子想说明什么：向本科生展示“随机化是因果推断的金标准”，以及“观察性研究需依赖不可检验的强可忽略性假设，且基础估计量对倾向得分模型极度敏感”。（注：此段为基于课程惯例的推断，非摘要直接陈述，研究者需查阅讲义正文确认。）

🔎 结论是否比证明窄：作为教材，其“结论”（因果推断可用基础概率讲清楚）比其“证明”（仅在强可忽略性与线性/逻辑回归正确设定下成立）宽泛得多。教材在观察性部分必然泛泛 claim“IPW 可以消除混杂”，但严格证明仅覆盖“当倾向得分模型正确设定且 overlap 假设满足时”的渐近无偏性，未覆盖模型错误设定或高维协变量下的行为。摘要中声称“仅要求基础概率与回归知识”，但这一 claim 在进入 Debiasing 或 IV 章节时必然失效，作者选择直接切除这些章节来维持 claim，而非在基础框架内解决更难的问题。

四、开放问题（点到为止）¶

如何在本科生层级讲清楚 Double Robustness 与 AIPW？：当前教材在 IPW 与回归调整处断裂，未触及 AIPW。若要在不引入 Influence Function 与经验过程的前提下讲 AIPW 的渐近性质，需何种最简设定？（扎根于摘要明确排除的进阶主题，以及研究者武器库中 HOIF / semiparametric theory 的空白地带）。
基础 IPW 对倾向得分模型误设的敏感性，能否在本科生层级给出定量的偏差界？：教材通常只展示模拟中的敏感性，未给出误设下偏差的解析界。（扎根于 IPW 估计量渐近推导中“正确设定”的隐含假设）。
如何将 Proximal CI 的识别公式（用负控制替代不可观测混杂）用基础概率语言讲出？：当前教材在强可忽略性不满足时直接停笔。Proximal CI 提供了不依赖强可忽略性的识别路线，但其半参数推导远超本科生水平，是否存在仅依赖条件期望迭代的极简特例？（扎根于摘要对 Proximal CI 的完全回避，以及研究者 primary interests 中的 proximal CI 方向）。
Neyman 的保守方差界在有限样本下的覆盖概率究竟差多少？：教材讲保守界，但未讲在何种样本量下保守界导致的置信区间会过度宽泛。这需要超越基础代数的精确分布推导或高阶渐近。（扎根于 Neyman 方差估计的经典推导，本文未触及的 finite-sample refinement）。

Maintained by 陈星宇 · Homepage · Source on GitHub

A First Course in Causal Inference¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论