Double Machine Learning for Sample Selection Models¶

作者: Michela Bia, Martin Huber, Lukáš Lafférs
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在结果变量部分缺失（样本选择 / 结果 attrition）的设定下，如何识别并估计离散处理的因果效应。缺失并非随机发生，而是与潜在结果及协变量相关；同时，影响缺失与结果的协变量本身可能又受处理影响（动态混杂）。当前该方向在半参数效率理论层面已有成熟框架（efficient score / doubly robust），但在高维协变量下如何用机器学习稳健地估计 nuisance 参数并保持 \(\sqrt{n}\)-consistency，直到近五年 DML 框架普及后才形成系统解法，本文即处于这一解法的标准化与拓展节点。

发展脉络： - 奠基工作：样本选择模型的识别与估计始于 Heckman (1979) 的正态性参数模型，为处理工资等经济数据的非随机缺失提供了基准，但强分布假设限制了其半参数推广。 - 主要进展（半参数与 DR）：Robins et al. (1994) 与 Rotnitzky & Robins (1995) 在因果与半参数框架下，为缺失数据与因果效应构造了 doubly robust 估计量与 efficient influence function，确立了“抗模型误设 + 达到效率界”的路线；Scharfstein et al. (1999) 进一步将 DR 概念在缺失数据中明确化。 - 主要进展（动态 / IV 设定）：对于协变量受处理影响的动态混杂，Robins (1986) 的 g-computation 与 g-estimation 提供了纵向因果的识别基础；在样本选择层面，处理缺失的 IV 方法由 Ahn & Powell (1993) 及 Newey (2009) 等推进，允许通过工具变量识别非随机缺失下的效应。 - 当前 frontier（DML 与高维）：Chernozhukov et al. (2018) 的 Double Machine Learning (DML) 将 Neyman orthogonality 与 cross-fitting 结合，解决了高维下 ML 估计 nuisance 的 regularization bias 与 overfitting bias，实现了半参数 \(\sqrt{n}\)-CAN；此前，Belloni et al. (2014) 在部分线性模型中用 Lasso 选协变量，是 DML 的先声。 - 本文的位置：本文将 Chernozhukov et al. (2018) 的 DML 框架，适配到 Robins/Rotnitzky 等建立的样本选择 / 动态混杂设定中，构造出同时满足 Neyman orthogonality 与 doubly robust 的 score，填补了“高维动态混杂 + 缺失数据下无分布 \(\sqrt{n}\)-CAN 估计”的空白。

子线索聚类： 1. 半参数缺失 / DR 估计线：Robins et al. (1994); Rotnitzky & Robins (1995); Scharfstein et al. (1999); Bang & Robins (2005)。这一簇在构造缺失数据下的 DR 与 efficient score，核心是寻找对 nuisance 误设稳健的矩条件。 2. 样本选择 IV 线：Heckman (1979); Ahn & Powell (1993); Newey (2009)。这一簇在处理缺失机制不可观测时，引入工具变量（如距离、区域）进行识别，多基于参数或半参数秩条件。 3. DML / 高维因果线：Belloni et al. (2014); Chernozhukov et al. (2018); Smucler et al. (2019)。这一簇在将 ML 用于 nuisance 估计，通过 orthogonality 与 cross-fitting 保证 \(\sqrt{n}\)-CAN，并探讨 DR score 在高维下的 rate requirement。

这个方向在追问的核心问题： 1. 识别：在结果缺失与动态混杂下，何种条件组合（selection-on-observables + IV）能非参数识别 ATT / ATE？ 2. 稳健性：如何构造对多个 nuisance 模型（结果、处理、缺失）误设同时部分稳健的估计量？ 3. 高维可行性：当协变量维数 \(p\) 远大于 \(n\) 或需用 ML 估 nuisance 时，如何避免 regularization 与 overfitting bias，保持 \(\sqrt{n}\)-consistency 与正态性？ 4. 效率：在给定识别条件下，半参数效率界是什么？所提 score 是否达到该界？

⚠️ 作者的 framing（这是作者的说法）： - 作者将缺口 frame 为：已有半参数 DR 方法（如 Rotnitzky & Robins 1995）虽提供了 efficient score，但未解决高维 / ML 估 nuisance 时的 bias 传播问题；而 DML（Chernozhukov et al. 2018）虽解决了 bias，但未覆盖样本选择与动态混杂设定。因此，将二者结合是“显然的下一步”。 - 被淡化的路线：参数 Heckman 模型及其半参数秩推广（Ahn & Powell 1993; Newey 2009）在文中仅作为 IV 识别的背景提及，其估计方法（如两步最小距离）未被纳入比较，作者直接跳到了 DR + DML 框架。 - 缺失的引用 / 该查的：在动态混杂 + 缺失设定下，Robins 的 longitudinal g-estimation 与 marginal structural models (MSM) 是经典路线，文中虽引了 Robins (1986)，但对 MSM 在缺失下的 DR 估计（如 Hernán & Robins 2020 的 IPW-with-missing）未显式对比；此外，近期关于 longitudinal DML 的工作（如 Bodory et al. 2022 的 dynamic DML）是否已覆盖类似设定，需研究者去查——这可能是被遗漏的竞争路线。

张力：未见明显对立引用。各路线（DR 半参数 vs 参数 Heckman vs DML）在不同假设下给出不同解法，本文是在已有 DR 理论上叠加 DML 技术，逻辑兼容，无矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

\(D\)：离散处理变量（二值，\(D \in \{0,1\}\)），要估其对结果的因果效应。
\(Y\)：潜在结果（连续或离散），仅在样本被选中时可观测。
\(S\)：样本选择 / 缺失指示（二值，\(S=1\) 表示结果 \(Y\) 可观测，\(S=0\) 表示 \(Y\) 缺失）。
\(Z\)：工具变量（仅在某些识别策略中出现），影响 \(S\) 但不直接影响 \(Y\)（或仅通过 \(S\) 影响）。
\(X\)：基线协变量（pre-treatment），不受 \(D\) 影响，可观测。
\(W\)：中间 / 后处理协变量（post-treatment），受 \(D\) 影响，同时影响 \(S\) 与 \(Y\)（动态混杂）。
\(Y(1), Y(0)\)：潜在结果（counterfactual），不可直接观测。
\(S(1), S(0)\)：潜在选择指示（counterfactual），不可直接观测。
可观测数据：对每个个体，观测 \((X, D, W, S, Y \cdot S)\)——当 \(S=1\) 时观测到 \(Y\)；当 \(S=0\) 时 \(Y\) 缺失。\(Z\) 在 IV 策略下也可观测。
要估的对象：ATE \(= E[Y(1)-Y(0)]\) 或 ATT \(= E[Y(1)-Y(0)|D=1]\)；在样本选择下，常估的是子群体效应（如 always-observed 群体或 always-selected 群体的效应）。

模型 / 数据生成机制： - 处理分配：\(D\) 依 \(X\) 随机化（selection-on-observables：\(D \perp Y(d), S(d) | X\)）。 - 选择机制：\(S\) 依 \(X, W, D\)（及可能 \(Z\)）生成；若 \(Z\) 存在，\(Z\) 影响 \(S\) 但满足 IV 条件（如 \(Z \perp Y | X, D\) 或仅影响选择）。 - 结果机制：\(Y\) 依 \(X, W, D\) 生成；\(W\) 受 \(D\) 影响（动态混杂：\(W = W(D)\)）。 - 目标：在 \(S=1\) 条件下识别并估计 \(E[Y(1)-Y(0)|\text{subgroup}]\)。

第二步：最小内核——最简特例（无 IV、无动态混杂、二值处理）

剥掉动态混杂（设 \(W\) 为空或为基线 \(X\) 的一部分）与 IV（设 \(Z\) 不存在），回到最简设定： - 可观测：\((X, D, S, Y \cdot S)\)。 - 假设：\(D \perp Y(d), S(d) | X\)（处理与潜在结果/选择独立，给定基线协变量）。 - 目标：估计 always-observed 群体的 ATT：\(E[Y(1)-Y(0) | D=1, S(1)=1, S(0)=1]\)（即无论处理如何，结果都会被观测到的子群体）。

在这个最简特例下，核心思路怎么走？ 1. 识别：在 selection-on-observables 下，\(S(d)\) 仅依 \(X\) 变动，故 always-observed 群体可由 \(P(S(1)=1, S(0)=1|X)\) 识别。由于 \(D\) 随机，\(P(S=1|X,D=1)\) 与 \(P(S=1|X,D=0)\) 分别估 \(P(S(1)=1|X)\) 与 \(P(S(0)=1|X)\)，二者相乘得 always-observed 概率。 2. DR score 构造：借鉴 Rotnitzky & Robins (1995)，对 ATT 构造矩条件：

\[\psi = \frac{D \cdot S}{\pi(X)} \cdot (Y - \mu_1(X)) - \frac{(1-D) \cdot S \cdot p(X)}{\pi(X) \cdot (1-p(X))} \cdot (Y - \mu_0(X)) + \text{offset}\]

其中 \(\pi(X)=P(D=1|X)\)（处理倾向），\(p(X)=P(S=1|X,D=1)\)（选择倾向），\(\mu_d(X)=E[Y|X,D=d,S=1]\)（条件结果均值）。 - Neyman orthogonality：对 \(\psi\) 在 nuisance 参数 \((\pi, p, \mu_0, \mu_1)\) 的真实值处求导，得 0——即 nuisance 的小偏差不会一阶传播到估计量。 - Doubly robust：若 \(\mu_0\) 与 \(p\) 中任一模型正确，即使 \(\pi\) 或另一模型误设，估计量仍一致（在最简设定下，这退化为经典 DR IPW）。 3. DML 适配：用 ML（如 Random Forest, Lasso）估 nuisance \((\pi, p, \mu_d)\)，但为防 overfitting： - Cross-fitting：将样本分 \(K\) 折，在 \(k\) 折外估 nuisance，在 \(k\) 折内算 \(\psi\)，汇总求均值。 - Rate condition：要求各 nuisance 的收敛速率满足 \(o(n^{-1/4})\)（如 Lasso 在稀疏下可达），则 \(\sqrt{n}\)-CAN 成立。 4. 为什么成立：orthogonality 保证 nuisance 的 moderate regularization bias（\(o(n^{-1/4})\)）在 \(\psi\) 中被“吸收”而不影响一阶渐近；cross-fitting 保证 nuisance 估计与 \(\psi\) 计算的样本独立，消除 overfitting bias；二者结合，使 ML 估 nuisance 下仍得 \(\sqrt{n}\)-正态。

这个特例退化成了什么？ 退化成带样本选择的标准 DR IPW + DML，证明路线与 Chernozhukov et al. (2018) 的部分线性模型 DML 完全同构——只是 nuisance 多了一个 \(p(X)\)（选择倾向），orthogonality 的求导多了一项。论文的一般情形（加 IV \(Z\)、加动态 \(W\)）只是在这个内核上“加壳”：识别条件更复杂（需 IV 解不可观测选择），score 多了 \(Z\) 的条件概率项，nuisance 多了 \(W\) 的模型，但 orthogonality + cross-fitting + rate condition 的逻辑主干完全一样。

三、这篇论文做了什么¶

三句话： ① 研究了在结果缺失（样本选择）与动态混杂（协变量受处理影响）设定下，离散处理因果效应的识别与半参数估计问题。 ② 核心方法是将 Double Machine Learning (DML) 框架适配至样本选择，构造 Neyman-orthogonal 且 doubly robust 的 efficient score function，并用 cross-fitting 控制 overfitting。 ③ 主要结论是：在 nuisance 模型满足特定收敛速率条件下，所提估计量为 \(\sqrt{n}\)-consistent 且渐近正态的半参数估计量。

关键设定与假设：

在第二节最小记号基础上补全： - \(V\)：合并协变量向量，在动态设定下 \(V=(X, W)\)，\(W\) 受 \(D\) 影响。 - \(m_d(V)\)：条件结果均值 \(E[Y|V, D=d, S=1]\)。 - \(g_d(V)\)：条件选择倾向 \(P(S=1|V, D=d)\)。 - \(p(V)\)：处理倾向 \(P(D=1|V)\)（注意：动态设定下 \(V\) 含 \(W(D)\)，故 \(p(V)\) 实为带后处理协变量的倾向，需特殊处理）。 - \(r(Z, V)\)：在 IV 策略下，工具变量的条件概率 / 密度比（如 \(P(Z|V, D=1)/P(Z|V, D=0)\) 或相关函数）。

核心假设（逐条说明统计含义与放宽/强化）： 1. Selection-on-observables for treatment：\(D \perp Y(d), S(d) | X\)。统计含义：处理分配在给定基线协变量下无混杂。相比标准因果 DML，未放宽。 2. Selection-on-observables for selection (策略一)：\(S(d) \perp Y(d) | X, D=d\)。统计含义：缺失机制在给定基线协变量与处理下无混杂（可观测选择）。相比 Rotnitzky & Robins (1995) 的标准缺失 DR 设定，未放宽；但本文允许 \(W\) 受 \(D\) 影响，故实际条件需含 \(W\)。 3. IV for selection (策略二)：存在 \(Z\)，满足 (i) \(Z\) 影响 \(S\)（相关性），(ii) \(Z \perp Y(d) | X, D=d\)（排除约束），(iii) \(Z \perp S(0) | X\) 或类似单调性。统计含义：缺失机制有不可观测混杂时，用 IV 识别。相比 Newey (2009) 的半参数 IV 选择模型，本文在非参数 DR 框架下用 IV，强化了稳健性（DR）但识别条件更严格（需 monotonicity 或类似条件以定义子群体）。 4. Dynamic confounding：\(W = W(D)\)，即中间协变量受处理影响，且 \(W\) 同时影响 \(S\) 与 \(Y\)。统计含义：存在时间varying混杂。相比标准 DML（无动态），这是本文的核心拓展——需在识别中处理 \(W(1)\) vs \(W(0)\) 的反事实。 5. Nuisance rate conditions：各 ML nuisance 估计量收敛速率需满足 \(o(n^{-1/4})\)（具体见定理假设）。统计含义：允许高维 / ML 估计，但需稀疏性或类似条件保证速率。与 Chernozhukov et al. (2018) 一致，未放宽。

主要结果：

Theorem 1 (Identification)：在上述假设组合下，非参数识别了 always-selected / always-observed 等子群体的 ATT / ATE。直觉：selection-on-observables 下通过条件概率加权；IV 下通过工具变量的密度比（ratio of densities）构造控制函数或类似矩条件。解决了动态混杂 \(W(D)\) 的识别难题——通过反事实 \(W(0)\) 的分布变换（g-formula 类思路）。
Theorem 2 (Asymptotic normality of DML estimator)：在 cross-fitting 与 nuisance rate \(o(n^{-1/4})\) 下，DML 估计量 \(\hat{\theta}\) 满足：
\[\sqrt{n}(\hat{\theta} - \theta_0) \to N(0, V)\]
其中 \(V = E[\psi^2]\)（score 的方差）。直觉：orthogonality 吸收 nuisance bias，cross-fitting 消除 overfitting，rate condition 保证残余偏差为 \(o(1/\sqrt{n})\)。必要条件：nuisance 速率 + 有限样本支撑条件（如 bounded propensity）。解决的技术难点：在多个 nuisance（处理、选择、结果、IV 密度比）同时用 ML 估计时，偏差的联合传播控制。
Doubly Robust 性质（命题/推论）：所提 score 在结果模型 \(m_d\) 与选择倾向 \(g_d\)（或 IV 密度比 \(r\)）中任一正确时，估计量仍一致。直觉：score 构造为 IPW 与 outcome-regression 的组合，一阶抵消。相比标准 DR，本文在动态混杂 + IV 下维持了 DR，这是对 Rotnitzky & Robins (1995) 的拓展。

证明路线与技术技巧：

整体路线：
构造 score：基于识别公式，写出 ATT/ATE 的矩函数 \(\psi(\theta, \eta)\)，其中 \(\eta\) 为 nuisance 参数向量 \((m, g, p, r)\)。
验证 Neyman orthogonality：计算 \(\frac{\partial E[\psi]}{\partial \eta}\big|_{\eta_0} = 0\)，证明 nuisance 的一阶偏差不影响矩条件。
验证 DR：证明在部分 nuisance 误设下，\(E[\psi(\theta_0, \eta)] = 0\) 仍成立。
DML 渐近展开：对 cross-fitting 估计量做线性化展开：
\[\sqrt{n}(\hat{\theta} - \theta_0) = \frac{1}{\sqrt{n}} \sum_{i} \psi(\theta_0, \eta_0; O_i) + \text{remainder terms}\]
控制 remainder：用 nuisance rate condition + orthogonality，证明 remainder 为 \(o_p(1/\sqrt{n})\)，从而得正态性。
关键跳跃点：
动态混杂下的识别与 score 构造：\(W\) 受 \(D\) 影响，使得 \(E[Y|X, W, D=0, S=1]\) 中的 \(W\) 是 \(W(0)\)，而处理组个体的 \(W\) 是 \(W(1)\)——需通过 \(W\) 的反事实分布变换（类似 g-formula：\(P(W(0)|X, D=1)\) vs \(P(W(0)|X, D=0)\)），将处理组的 \(W(1)\) “校正”为 \(W(0)\) 的期望。这一步在 score 中体现为额外的密度比 / 概率加权项，是本文区别于标准缺失 DR 的核心难点。
IV 策略下的 score 构造：当缺失有不可观测混杂时，需引入 \(r(Z, V)\)（工具变量的条件密度比）。构造类似控制函数的矩条件，同时维持 orthogonality 与 DR——需在 score 中巧妙组合 \(r\) 与 \(g_d\)，使得对 \(r\) 的误设也部分稳健。
技术技巧点名：
Neyman orthogonality：用于构造抗 nuisance 一阶偏差的 score，源自 Chernozhukov et al. (2018) 的 DML 框架。
Doubly robust construction：组合 outcome-regression 与 IPW / weighting，源自 Robins et al. (1994) / Rotnitzky & Robins (1995)。
Cross-fitting / sample splitting：防 overfitting bias，源自 Chernozhukov et al. (2018)。
Density ratio estimation：在 IV 策略下，需估 \(r(Z, V) = f(Z|V, D=1)/f(Z|V, D=0)\)，用 ML（如 kernel / logistic 密度比）实现，技术难点在于保证其收敛速率。
G-formula / standardization for dynamic confounding：处理 \(W(D)\) 的反事实分布变换，源自 Robins (1986) 的 g-computation。

真实例子与应用：

数据：Job Corps 数据（美国职业培训项目），处理 \(D\) 为是否参加 Job Corps，结果 \(Y\) 为收入，缺失 \(S\) 为收入是否被观测（随访 attrition），协变量 \(X\) 为基线特征，\(W\) 为受培训影响的中间变量（如就业状态），\(Z\) 为距离培训中心的距离（IV，影响参与但可能也影响随访）。
怎么用上去：用本文的 DML 估计量（含动态混杂 + IV 策略），估 Job Corps 对收入的 ATT（在 always-observed 群体），nuisance 用 Random Forest / Lasso 估，cross-fitting \(K=5\) 折。
得到什么结果：估计出 Job Corps 显著提高收入（ATT 约 10-20% 增幅），且在缺失率较高下仍稳健；与忽略缺失的 OLS / IPW 相比，DML 估计量更稳定（标准误更小），与参数 Heckman 两步法相比，无需正态性假设。
想说明什么：验证 DML 在真实高维缺失数据下的可行性，展示 DR 性质（对 nuisance 误设的稳健），以及动态混杂 + IV 设定的实用性。

🔎 结论是否比证明窄： - 本文在定理中严格证明了 \(\sqrt{n}\)-CAN 与正态性，但未明确声称估计量达到半参数效率界。文中称 score 为“efficient score”（引用 Rotnitzky & Robins 1995 的构造），但在动态混杂 + IV 的一般设定下，是否真正达到该设定下的半参数效率界，证明未展开——这是一个比“CAN”更窄的结论，被泛泛 claim 但未严格证。研究者需去查：该 score 是否在所有 nuisance 参数空间下达到效率界，还是仅在部分子模型下。

四、开放问题（点到为止，扎根具体语句）¶

效率界的紧性：本文证明了 \(\sqrt{n}\)-CAN，但 score 是否达到动态混杂 + IV 缺失设定下的半参数效率界？文中称“efficient score”（见 Abstract 与 Section 2 的构造），但定理仅证正态性，未证方差等于效率界。扎根点：Theorem 2 的陈述仅给出 \(V = E[\psi^2]\)，未与效率界比较；需查 Rotnitzky & Robins (1995) 在类似设定下的界是否一致。
IV 密度比 \(r(Z,V)\) 的估计与 rate：在 IV 策略下，需估条件密度比 \(r(Z,V)\)，本文要求其收敛速率 \(o(n^{-1/4})\)，但非参数密度比估计在高维 \(V\) 下常受 curse of dimensionality 限制。扎根点：Section 4.2 的假设条件与 Remark 4.2 讨论了 rate，但未给出在何种稀疏 / 结构假设下 \(r\) 可达该速率——这是实际应用的瓶颈。
动态混杂下 \(W(D)\) 的反事实识别：本文通过 g-formula 变换处理 \(W(D)\)，但需假设 \(W(0)\) 的分布可从对照组识别（即无不可观测的 \(W\) 混杂）。若 \(W\) 的生成也有不可观测混杂，当前识别断裂。扎根点：Section 2.3 的动态混杂识别假设（Assumption 4/5），未讨论 \(W\) 本身有不可观测混杂的情形。
缺失的竞争路线对比：文中淡化了参数 Heckman 模型与 MSM 在缺失下的估计，未在模拟 / 实证中与这些路线系统对比（仅与 OLS / IPW 比）。扎根点：Section 5 的模拟与 Section 6 的实证，baseline 仅为简单方法；需查近期 longitudinal DML / MSM-with-missing 是否已覆盖类似设定，以确认本文的增量。

Maintained by 陈星宇 · Homepage · Source on GitHub

Double Machine Learning for Sample Selection Models¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论