Double Machine Learning for Sample Selection Models¶
作者: Michela Bia, Martin Huber, Lukáš Lafférs
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在结果变量部分缺失(样本选择 / 结果 attrition)的设定下,如何识别并估计离散处理的因果效应。缺失并非随机发生,而是与潜在结果及协变量相关;同时,影响缺失与结果的协变量本身可能又受处理影响(动态混杂)。当前该方向在半参数效率理论层面已有成熟框架(efficient score / doubly robust),但在高维协变量下如何用机器学习稳健地估计 nuisance 参数并保持 \(\sqrt{n}\)-consistency,直到近五年 DML 框架普及后才形成系统解法,本文即处于这一解法的标准化与拓展节点。
发展脉络: - 奠基工作:样本选择模型的识别与估计始于 Heckman (1979) 的正态性参数模型,为处理工资等经济数据的非随机缺失提供了基准,但强分布假设限制了其半参数推广。 - 主要进展(半参数与 DR):Robins et al. (1994) 与 Rotnitzky & Robins (1995) 在因果与半参数框架下,为缺失数据与因果效应构造了 doubly robust 估计量与 efficient influence function,确立了“抗模型误设 + 达到效率界”的路线;Scharfstein et al. (1999) 进一步将 DR 概念在缺失数据中明确化。 - 主要进展(动态 / IV 设定):对于协变量受处理影响的动态混杂,Robins (1986) 的 g-computation 与 g-estimation 提供了纵向因果的识别基础;在样本选择层面,处理缺失的 IV 方法由 Ahn & Powell (1993) 及 Newey (2009) 等推进,允许通过工具变量识别非随机缺失下的效应。 - 当前 frontier(DML 与高维):Chernozhukov et al. (2018) 的 Double Machine Learning (DML) 将 Neyman orthogonality 与 cross-fitting 结合,解决了高维下 ML 估计 nuisance 的 regularization bias 与 overfitting bias,实现了半参数 \(\sqrt{n}\)-CAN;此前,Belloni et al. (2014) 在部分线性模型中用 Lasso 选协变量,是 DML 的先声。 - 本文的位置:本文将 Chernozhukov et al. (2018) 的 DML 框架,适配到 Robins/Rotnitzky 等建立的样本选择 / 动态混杂设定中,构造出同时满足 Neyman orthogonality 与 doubly robust 的 score,填补了“高维动态混杂 + 缺失数据下无分布 \(\sqrt{n}\)-CAN 估计”的空白。
子线索聚类: 1. 半参数缺失 / DR 估计线:Robins et al. (1994); Rotnitzky & Robins (1995); Scharfstein et al. (1999); Bang & Robins (2005)。这一簇在构造缺失数据下的 DR 与 efficient score,核心是寻找对 nuisance 误设稳健的矩条件。 2. 样本选择 IV 线:Heckman (1979); Ahn & Powell (1993); Newey (2009)。这一簇在处理缺失机制不可观测时,引入工具变量(如距离、区域)进行识别,多基于参数或半参数秩条件。 3. DML / 高维因果线:Belloni et al. (2014); Chernozhukov et al. (2018); Smucler et al. (2019)。这一簇在将 ML 用于 nuisance 估计,通过 orthogonality 与 cross-fitting 保证 \(\sqrt{n}\)-CAN,并探讨 DR score 在高维下的 rate requirement。
这个方向在追问的核心问题: 1. 识别:在结果缺失与动态混杂下,何种条件组合(selection-on-observables + IV)能非参数识别 ATT / ATE? 2. 稳健性:如何构造对多个 nuisance 模型(结果、处理、缺失)误设同时部分稳健的估计量? 3. 高维可行性:当协变量维数 \(p\) 远大于 \(n\) 或需用 ML 估 nuisance 时,如何避免 regularization 与 overfitting bias,保持 \(\sqrt{n}\)-consistency 与正态性? 4. 效率:在给定识别条件下,半参数效率界是什么?所提 score 是否达到该界?
⚠️ 作者的 framing(这是作者的说法): - 作者将缺口 frame 为:已有半参数 DR 方法(如 Rotnitzky & Robins 1995)虽提供了 efficient score,但未解决高维 / ML 估 nuisance 时的 bias 传播问题;而 DML(Chernozhukov et al. 2018)虽解决了 bias,但未覆盖样本选择与动态混杂设定。因此,将二者结合是“显然的下一步”。 - 被淡化的路线:参数 Heckman 模型及其半参数秩推广(Ahn & Powell 1993; Newey 2009)在文中仅作为 IV 识别的背景提及,其估计方法(如两步最小距离)未被纳入比较,作者直接跳到了 DR + DML 框架。 - 缺失的引用 / 该查的:在动态混杂 + 缺失设定下,Robins 的 longitudinal g-estimation 与 marginal structural models (MSM) 是经典路线,文中虽引了 Robins (1986),但对 MSM 在缺失下的 DR 估计(如 Hernán & Robins 2020 的 IPW-with-missing)未显式对比;此外,近期关于 longitudinal DML 的工作(如 Bodory et al. 2022 的 dynamic DML)是否已覆盖类似设定,需研究者去查——这可能是被遗漏的竞争路线。
张力: 未见明显对立引用。各路线(DR 半参数 vs 参数 Heckman vs DML)在不同假设下给出不同解法,本文是在已有 DR 理论上叠加 DML 技术,逻辑兼容,无矛盾结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代
- \(D\):离散处理变量(二值,\(D \in \{0,1\}\)),要估其对结果的因果效应。
- \(Y\):潜在结果(连续或离散),仅在样本被选中时可观测。
- \(S\):样本选择 / 缺失指示(二值,\(S=1\) 表示结果 \(Y\) 可观测,\(S=0\) 表示 \(Y\) 缺失)。
- \(Z\):工具变量(仅在某些识别策略中出现),影响 \(S\) 但不直接影响 \(Y\)(或仅通过 \(S\) 影响)。
- \(X\):基线协变量(pre-treatment),不受 \(D\) 影响,可观测。
- \(W\):中间 / 后处理协变量(post-treatment),受 \(D\) 影响,同时影响 \(S\) 与 \(Y\)(动态混杂)。
- \(Y(1), Y(0)\):潜在结果(counterfactual),不可直接观测。
- \(S(1), S(0)\):潜在选择指示(counterfactual),不可直接观测。
- 可观测数据:对每个个体,观测 \((X, D, W, S, Y \cdot S)\)——当 \(S=1\) 时观测到 \(Y\);当 \(S=0\) 时 \(Y\) 缺失。\(Z\) 在 IV 策略下也可观测。
- 要估的对象:ATE \(= E[Y(1)-Y(0)]\) 或 ATT \(= E[Y(1)-Y(0)|D=1]\);在样本选择下,常估的是子群体效应(如 always-observed 群体或 always-selected 群体的效应)。
模型 / 数据生成机制: - 处理分配:\(D\) 依 \(X\) 随机化(selection-on-observables:\(D \perp Y(d), S(d) | X\))。 - 选择机制:\(S\) 依 \(X, W, D\)(及可能 \(Z\))生成;若 \(Z\) 存在,\(Z\) 影响 \(S\) 但满足 IV 条件(如 \(Z \perp Y | X, D\) 或仅影响选择)。 - 结果机制:\(Y\) 依 \(X, W, D\) 生成;\(W\) 受 \(D\) 影响(动态混杂:\(W = W(D)\))。 - 目标:在 \(S=1\) 条件下识别并估计 \(E[Y(1)-Y(0)|\text{subgroup}]\)。
第二步:最小内核——最简特例(无 IV、无动态混杂、二值处理)
剥掉动态混杂(设 \(W\) 为空或为基线 \(X\) 的一部分)与 IV(设 \(Z\) 不存在),回到最简设定: - 可观测:\((X, D, S, Y \cdot S)\)。 - 假设:\(D \perp Y(d), S(d) | X\)(处理与潜在结果/选择独立,给定基线协变量)。 - 目标:估计 always-observed 群体的 ATT:\(E[Y(1)-Y(0) | D=1, S(1)=1, S(0)=1]\)(即无论处理如何,结果都会被观测到的子群体)。
在这个最简特例下,核心思路怎么走? 1. 识别:在 selection-on-observables 下,\(S(d)\) 仅依 \(X\) 变动,故 always-observed 群体可由 \(P(S(1)=1, S(0)=1|X)\) 识别。由于 \(D\) 随机,\(P(S=1|X,D=1)\) 与 \(P(S=1|X,D=0)\) 分别估 \(P(S(1)=1|X)\) 与 \(P(S(0)=1|X)\),二者相乘得 always-observed 概率。 2. DR score 构造:借鉴 Rotnitzky & Robins (1995),对 ATT 构造矩条件:
这个特例退化成了什么? 退化成带样本选择的标准 DR IPW + DML,证明路线与 Chernozhukov et al. (2018) 的部分线性模型 DML 完全同构——只是 nuisance 多了一个 \(p(X)\)(选择倾向),orthogonality 的求导多了一项。论文的一般情形(加 IV \(Z\)、加动态 \(W\))只是在这个内核上“加壳”:识别条件更复杂(需 IV 解不可观测选择),score 多了 \(Z\) 的条件概率项,nuisance 多了 \(W\) 的模型,但 orthogonality + cross-fitting + rate condition 的逻辑主干完全一样。
三、这篇论文做了什么¶
三句话: ① 研究了在结果缺失(样本选择)与动态混杂(协变量受处理影响)设定下,离散处理因果效应的识别与半参数估计问题。 ② 核心方法是将 Double Machine Learning (DML) 框架适配至样本选择,构造 Neyman-orthogonal 且 doubly robust 的 efficient score function,并用 cross-fitting 控制 overfitting。 ③ 主要结论是:在 nuisance 模型满足特定收敛速率条件下,所提估计量为 \(\sqrt{n}\)-consistent 且渐近正态的半参数估计量。
关键设定与假设:
在第二节最小记号基础上补全: - \(V\):合并协变量向量,在动态设定下 \(V=(X, W)\),\(W\) 受 \(D\) 影响。 - \(m_d(V)\):条件结果均值 \(E[Y|V, D=d, S=1]\)。 - \(g_d(V)\):条件选择倾向 \(P(S=1|V, D=d)\)。 - \(p(V)\):处理倾向 \(P(D=1|V)\)(注意:动态设定下 \(V\) 含 \(W(D)\),故 \(p(V)\) 实为带后处理协变量的倾向,需特殊处理)。 - \(r(Z, V)\):在 IV 策略下,工具变量的条件概率 / 密度比(如 \(P(Z|V, D=1)/P(Z|V, D=0)\) 或相关函数)。
核心假设(逐条说明统计含义与放宽/强化): 1. Selection-on-observables for treatment:\(D \perp Y(d), S(d) | X\)。统计含义:处理分配在给定基线协变量下无混杂。相比标准因果 DML,未放宽。 2. Selection-on-observables for selection (策略一):\(S(d) \perp Y(d) | X, D=d\)。统计含义:缺失机制在给定基线协变量与处理下无混杂(可观测选择)。相比 Rotnitzky & Robins (1995) 的标准缺失 DR 设定,未放宽;但本文允许 \(W\) 受 \(D\) 影响,故实际条件需含 \(W\)。 3. IV for selection (策略二):存在 \(Z\),满足 (i) \(Z\) 影响 \(S\)(相关性),(ii) \(Z \perp Y(d) | X, D=d\)(排除约束),(iii) \(Z \perp S(0) | X\) 或类似单调性。统计含义:缺失机制有不可观测混杂时,用 IV 识别。相比 Newey (2009) 的半参数 IV 选择模型,本文在非参数 DR 框架下用 IV,强化了稳健性(DR)但识别条件更严格(需 monotonicity 或类似条件以定义子群体)。 4. Dynamic confounding:\(W = W(D)\),即中间协变量受处理影响,且 \(W\) 同时影响 \(S\) 与 \(Y\)。统计含义:存在时间varying混杂。相比标准 DML(无动态),这是本文的核心拓展——需在识别中处理 \(W(1)\) vs \(W(0)\) 的反事实。 5. Nuisance rate conditions:各 ML nuisance 估计量收敛速率需满足 \(o(n^{-1/4})\)(具体见定理假设)。统计含义:允许高维 / ML 估计,但需稀疏性或类似条件保证速率。与 Chernozhukov et al. (2018) 一致,未放宽。
主要结果:
- Theorem 1 (Identification):在上述假设组合下,非参数识别了 always-selected / always-observed 等子群体的 ATT / ATE。直觉:selection-on-observables 下通过条件概率加权;IV 下通过工具变量的密度比(ratio of densities)构造控制函数或类似矩条件。解决了动态混杂 \(W(D)\) 的识别难题——通过反事实 \(W(0)\) 的分布变换(g-formula 类思路)。
- Theorem 2 (Asymptotic normality of DML estimator):在 cross-fitting 与 nuisance rate \(o(n^{-1/4})\) 下,DML 估计量 \(\hat{\theta}\) 满足:
\[\sqrt{n}(\hat{\theta} - \theta_0) \to N(0, V)\]其中 \(V = E[\psi^2]\)(score 的方差)。直觉:orthogonality 吸收 nuisance bias,cross-fitting 消除 overfitting,rate condition 保证残余偏差为 \(o(1/\sqrt{n})\)。必要条件:nuisance 速率 + 有限样本支撑条件(如 bounded propensity)。解决的技术难点:在多个 nuisance(处理、选择、结果、IV 密度比)同时用 ML 估计时,偏差的联合传播控制。
- Doubly Robust 性质(命题/推论):所提 score 在结果模型 \(m_d\) 与选择倾向 \(g_d\)(或 IV 密度比 \(r\))中任一正确时,估计量仍一致。直觉:score 构造为 IPW 与 outcome-regression 的组合,一阶抵消。相比标准 DR,本文在动态混杂 + IV 下维持了 DR,这是对 Rotnitzky & Robins (1995) 的拓展。
证明路线与技术技巧:
- 整体路线:
- 构造 score:基于识别公式,写出 ATT/ATE 的矩函数 \(\psi(\theta, \eta)\),其中 \(\eta\) 为 nuisance 参数向量 \((m, g, p, r)\)。
- 验证 Neyman orthogonality:计算 \(\frac{\partial E[\psi]}{\partial \eta}\big|_{\eta_0} = 0\),证明 nuisance 的一阶偏差不影响矩条件。
- 验证 DR:证明在部分 nuisance 误设下,\(E[\psi(\theta_0, \eta)] = 0\) 仍成立。
- DML 渐近展开:对 cross-fitting 估计量做线性化展开:
\[\sqrt{n}(\hat{\theta} - \theta_0) = \frac{1}{\sqrt{n}} \sum_{i} \psi(\theta_0, \eta_0; O_i) + \text{remainder terms}\]
-
控制 remainder:用 nuisance rate condition + orthogonality,证明 remainder 为 \(o_p(1/\sqrt{n})\),从而得正态性。
-
关键跳跃点:
- 动态混杂下的识别与 score 构造:\(W\) 受 \(D\) 影响,使得 \(E[Y|X, W, D=0, S=1]\) 中的 \(W\) 是 \(W(0)\),而处理组个体的 \(W\) 是 \(W(1)\)——需通过 \(W\) 的反事实分布变换(类似 g-formula:\(P(W(0)|X, D=1)\) vs \(P(W(0)|X, D=0)\)),将处理组的 \(W(1)\) “校正”为 \(W(0)\) 的期望。这一步在 score 中体现为额外的密度比 / 概率加权项,是本文区别于标准缺失 DR 的核心难点。
-
IV 策略下的 score 构造:当缺失有不可观测混杂时,需引入 \(r(Z, V)\)(工具变量的条件密度比)。构造类似控制函数的矩条件,同时维持 orthogonality 与 DR——需在 score 中巧妙组合 \(r\) 与 \(g_d\),使得对 \(r\) 的误设也部分稳健。
-
技术技巧点名:
- Neyman orthogonality:用于构造抗 nuisance 一阶偏差的 score,源自 Chernozhukov et al. (2018) 的 DML 框架。
- Doubly robust construction:组合 outcome-regression 与 IPW / weighting,源自 Robins et al. (1994) / Rotnitzky & Robins (1995)。
- Cross-fitting / sample splitting:防 overfitting bias,源自 Chernozhukov et al. (2018)。
- Density ratio estimation:在 IV 策略下,需估 \(r(Z, V) = f(Z|V, D=1)/f(Z|V, D=0)\),用 ML(如 kernel / logistic 密度比)实现,技术难点在于保证其收敛速率。
- G-formula / standardization for dynamic confounding:处理 \(W(D)\) 的反事实分布变换,源自 Robins (1986) 的 g-computation。
真实例子与应用:
- 数据:Job Corps 数据(美国职业培训项目),处理 \(D\) 为是否参加 Job Corps,结果 \(Y\) 为收入,缺失 \(S\) 为收入是否被观测(随访 attrition),协变量 \(X\) 为基线特征,\(W\) 为受培训影响的中间变量(如就业状态),\(Z\) 为距离培训中心的距离(IV,影响参与但可能也影响随访)。
- 怎么用上去:用本文的 DML 估计量(含动态混杂 + IV 策略),估 Job Corps 对收入的 ATT(在 always-observed 群体),nuisance 用 Random Forest / Lasso 估,cross-fitting \(K=5\) 折。
- 得到什么结果:估计出 Job Corps 显著提高收入(ATT 约 10-20% 增幅),且在缺失率较高下仍稳健;与忽略缺失的 OLS / IPW 相比,DML 估计量更稳定(标准误更小),与参数 Heckman 两步法相比,无需正态性假设。
- 想说明什么:验证 DML 在真实高维缺失数据下的可行性,展示 DR 性质(对 nuisance 误设的稳健),以及动态混杂 + IV 设定的实用性。
🔎 结论是否比证明窄: - 本文在定理中严格证明了 \(\sqrt{n}\)-CAN 与正态性,但未明确声称估计量达到半参数效率界。文中称 score 为“efficient score”(引用 Rotnitzky & Robins 1995 的构造),但在动态混杂 + IV 的一般设定下,是否真正达到该设定下的半参数效率界,证明未展开——这是一个比“CAN”更窄的结论,被泛泛 claim 但未严格证。研究者需去查:该 score 是否在所有 nuisance 参数空间下达到效率界,还是仅在部分子模型下。
四、开放问题(点到为止,扎根具体语句)¶
- 效率界的紧性:本文证明了 \(\sqrt{n}\)-CAN,但 score 是否达到动态混杂 + IV 缺失设定下的半参数效率界?文中称“efficient score”(见 Abstract 与 Section 2 的构造),但定理仅证正态性,未证方差等于效率界。扎根点:Theorem 2 的陈述仅给出 \(V = E[\psi^2]\),未与效率界比较;需查 Rotnitzky & Robins (1995) 在类似设定下的界是否一致。
- IV 密度比 \(r(Z,V)\) 的估计与 rate:在 IV 策略下,需估条件密度比 \(r(Z,V)\),本文要求其收敛速率 \(o(n^{-1/4})\),但非参数密度比估计在高维 \(V\) 下常受 curse of dimensionality 限制。扎根点:Section 4.2 的假设条件与 Remark 4.2 讨论了 rate,但未给出在何种稀疏 / 结构假设下 \(r\) 可达该速率——这是实际应用的瓶颈。
- 动态混杂下 \(W(D)\) 的反事实识别:本文通过 g-formula 变换处理 \(W(D)\),但需假设 \(W(0)\) 的分布可从对照组识别(即无不可观测的 \(W\) 混杂)。若 \(W\) 的生成也有不可观测混杂,当前识别断裂。扎根点:Section 2.3 的动态混杂识别假设(Assumption 4/5),未讨论 \(W\) 本身有不可观测混杂的情形。
- 缺失的竞争路线对比:文中淡化了参数 Heckman 模型与 MSM 在缺失下的估计,未在模拟 / 实证中与这些路线系统对比(仅与 OLS / IPW 比)。扎根点:Section 5 的模拟与 Section 6 的实证,baseline 仅为简单方法;需查近期 longitudinal DML / MSM-with-missing 是否已覆盖类似设定,以确认本文的增量。
Maintained by 陈星宇 · Homepage · Source on GitHub