Average partial effect estimation using double machine learning¶

作者: Harvey Klyne, Rajen D. Shah
来源: Annals of Statistics
主题: 效率理论 / Debiased ML
相关性: 9/10
链接: https://doi.org/10.1214/25-aos2563

一、核心问题与贡献（3句话）¶

针对非参数回归中变量平均偏效应（APE）的估计问题，本文指出传统双稳健（doubly robust）估计需要同时估计条件均值导数与目标变量的条件得分，这在高维或使用基于决策树的非可微机器学习方法时几乎不可行。
本文提出一种结合 “再平滑”（resmoothing） 与 “位置-尺度（location-scale）条件分布模型” 的新DML流程，将对目标变量条件得分的估计转化为对条件均值、条件标准差及一维得分三个更子组件的估计。
作者在位置-尺度模型假设下，证明了经交叉拟合（cross-fitting）处理的APE估计量达到 $\sqrt{n}$-一致渐近正态性（$\sqrt{n}$-CAN）与半参数有效界，并证明了Lipschitz得分函数的次高斯性这一具有独立意义的引理。

二、基础设定¶

核心概念与符号¶

平均偏效应（APE）：$\theta \triangleq \mathbb{E}\left[\frac{\partial \mu(X)}{\partial X_j}\right]$，其中 $\mu(x) = \mathbb{E}[Y | X=x]$ 是回归函数，$X_j$ 是目标变量（通常是连续变量）。这是部分线性模型中“偏效应”系数 $\beta$ 的非参数推广。
双鲁棒估计量（Doubly Robust Estimator）：在非参数设定下，APE 的双鲁棒得分函数为 $D = \frac{\partial \mu(X)}{\partial X_j} + \frac{(Y-\mu(X)) \cdot s(X)}{f_X(X)_{-j}}$，其中 $s(x)$ 是 $X_j$ 给定 $X_{-j}$ 的条件得分（即 $\partial \log f(X_j | X_{-j}) / \partial X_j$）。本文的估计量基于此结构。
再平滑（Resmoothing）：对第一阶段得到的一个可能非可微的回归估计 $\hat{\mu}$，用核函数在局部对其做加权平均（smoothing），产生一个关于 $X_j$ 可微的估计 $\hat{\mu}^{\text{smooth}}$。核心是控制平滑引入的bias与variance的权衡。
位置-尺度模型（Location-Scale Model）：假设 $X_j = m(X_{-j}) + \sigma(X_{-j}) \cdot \varepsilon$，其中 $\varepsilon$ 与 $X_{-j}$ 独立，且其分布已知或仅依赖少量参数（如一维非参数密度）。这极大简化了条件得分的结构。
条件得分（Conditional Score）：$s(x) = \frac{\partial \log f_{X_j | X_{-j}}(x_j | x_{-j})}{\partial x_j}$。

关键假设¶

假设 1（位置-尺度模型）：$X_j | X_{-j}$ 的分布属于一个位置-尺度族。这意味着条件得分 $s(x)$ 可以通过位置函数 $m(\cdot)$ 和尺度函数 $\sigma(\cdot)$ 以及满足 $\mathbb{E}[\tilde{s}(\varepsilon)] = 0$ 和 $\mathbb{E}[\tilde{s}(\varepsilon)\varepsilon] = -1$ 的“基得分” $\tilde{s}$ 来参数化：$s(x) = \tilde{s}\left(\frac{X_j - m(X_{-j})}{\sigma(X_{-j})}\right) \cdot \frac{1}{\sigma(X_{-j})}$。这是处理高维条件得分估计的核心简化假设，也是论文最关键的假设。
假设 2（平滑性与正则性）：对回归函数 $\mu(x)$、位置函数 $m(x_{-j})$ 和尺度函数 $\sigma(x_{-j})$ 施加一定的 Lipschitz 连续性和有界性条件。这是为了控制 resmoothing 的偏差和保证估计量的渐近性质。
假设 3（近似误差）：对于用于估计 $\mu$、$m$、$\sigma$ 的第一阶段机器学习方法，其关于 $L_2$-范数的均方根误差有上界（通常是 $o_p(n^{-1/4})$ 的量级）。这是DML框架的标准假设，用于控制交叉拟合中的偏差。

与已有文献相比：此文放宽了对第一阶段估计器可微性的要求，从而允许使用树模型、随机森林等非可微方法。与如Newey (1994) 那样的经典系列估计量相比，它不需要复杂的核密度估计。与Chernozhukov等人(2018)的DML框架相比，它不需要通过EIF直接得到可解的Neyman正交得分方程，而是通过resmoothing与位置-尺度假设间接构建。

问题背景¶

已有不足：经典的APE双鲁棒估计量需要估计条件得分 $s(x)$，其本身就是高维条件密度估计的难题，与基于树的非可微ML方法不兼容。
最相关的文献：
1. Chernozhukov et al. (2018) “Double/Debiased Machine Learning for Treatment and Structural Parameters”：奠定了DML的通用框架。本文是其具体应用与推广，解决了该框架下无法直接使用非可微ML估计器来处理非参数APE的问题。
2. Newey (1994) “Kernel Estimation of Partial Means”：提供了用非参数方法估计APE的经典思路。本文旨在解决其在高维与非可微ML环境下的困难。

三、主要方法/核心结果¶

方法设计¶

识别策略与估计量设计：
- 核心估计量：$\hat{\theta} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{\partial \hat{\mu}^{\text{smooth}}(X_i)}{\partial X_{ij}} + \frac{(Y_i - \hat{\mu}(X_i)) \cdot \hat{s}(X_i)}{f_X(X_i)_{-j}} \right]$
- 第一阶段：使用任意ML方法（如随机森林）估计 $\hat{\mu}(x)$。同时，利用位置-尺度模型，估计 $\hat{m}(x_{-j})$、$\hat{\sigma}(x_{-j})$ 和基得分 $\tilde{s}(\cdot)$。通过简单的回归（如最小二乘或分位数回归）即可得到 $\hat{m}$ 和 $\hat{\sigma}$，基得分 $\tilde{s}$ 可以通过残差 $\hat{\varepsilon}_i$ 的一维核密度估计得到。
- Resmoothing：对 $\hat{\mu}$ 做局部线性回归（使用核函数），得到一个关于 $X_j$ 可微的 $\hat{\mu}^{\text{smooth}}$。这是解决非可微性问题的方法。
- 交叉拟合（Cross-fitting）：将样本分为 $K$ 折，用 $K-1$ 折数据训练第一阶段的所有组件，在第 $K$ 折数据上计算估计量的值，然后平均。这避免了过拟合与渐近理论中的Donsker条件困难。
核心假设的可信度分析：
- 位置-尺度假设：这是最核心的简化假设。作者通过模拟了模型误设定（如异方差的方差函数被错误估计）的情况并发现结果稳健。然而，该假设在实质性应用中（例如，当协变量存在复杂交互作用时）可能不成立。诊断方法（如检查残差 $ \hat{\varepsilon} $ 与 $X_{-j}$ 的相关性）是必要的，论文未提供形式化检验。
- 近似误差假设：对于没有复杂结构的平滑回归函数，基于树的方法通常可以达到 $n^{-1/4}$ 的 $L_2$ 收敛率，但在函数不连续或高维稀疏设定下可能达不到。用户需根据具体问题判断。
稳健性检验策略：
- 模拟涵盖模型误设定和多种ML方法（线性模型、GAM、随机森林）。
- 测试 resmoothing 带宽选择的敏感性。
- 展示了在较通用的加减误差模型下，估计量仍能获得合理的结果，暗示了对位置-尺度假设的轻微违反是鲁棒的。
计算/实现细节：
- 计算复杂度：$O(n \log n)$ 到 $O(n^2)$，取决于第一阶段使用的ML方法（如随机森林 $O(n \log n)$，KNN $O(n^2)$）。Resmoothing 或核回归本身需要 $O(n^2)$，但可以通过近似方法加速。交叉拟合使计算量增加约 $K$ 倍。
- 软件：可以使用 R/Python 的 grf（广义随机森林）、ranger（随机森林）和 locfit（局部回归）等包来实现。用户需自己实现 resmoothing 操作。

核心发现（数值结果）¶

核心发现的量化描述：在所有模拟场景下，本文提出的DML估计量（即使第一阶段使用随机森林）的偏差和均方根误差（RMSE）都能与基于平滑模型（如GAM、线性模型）的现有最佳方法相媲美，且在模型复杂时（如存在非线性交互）显著优于线性模型。
与baseline的对比：与假设部分线性模型的估计量（如线性IV/DML）相比，本文的方法在模型复杂时偏差增长率明显更小。与使用经典核平滑分量的传统非参数估计量相比，在中等维度（如 $p=10$）下RMSE降低了30-50%。
结论的稳健性：当位置-尺度假设被误设（如真实模型为异方差且方差函数形式被错误忽略）时，本文方法在大多数情况下仍维持较低偏差，表现出良好的稳健性。resmoothing 的带宽在一定范围内变化对结果影响较小。

四、证明框架¶

证明主干逻辑¶

构建近似Neyman正交得分：核心步骤是证明resmoothing和位置-尺度模型的结合，使得主估计量 $\hat{\theta}$ 的渐进偏差来自几个可控制项的和。关键是，经过交叉拟合后，估计量在 $\sqrt{n}$ 尺度下是线性的。
线性展开：利用von Mises展开或影响函数的方法，将 $\sqrt{n}(\hat{\theta} - \theta_0)$ 展开为样本平均项（渐近正态的）加上一个来自各第一阶段估计误差的高阶余项。
控制余项：
- Resmoothing偏差：利用Lipschitz性质和核函数的性质，证明 $\|\partial \hat{\mu}^{\text{smooth}}/\partial X_j - \partial \mu/\partial X_j\|_2^2$ 由第一阶段ML估计的均方误差和带宽选择的方差控制。
- 得分误差分解：最关键的一步。通过位置-尺度假设，条件得分估计误差 $\hat{s}(x) - s(x)$ 可以分解为： $\hat{s}(x) - s(x) \approx \frac{\tilde{s}'(\varepsilon)}{\sigma(x_{-j})} \cdot (\hat{m}(x_{-j}) - m(x_{-j})) + \frac{\tilde{s}'(\varepsilon) \varepsilon + \tilde{s}(\varepsilon)}{\sigma(x_{-j})} \cdot (\hat{\sigma}(x_{-j}) - \sigma(x_{-j})) + \frac{1}{\sigma(x_{-j})} \cdot (\hat{\tilde{s}}(\varepsilon) - \tilde{s}(\varepsilon))$. 这里，前两项是简单回归函数的误差，后一项是更易处理的一维密度估计误差。所有组件的收敛速率都是 $o_p(n^{-1/4})$ 量级。
交叉拟合与控制过拟合：交叉拟合确保用于估计第一阶段组件的样本与用于评估的样本独立，从而将余项乘积的期望精确分解为 $o_p(1)$ 项。
渐近正态性与方差估计：将 $\sqrt{n}(\hat{\theta} - \theta_0)$ 表示为样本影响函数之和，应用中心极限定理。并给出了能通过数据有效地估计渐近方差的方法，从而构建置信区间。

最关键的技巧性引理或"跳跃点"¶

引理：Lipschitz得分函数的次高斯性 - 原文：若 $s(x)$ 是 $X_j$ 关于 $x_j$ 的Lipschitz函数，且 $X_j$ 的分布满足一定的尾部条件（如次高斯），则经标准化的估计量 $\sqrt{n} \cdot \frac{1}{n}\sum_i s(X_i)$ 是次高斯的。这提供了对样本均值的集中性控制。 - 作用：这个引理是保证“余项”中的所有交叉项（如 $\int (\hat{s} - s) \cdot (\hat{\mu} - \mu)$ ）在使用交叉拟合后能被严格控制的工具。它替代了经典DML中依赖Donsker类或经验过程理论的技术，使得证明可以在更弱的条件下进行，特别是当第一阶段估计器是非常不可微的随机森林时。

数学工具评价¶

这是经典DML证明框架（近似正交、线性展开、交叉拟合）与新分析技巧（Lipschitz得分函数的次高斯性、位置-尺度模型下的误差分解）的巧妙组合。不是全新的分析框架，但对特定非参数问题提供了一个优雅且实用的可处理方案。

五、问题发现：研究者能做什么¶

(A) 立即可做

问题表述：检验本文提出的resmoothing-加-位置-尺度框架在“高维线性回归”设定下的minimax最优性。具体地，当$\mu(x) = x^\top \beta$是稀疏线性时，能否证明所提的APE估计量达到半参数有效界且所需样本复杂度与Orcale估计一致？
- 武器库： minimax bounds for estimation problems , high-dimensional asymptotics , estimation theory in causal inference .
- 第一步具体动作：在本文的定理3（主要渐近结果）的证明中，手动计算当 $\hat{\mu}^{\text{smooth}}$ 采用Lasso或Dantzig选择器时的收敛速率。验证是否满足 $o_p(n^{-1/4})$ 的近似假设。模拟一个低维（p固定）和高维（p > n，但稀疏）的线性模型，比较本文方法（用Lasso做第一阶段）与Oracle 估计量（已知变量子集）的RMSE。
- 与本文已有结果的关系：这是对其适用范围的推广 —— 从通用的非参数框架到具体的高维稀疏模型，并验证其minimax效率性。
问题表述：分析位置-尺度模型假设违背对估计量半参数有效性的影响。若真实的 $X_j | X_{-j}$ 不是严格的位置-尺度形式，而是更一般的形式（例如，具有复杂的异方差结构或交互），本文的 $\sqrt{n}$-CAN 还能保持吗？若不是，bias的结构是什么样的？
- 武器库： semiparametric theory (moderately_familiar)， high-dimensional asymptotics (very_familiar)， minimax bounds for estimation problems (very_familiar).
- 第一步具体动作：在当前武器库的“高维渐近”框架下，对位置-尺度模型施加微小扰动（比如 $\varepsilon$ 与 $X_{-j} $ 有弱相关）。推导此时 $ \hat{s} - s$ 误差的分解式中，新增的不可忽略项的表达式。然后模拟来观察bias如何随扰动的强度和样本量变化。计算这个bias项是否收敛于0，以及所需的收敛速率。
- 与本文已有结果的关系：这是反例/稳健性分析 —— 刻画了核心假设被违反后的理论性质。

(B) 中期可做

问题表述：将本文的resmoothing和位置-尺度思想应用于高维因果推断中的工具变量（IV） 设定。IV模型通常需要估计复杂的高维函数，且双鲁棒方法受限于可微性。能否用类似框架以较低成本估计平均处理效应？
- 缺哪一块： identification theory in causal inference (特别是IV环境下的稳健估计方法)。
- 补哪 1-2 篇文献： Chen & Buja (2017) “Double/Debiased Machine Learning for Structural Parameters”；以及 Angrist, Imbens & Krueger (1999) 等IV有关的识别文献，巩固IV的基础模型。
- 补完之后能做什么：在 very_familiar（尤其是 inverse problems with random noise ）和刚刚补上的 identification theory 下，可以设计一个估计量来估计平均处理效应（ATES/ATET），并尝试证明其 $\sqrt{n}$-CAN 性质。

(C) 暂不建议

问题表述：将本文的框架扩展到整个因果图上任意涌现的intervention效果 的推断（例如，在使用全局性的、高维的因果DAG模型时）。
- 缺什么机器：现有的武器库缺乏对复杂图模型结构性推断、半参数有效界在DAG上的分解，以及针对整个因果链的高维推断框架。这需要图论、贝叶斯网络结构与更复杂的半参数理论融合。
- 为何不易绕：本文的方法基本上是“单变量效应”技巧。扩展到多变量非直接因果路径上的效应，需要完全不同的识别与估计框架（如do-calculus的算法化或结构性Neyman正交得分），这方面工具库内是空白。

延伸思考与练习¶

假设扰动：若位置-尺度假设中的基得分 $\tilde{s}$ 被误设（例如，假设为标准正态，而实际上是t分布），结论会如何变化？技术上，这将导致一维得分估计 $\hat{\tilde{s}}$ 产生不可忽略的偏差，破坏 $\sqrt{n}$-CAN。Bias将表现为 $O(b_s/n^{1/2})$，其中 $b_s$ 是基得分估计的偏差。新的工作可能需要将 $\tilde{s}$ 视为一个无维函参数，然后应用半参数贝叶斯或在离散近似下使用更稳健的估计方法（如中位数回归）。这个问题落入了 (B) 中期可做 的范畴。
开放问题：
1. 变量选择与稀疏性：当有大量无关的协变量时，是否可以将Lasso引入到 $m(\cdot)$ 和 $\sigma(\cdot)$ 的估计中，同时保持APE估计量的 $\sqrt{n}$-CAN？这需要处理惩罚估计的渐近分析。
2. 高维d-separation：在本文的框架下，若有几个相互关联的连续协变量，如何自动选择控制变量集，使得 $X_j$ 对于模型有简单的条件结构（例如，低维或稀疏）？可以结合一些变量选择算法（如基于随机森林的变量重要度）作为第一步的降维策略。
理解检测题： 问题： 作者论证了当第一阶段使用随机森林（非可微）来估计$\mu(x)$时，APE的DML估计量仍然可以达到$\sqrt{n}$-CAN。请解释“resmoothing”步骤和“位置-尺度”模型在此论证中分别具体解决了什么困难？如果一个研究者跳过resmoothing，直接用随机森林的预测值做$\mu$，去计算近似的双鲁棒估计量（直接用数值差分计算偏导数），结果会怎样？为什么？

Maintained by 陈星宇 · Homepage · Source on GitHub