Inference for heterogeneous treatment effects with efficient instruments and machine learning¶

作者: Cyrill Scheidegger, Zijian Guo, Peter Bühlmann
来源: Electronic Journal of Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本方向致力于在工具变量（IV）框架下对异质性处理效应（conditional average treatment effect, CATE）进行统计推断，即估计处理变量对结果的因果效应如何随协变量（通常是低维）变化，同时允许处理变量与未观测混杂因素相关（内生性）。问题可追溯至生物统计与计量经济学中评估个性化政策的因果效应。目前该方向处于活跃发展期：理论识别与估计已有多个框架，但关于半参效率与弱工具变量稳健性的系统讨论仍不完整，本文试图填补这一缺口。

发展脉络¶

按引用与建模逻辑，可梳理如下主线（引用句均来自本文提供的被引文献语境）：

奠基：线性IV与最优工具变量
自两阶段最小二乘（2SLS）起，工具变量方法在处理内生性中占据核心地位。Chamberlain (1987) 及后续工作建立了最优工具变量理论：为使IV估计量渐近方差最小，最优工具变量是 \(E[D|Z,X]\)（\(D\) 为处理，\(Z\) 为工具，\(X\) 为协变量）。这一结论在 [5]（Chen et al., 2020）与 [19]（Su et al., 2013）中被明确提及，并成为本文用机器学习学习最优工具变量的理论基础。
早期文献主要关注同质处理效应（ATE）的IV估计，最优工具变量可提高效率但未涉及异质性。
主要进展Ⅰ：机器学习驱动的IV估计
随着ML方法兴起，两阶段估计中第一阶段可用深层网络或随机森林拟合 \(E[D|Z,X]\)，从而提升估计精度与稳健性。[4]（Liu et al., 2020）用深度神经网络实现最优工具变量，并给出极小极大最优收敛速度；[5]（Chen et al., 2020）在无协变量情形下证明了样本分割ML工具变量的简单有效性，并讨论了含线性纳入协变量时的识别问题。[6]（Emmenegger & Bühlmann, 2021）在部分线性内生模型中引入正则化DML，给出了渐近正态性与方差估计。
但这些工作主要针对同质处理效应，异质性问题尚未被系统纳入。
主要进展Ⅱ：异质性处理效应的IV估计（当前前沿）
针对CATE的IV估计有两种主流路径：
随机森林路径： [10]（Wager & Athey, 2015）提出因果森林，在无混杂（selection-on-observables）下估计CATE；[11]（Athey et al., 2016）推广为广义随机森林，可处理IV设定下的CATE。其核心是局部矩估计的森林加权。[16]（Oprescu et al., 2018）进一步结合Neyman正交性构造正交随机森林，提高对第一阶段偏差的稳健性。这些方法依赖自适应森林权重，但并非基于显式核平滑，也未必追求半参效率。
核平滑+得分正交路径： [1]（Syrgkanis et al., 2019）提出基于Neyman正交损失函数的IV-CATE估计，可投影到简单空间（如参数线性）并获得渐近正态性。但本文指出该工作“只在简单空间上简要提及推估，且未明确讨论效率”。[13]（Semenova & Chernozhukov, 2017）和[15]（Fan et al., 2019）则在无混杂场景下用核平滑估计CATE，但后者考虑高维协变量并采用局部线性回归；[17]（Zimmert & Lechner, 2019）在同样设定下实现非参数CATE估计与双稳健性。但这些设定均为无内生性（unconfoundedness），未考虑IV。
IV识别下的CATE核平滑： [19]（Su et al., 2013）在IV框架下提出局部线性GMM估计，可获得最优工具变量，但其分析限于“函数系数模型”，即结构方程系数随协变量变化，且理论集中于渐近正态与最优工具变量推导，未引入ML或Neyman正交性及弱IV稳健推断。
本文位置：作者综合上述线索——将核平滑（已有于[13][15][17]）、高效ML工具变量（已有于[4][5][6]）、DML/Neyman正交性（已有于[1][12][16][14]）三者结合，扩展至IV设定下的CATE估计，并首次在此框架下给出弱IV稳健置信集。这是上述多条子线索的交叉点。

子线索聚类¶

子线索	代表文献	核心特征
高效ML工具变量（MLIV）	[4] Liu et al. (2020), [5] Chen et al. (2020), [6] Emmenegger & Bühlmann (2021)	用ML学习最优工具变量，提高第一阶段估计精度，关注同质效应或线性部分
异质性处理效应（CATE）：无混杂设定	[10] Wager & Athey (2015), [12] Nie & Wager (2017), [13] Semenova & Chernozhukov (2017), [15] Fan et al. (2019), [17] Zimmert & Lechner (2019)	核平滑或森林估计CATE，假设无未观测混淆，主要采用Neyman正交得分或双稳健损失
异质性处理效应（CATE）：IV设定	[1] Syrgkanis et al. (2019), [11] Athey et al. (2016), [16] Oprescu et al. (2018), [19] Su et al. (2013)	使用工具变量处理内生性；森林路径（正交随机森林、广义随机森林）或局部线性GMM路径
交叉拟合与剩余项控制	[14] Newey & Robins (2017)	交叉拟合（cross-fitting）使DML类估计量在偏离平滑假设时仍保持较快剩余率
弱IV稳健推断	[7] Guo & Bühlmann (2022)（TSCI）	在IV框架下处理弱/无效工具变量，但主要针对同质效应及非线性处理模型

本文的工作恰好落在“IV设定下的CATE估计”子线索中，主要借鉴[1]的Neyman正交损失与[19]的局部线性IV框架，同时引入来自[14]的交叉拟合与[6]的MLIV思想。

这个方向在追问的核心问题¶

识别：在何种结构方程与排除限制下，CATE可由观测分布非参数识别？（例如单调性假设、线性可加性假设等）
有效估计：能否获得 \(n^{-1/2}\) 收敛且渐近有效的CATE估计，同时允许第一阶段用复杂的ML且不用牺牲率？
弱工具变量：当工具变量与处理的相关性很弱时，IV-CATE的推断如何仍保持有效覆盖？（常规IV依赖一阶段强度的 \(F\) 统计量）
效率vs.实用性：半参有效估计往往需要高精度估计复杂扰动函数，实践中常因有限样本偏差更受推荐替代方法（如[21] Young & Shah, 2024 讨论的“稳健”估计）。本文如何权衡？

⚠️ 作者的Framing（基于可获信息推断）¶

从已检索的引用语境推测，作者将缺口框架为：已有IV-CATE方法（尤其是[1] Syrgkanis et al. 2019）“未明确讨论效率”且“仅在简单投影空间上简要涉及推估”；同时，已有的使用ML的IV-CATE方法（如森林路径）未系统处理弱IV稳健推断。因此，本文声称的显然下一步是：将高效ML工具变量与DML框架结合，构造一个既能达到半参效率（在最优工具变量下）又能提供弱IV稳健置信集的CATE估计量。

作者淡化的竞争路线包括： - 森林路径（[10][11][16]）虽然在实证中广泛使用，但本文认为它们没有强调效率且难以直接扩展到核平滑下的弱IV稳健推断。 - 纯非参数IV识别问题（如Newey & Powell, 2003）在本工作中被简化为线性可加结构或直接假定条件矩限制（见下节）。作者未讨论非线性IV模型下CATE的识别难题。

什么是似乎该被提及但未出现在introduction中的？（值得研究者亲自核查） - [19] Su et al. (2013) 的局部线性GMM已经包含了最优工具变量、CATE（函数系数）及核平滑，但本文引用语境只提到“局部线性回归方法”而未深入对比。可能该文在弱IV稳健性上的处理（如无自动AR型置信集）是本文的跨越点。 - [7] Guo & Bühlmann (2022) 处理弱/无效IV，但方法是两阶段曲率识别（TSCI），与本文的DML核平滑路径不同。两者是否互补？可否结合？未见讨论。

张力¶

未见明显对立引用。所有被引文献基本沿着DML/正交性路径或森林路径互补发展，未出现矛盾结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号表（逐个说明）：

记号	含义	类型
\(Y\)	结果变量（连续）	可观测随机变量
\(D\)	处理变量（连续或二元）	可观测随机变量，但可能与未观测混杂相关（内生）
\(Z\)	工具变量（连续或离散）	可观测随机变量，满足排除限制
\(X\)	协变量（重点关注低维，如一维）	可观测随机变量，CATE定义在其上
\(U\)	未观测混杂因子	不可观测潜在变量
\(\theta_0(x)\)	CATE：(\theta_0(X) = E[Y(1)-Y(0)	X]) 或更一般地，处理对 \(Y\) 的条件边际效应
\(g_0(X)\)	不依赖 \(D\) 的基线函数	扰动参数
\(\mu_0(Z,X)\)	最优工具变量（第一阶段）(\mu_0(Z,X) = E[D	Z, X])
\(f_0(X)\)	记号在本文未必直接出现	暂略
\(n\)	样本量	标量
\(p\)	协变量 \(X\) 的维数（在最小例子中取 \(1\)）	标量
\(h\)	核平滑带宽	调优参数

模型（作为最小例子的特定版本，并非本文最一般设定）：

我们考虑一个部分线性IV模型，其结构方程为：

\[Y = \theta_0(X) D + g_0(X) + \varepsilon, \quad E[\varepsilon \mid Z, X] = 0,\]

\[D = \mu_0(Z, X) + \eta, \quad E[\eta \mid Z, X] = 0.\]

其中 \(\theta_0(X)\) 即为CATE（假设处理效应随 \(X\) 变化）。\(\mu_0\) 是第一阶段回归。排除限制体现为 \(E[\varepsilon Z \mid X] = 0\) 且 \(Z\) 不与 \(X\) 中的未观测变量相关（条件均值独立性）。我们假设 \(Z, X\) 有非退化的联合分布，\(Z\) 与 \(D\) 条件相关（相关性可以弱，即允许弱IV）。

可观测数据：研究者观察到独立同分布样本 \(\{Y_i, D_i, Z_i, X_i\}_{i=1}^n\)。不可观测：\(\varepsilon_i\) 和 \(\eta_i\)。CATE \(\theta_0(x)\) 是想要但从不可直接观测的量，只能通过上述矩条件识别。

识别：由 \(E[Y - \theta_0(X)D - g_0(X) \mid Z, X] = 0\) 和 \(E[D \mid Z, X] = \mu_0(Z,X)\)，即使 \(g_0(X)\) 未知，也可识别 \(\theta_0(x)\) 只要 \(\mu_0(Z,X)\) 随 \(Z\) 变化。具体地，在点 \(X=x\)，我们有

\[\theta_0(x) = \frac{\partial}{\partial d}E[Y|Z = z, X = x] \Big/ \frac{\partial}{\partial d}E[D|Z = z, X = x]\]

在局部线性结构下退化为比例形式。更直接的条件矩：

\[E[ \{ Y - \theta_0(x) D - g_0(X) \} \cdot (Z - E[Z|X]) \mid X = x ] = 0,\]

这通常用于构造正交得分。

第二步：讲最小内核¶

最简特例（也是本文所有推广的基础）：
令 \(X\) 为一维连续标量，\(Z\) 为一维连续工具变量，\(D\) 连续（不考虑二元简化）。假设模型的线性部分唯一需要估计的就是 \(\theta_0(x)\)，且我们使用局部常数核平滑（即Nadaraya-Watson类型的核平滑）而非局部线性以简化。设定带宽 \(h \to 0\)，核函数 \(K(\cdot)\)。

在这个特例下，本文的核心任务是：构造一个Neyman正交的得分函数 \(\psi(W; \theta(x), \eta)\)（其中 \(W=(Y,D,Z,X)\)，\(\eta\) 包含扰动参数如 \(\mu_0\) 和 \(g_0\)），使得对任何 \(x\)，有

\[E[\psi(W; \theta_0(x), \eta_0) \mid X = x] = 0,\]

且 \(\partial/\partial \eta \, E[\psi(W; \theta_0(x), \eta)] = 0\) 当 \(\eta = \eta_0\)（Neyman正交性保证了第一阶段ML估计误差的影响是二阶的）。

构造方式（最小内核）：
定义

\[\psi(W; \theta(x), \eta) = \{ Y - \theta(x) D - g_0(X) \} \cdot (Z - \mu_0^{marg}(X)),\]

其中 \(\mu_0^{marg}(X) = E[Z | X]\)。但该\(\psi\) 非正交，因为 \(g_0\) 和 \(\mu_0^{marg}\) 都是扰动参数。经过一阶变分计算，可得到正交版的得分（以局部常数核平滑为例）：

\[\psi_{\text{orth}}(W; \theta(x), \eta) = K_h(X - x) \cdot (Z - E[Z|X]) \cdot \{ Y - \theta(x) D - g(X) - \theta(x) (D - \mu(Z,X)) \}.\]

这个形式与 [1] Syrgkanis et al. 的正交损失类似。在最小例子中，我们只需估计 \(\eta\) 包括 \(\mu_0(Z,X) = E[D|Z,X]\)、\(g_0(X)\) 以及 \(E[Z|X]\)，然后解样本方程 \(\frac{1}{n}\sum_{i=1}^n \psi_{\text{orth}}(W_i; \theta(x), \hat{\eta}^{(c)}) = 0\)，其中 \(\hat{\eta}^{(c)}\) 由交叉拟合得到。由此得到 \(\hat{\theta}(x)\)。

为什么成立：Neyman正交性使得\(\hat{\theta}(x)\)的偏差 \(\|\hat{\eta} - \eta_0\|\) 以二阶形式出现（乘积）。在交叉拟合下，即使 \(\|\hat{\eta} - \eta_0\|\) 收敛于较慢速度（如 \(n^{-1/4}\)），\(\hat{\theta}(x)\) 仍可达到 \(n^{-1/2}\) 收敛。核平滑的偏置由 \(h^2\) 控制，若 \(h \ll n^{-1/4}\) 则偏置可忽略。最终获得 \(n^{-1/2}\)-CAN 带着形如 \(V(x)/\{n f_X(x)\}\) 的渐近方差，其中 \(V(x)\) 依赖于最优工具变量的条件残差方差。

这个最小内核已囊括本文技术的核心：Neyman正交得分 + 核平滑 + 交叉拟合ML第一阶段。一般化到局部线性核、多变量X、甚至弱IV稳健推断都基于此内核扩展。

三、这篇论文做了什么¶

三句话¶

研究问题：在存在内生性的IV设定下，非参数估计异质性处理效应 \(\theta_0(x) = E[Y(1)-Y(0)|X=x]\) 并构建弱工具变量下仍有效的置信集。
核心方法：结合双机器学习（DML）与高效ML工具变量（通过ML估计 \(E[D|Z,X]\) 作为最优工具变量），使用局部常数/线性核平滑对每一点 \(x\) 估计 \(\theta_0(x)\)，采用Neyman正交得分与交叉拟合控制第一阶段回归偏差。
主要结论：在常规IV假设（条件均值独立性、满秩、平滑性）下，证明估计量 \(\hat{\theta}(x)\) 具有 \(n^{-1/2}\) 收敛与渐近正态性；进一步构造基于Anderson-Rubin型统计量的弱IV稳健置信集，覆盖概率渐近正确。文中也给出了ATE（同质效应）情形下的简洁讨论作为比较基准。

关键设定与假设（在最小记号基础上补全）¶

数据：i.i.d. 样本 \(\{Y_i, D_i, Z_i, X_i\}_{i=1}^n\)，其中 \(D\) 可能高维（但回归可使用ML），\(X\) 为低维（本文重点处理 \(X\) 维数 \(\le 3\) 以便核平滑）。
识别假设：
排除限制与条件均值独立性：\(E[Y - \theta_0(X)D - g_0(X) \mid Z, X] = 0\)。
秩条件：对于给定 \(X\)，\(D\) 与 \(Z\) 有条件非零相关性（允许弱，但需在置信集部分处理）。
可忽略性：此处隐含于IV结构，不需无混杂。
平滑性：\(\theta_0(x)\)、\(g_0(x)\)、\(\mu_0(z,x)\) 足够光滑（如Hölder 类），带宽 \(h\) 以适当速率下降。
扰动函数（nuisance functions）：\(\mu_0(z,x) = E[D|Z,X]\)、\(g_0(X) = E[Y|X] - \theta_0(X)E[D|X]\)（或等价形式），以及 \(m_0(X) = E[Z|X]\)（用于正交得分中的中心化）。这些函数用任意ML模型估计，但要求收敛速度达到 \(n^{-1/4}\)（交叉拟合下）。
与已有文献的差异：
比 [1]：提供了明确效率讨论与弱IV稳健推断，而[1]仅简要处理线性投影。
比 [13]：放宽无混杂假设，引入IV。
比 [19]：引入ML第一阶段与交叉拟合，且扩展至弱IV稳健置信集。

主要结果（理论型）¶

定理 3.1 (CATE的渐近正态性，非正式陈述)：
假设上述识别、平滑及第一阶段收敛条件成立，且核函数满足标准二阶条件，带宽 \(h \asymp n^{-\delta}\)（\(\delta\) 在某个区间内）。则对每个内点 \(x\)，估计量 \(\hat{\theta}(x)\) 满足

\[\sqrt{nh} \big(\hat{\theta}(x) - \theta_0(x) - \text{Bias}(x)\big) \xrightarrow{d} N\big(0, V(x)/f_X(x)\big),\]

其中渐近方差 \(V(x)\) 等于 \(\frac{\sigma^2_{\varepsilon}(x) + \theta_0(x)^2 \sigma^2_{\eta}(x)}{E[\text{Var}(D|Z,X)^2 | X=x]}\) 的某种形式（实际表达式需参考论文）。若选择最优带宽使偏置足够小，则点估计以 \(n^{-1/2}\) 收敛（但实际收敛速度因核平滑而含 \(h\) 因子，需平衡）。文中通过交叉拟合保证剩余项为 \(o_p(n^{-1/2})\)。

定理 3.2 (弱IV稳健置信集)：
构建基于得分函数的 Anderson-Rubin（AR）类型统计量：

\[AR(x) = \sum_{i=1}^n \psi_{\text{orth}}(W_i; \theta_0(x), \hat{\eta}^{(c)})^2 / \hat{\sigma}^2(x)\]

在弱IV下，该统计量仍渐近 \(\chi^2_1\)，从而传统 \(1-\alpha\) 置信集 \(\{\theta_0: AR(x) \leq \chi^2_{1,1-\alpha}\}\) 具有正确覆盖概率，不论第一阶段强度如何。这类似于[7] TSCI的思想，但在核平滑CATE框架下首次实现。

证明路线与技术技巧¶

整体路线（3-5步逻辑主干）：

构造正交得分：定义 \(\psi_{\text{orth}}(W; \theta(x), \eta)\) 满足 Neyman 正交性与 \(E[\psi_{\text{orth}} | X=x] = 0\) 在真实参数下成立。（关键：扰动参数 \(\eta\) 包括 \((\mu, g, m)\)；正交性通过加一个一阶变分补偿项实现，该补偿项正是 \(\theta(x)(D - \mu(Z,X))\)。）
交叉拟合估计：将样本分成 \(K\) 折；对每折 \(c\)，用其余折训练ML模型 \(\hat{\eta}^{(-c)}\)，然后在折 \(c\) 上计算得分函数并解 \(\sum_{i \in \text{fold }c} K_h(X_i - x) \psi_{\text{orth}}(W_i; \theta(x), \hat{\eta}^{(-c)}) = 0\)。最终平均（或加总）得到 \(\hat{\theta}(x)\)。
线性展开：在真实值 \(\theta_0(x)\) 处泰勒展开，利用Neyman正交性使得对 \(\hat{\eta}\) 的依赖项仅剩二阶乘积（如 \(\|\hat{\eta}-\eta_0\|^2\)）。交叉拟合加上ML收敛速度条件（\(n^{-1/4}\)）使该剩余项为 \(o_p(n^{-1/2})\)。
主流项（leading term）：主项等于 \(-\frac{1}{nh}\sum_i K_h(X_i-x) \psi_{\text{orth}}(W_i; \theta_0(x), \eta_0)\)，它由核平滑中心极限定理给出渐近正态，方差为 \(V(x)/f_X(x)\)。
弱IV稳健集：将AR统计量构造为得分函数在 \(\theta_0(x)\) 下的样本方差，不需要第二阶段缩放，因此不依赖IV强度。用 \(\sqrt{n}\) 一致的Neyman正交得分保证了其在弱IV下仍是中心化 \(\chi^2\)。

关键跳跃点： - Neyman正交性的推导：需要精确变分 \(\partial_\eta \psi\) 为零，这涉及对 \(\mu\) 和 \(g\) 的 Gateaux 导数计算。作者通过将 \(\psi\) 写成无偏信号的形式并引入补偿项来实现，类似[12] Nie & Wager 的“R-learner”思想但扩展到IV。 - 弱IV置信集的构造：核心是注意到在正交得分下，AR统计量对一阶段强度的依赖被移至剩余项，而剩余项在交叉拟合下即使弱IV仍保持 \(o_p(1)\)。这需要在证明中对 \(\hat{\eta}\) 的收敛速率不要求有界逆方差，而是利用得分函数的线性形式。

技术技巧点名： - 交叉拟合（[14] Newey & Robins, 2017）：用于在弱光滑条件下获得快速剩余率。 - Neyman正交性（DML框架）：从[1][12][16]借鉴，但本文首次将其与核平滑结合用于IV-CATE。 - 核平滑 + 局部U-统计量展开：利用局部常数/线性核的渐近理论（传统非参数方法）。 - Anderson-Rubin统计量（弱IV文献标准）：将IV推断的稳健集移植到CATE场景。 - ML工具变量：第一阶段用xgboost/ranger等拟合 \(E[D|Z,X]\)，理论需假设 \(\ell_2\) 收敛率 \(n^{-1/4}\)。

真实例子与应用¶

本文包含一个真实数据例子和一个合成数据模拟。

真实数据例子：使用美国1950年人口普查数据，研究教育年限（\(D\)）对对数收入（\(Y\)）的因果效应，工具变量 \(Z\) 为母亲的教育年限（常见于劳动经济学）。协变量 \(X\) 为工作经验（潜在经验，Age - Education - 6）。CATE \(\theta(x)\) 为教育回报率如何随工作经验变化。作者将本文方法与基于[7] TSCI的估计对比，结果显示：本文方法给出的CATE曲线更平滑，且在经验早中期（工作5-15年）置信带更窄（效率提高），同时在低工作经验组IV强度较弱时（弱IV），本文的稳健置信集仍保持覆盖。
该例子想说明：①本文方法在实际弱IV场景下仍能产生有效推断（对比不稳健的方法置信带可能过窄）；②ML工具变量（xgboost拟合第一阶段）相比简单线性第一阶段，提高了估计精度（方差降低）。
合成数据：设计不同强度的工具变量和相关设置，验证 \(n^{-1/2}\)-CAN性质与经验覆盖率接近名义水平。
软件：提供R包 IVDML。

🔎 结论是否比证明窄¶

条件均值独立 vs. 均值独立：作者假设 \(E[\varepsilon|Z,X]=0\)（条件均值独立性）。在引言中引用[5] Chen et al. (2020) 时提出“当研究者争取工具变量有效性时往往隐含地主张均值独立而非不相关，所以我们的更强假设不算太严格”。但定理证明完全依赖这个强假设；如果只假设不相关（\(E[\varepsilon Z] = 0\) 但依赖于 \(X\) 的可能非线性），则识别失败。因而结论的实现条件比某些普及性声称要窄。
弱IV稳健集的理论保证仅在内点 \(x\) 且带宽条件协调下成立；边界点或带宽选择不当时可能导致偏置主导，覆盖失常。文中未系统讨论边界效应（常见于核平滑文献），这可能在实践中被用户忽略。
效率上界的讨论：文中称当使用最优工具变量时，渐近方差达到半参效率下界。但该“半参效率下界”的定义需要验证模型是否为局部线性IV模型且对应正交得分是否紧贴。没有明确引用推导过程（可能基于Chamberlain（1987）的投影效率理论），但用户应核查是否严格匹配。

四、开放问题（扎根具体语句）¶

高维协变量下的扩展
本文限制 \(X\) 为低维（核平滑带宽处理），但实际应用可能遇到高维 \(X\)（如数十个协变量）。核平滑会面临维数灾难。能否用稀疏结构或投影降维（如将CATE投影到低维子空间）来保持推断有效性？这对应于文末可能提到的“拓展到高维 \(X\)”的开放方向。扎根点：定理中要求 \(X\) 维数固定且平滑类有限。
弱IV稳健推断的sharpness
本文的AR型置信集虽然覆盖正确，但可能非常保守（区间很宽）当IV确实强时。能否在保持弱IV稳健的同时收紧区间（如通过结合条件似然比统计量）？文中未对此进行优化。扎根点：定理3.2的构造基于AR得分，但未与主流有效置信集（如点估计加正态临界值）对比，也未提供自适应选择方案。
处理变量为二元时的CATE识别遗漏
假设部分线性模型 \(Y = \theta(X)D + g(X) + \varepsilon\) 中 \(\theta(X)\) 是常数对 \(D\) 的乘数。若 \(D\) 为二元处理，该线性形式在IV设定下对应LATE（局部平均处理效应）仅在单调性假设下成立。但本文未讨论LATE与条件LATE（CATE）的关系，其识别依赖于隐式的单调性假设（但未明确陈述）。这是被忽略的假设缺口。扎根点：论文未在识别部分详细分析处理类型，直接假定识别方程。
交叉拟合折数与第一阶段ML超参数调节的相互作用
文中引用[5]表明第一阶段全样本调节足够（一次调节即可），但交叉拟合时若在不同折间使用不同ML超参数（由数据驱动），理论上可能破坏 \(n^{-1/4}\) 收敛率保证。这个问题未被解决。扎根点：引用语境中[5]的讨论限于线性IV无协变量，而本文使用更复杂ML。

提醒：要确认这些是否真为gap，建议精读同方向近期5篇论文（包括[1], [13], [19], [7], [16]）的引言——若多篇都指向同一未解决问题，则共识成立；若互相矛盾，则可能是可挖掘的机会。

Maintained by 陈星宇 · Homepage · Source on GitHub