Selective Machine Learning of Doubly Robust Functionals¶
讲者: Eric Tchetgen Tchetgen
讨论人: Stijn Vansteelandt
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-05-05
主题: 因果推断
视频: https://www.youtube.com/watch?v=K-Uo5XbIE9I · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
相关论文¶
- 1911.02029 (尚未精读 —
talks read --id … --read-papers可补)
一、这场报告在讲哪条工作线¶
核心问题:在半参数模型中,当我们有多个候选机器学习算法(学习器)可以用于估计高维的扰参数(nuisance parameters)时,如何选择最佳的学习器组合,使得最终对有限维目标泛函(finite-dimensional functional)的估计偏差最小,并能在选择后进行有效的统计推断?
子方向背景:这个问题位于半参数效率理论、双重/去偏机器学习(DML/DDML) 与模型选择的交叉口。
- 奠基与主流路线(Chernozhukov et al., 2018 “DDML” / “Double/Debiased Machine Learning”):
- DML 提供了一个通用框架,允许使用任意“足够快收敛”的机器学习算法来估计扰参数,同时保证对目标泛函的估计是 \(\sqrt{n}\)-一致且渐近正态的。
- 关键:这个方法依赖于两个核心要素:(1) 矩方程/Neyman正交性——目标参数与扰参数的估计在局部是正交的,从而一阶偏差可以忽略;(2) 样本分割(Cross-fitting)——用独立子样本估计扰参数,避免过拟合导致的偏差。
-
隐含的假设:你使用的机器学习学习器,其估计误差必须达到 \(o_p(n^{-1/4})\)(在 \(L_2\) 范数下)。它没有回答“如果有多个学习器,该选哪一个?”
-
当前 frontier 与本场报告的站位:
- 实践中,我们有一系列学习器(如Lasso、随机森林、梯度提升树、深度神经网络等),各自在不同数据结构下表现各异。一个自然的想法是:能不能从这些学习器中,选出一个(或组合)来估计扰参数,使得最终对目标泛函的估计最好?
- 这场报告(Cui & Tchetgen Tchetgen, 2020, arXiv 1911.02029)提出了一个通用框架,核心思想是直接以目标泛函的偏差(而非扰参数的预测误差)作为选择标准。它定义了一种“伪风险”(pseudo-risk),度量了选择某一对学习器后,目标泛函对“最坏情况”的扰参数扰动的敏感性。最小化这个伪风险,就等价于最小化目标泛函的偏差。
- 与相关工作的关系:
- Super Learner (van der Laan, Polley & Hubbard, 2007):标准做法是用交叉验证的平均预测误差(MSE)来选择或加权组合学习器,但预测误差最小化并不保证目标泛函的偏差最小。本报告是对这一问题的直接回应。
- 采用惩罚估计方程的 bias-reduced 方法:讨论者 Stijn Vansteelandt 提到了另一条路线(Vansteelandt 等人的工作),通过解一个惩罚后的估计方程,使得估计量本身对扰参数局部不敏感,这与本报告的“选择学习器”思路不同,但目标一致。
- 随机过程与指数不:报告在证明选择准则的Oracle性质时,用到了 van der Vaart、van de Geer 等人关于退化U-统计量的指数不等式,这属于高维统计/经验过程理论。
二、最小内核 / 一个最简例子¶
符号与模型: - 数据:独立同分布样本 \(O_i = (X_i, A_i, Y_i)\),其中 \(X\) 是协变量,\(A\) 是二值处理(0/1),\(Y\) 是结果。 - 目标参数(Estimand):平均处理效应 \(\psi = \mathbb{E}[Y_1 - Y_0]\)。 - 识别公式(假设无混杂):\(\psi = \mathbb{E}[\mathbb{E}(Y | A=1, X) - \mathbb{E}(Y | A=0, X)]\)。 - 扰参数(Nuisance Parameters): - 倾向评分 \(\pi(X) = P(A=1 | X)\)。 - 结果回归 \(\mu_a(X) = \mathbb{E}(Y | A=a, X)\)。 - 双重稳健估计量(Doubly-Robust Estimator, AIPW): 基于影响函数,一个常见的无偏/正交矩方程为:
核心思想(一句话): 如果选择了“正确”的倾向评分学习器(即 \(\hat{\pi}^{(k_1)}\) 估计得很好),那么DR估计量\(\hat{\psi}\)对“结果回归学习器”的选择就非常不敏感;反之亦然。因此,我们可以通过衡量“改变一个扰参数的学习器,会对DR估计量造成多大扰动”来衡量当前选择的“稳健性/偏倚”。
最简例子(d=1, 二值A, 两个学习器): 假设我们只有: - 倾向评分:学习器1(逻辑回归 \(\hat{\pi}^{\text{logit}}\))和学习器2(Lasso \(\hat{\pi}^{\text{lasso}}\))。 - 结果回归:学习器1(线性回归 \(\hat{\mu}^{\text{lm}}\))和学习器2(随机森林 \(\hat{\mu}^{\text{rf}}\))。
我们要决定是用 \((\hat{\pi}^{\text{logit}}, \hat{\mu}^{\text{lm}})\) 还是 \((\hat{\pi}^{\text{lasso}}, \hat{\mu}^{\text{rf}})\) 等等。
报告的思路是: 1. 计算“扰动”:对于每一对候选学习器 \((k_1, k_2)\),比如 \((\hat{\pi}^{\text{logit}}, \hat{\mu}^{\text{lm}})\),计算: - 方向1(扰动结果回归):保持倾向评分学习器为 \(\hat{\pi}^{\text{logit}}\),但把结果回归学习器分别换成 \(\hat{\mu}^{\text{lm}}\) 和 \(\hat{\mu}^{\text{rf}}\),然后看这两个DR估计量的差值。如果 \(\hat{\pi}^{\text{logit}}\) 很好,这个差值应该很小。 - 方向2(扰动倾向评分):保持结果回归学习器为 \(\hat{\mu}^{\text{lm}}\),但把倾向评分学习器分别换成 \(\hat{\pi}^{\text{logit}}\) 和 \(\hat{\pi}^{\text{lasso}}\),看两个DR估计量的差值。 2. 定义伪风险(Pseudo-risk): - Minimax 准则:\(\mathcal{B}_{k_1,k_2} = \max\{ \text{最大扰动1}, \text{最大扰动2} \}\),即“最坏情况”的扰动大小。 - 混合Minimax(Mixed Minimax)准则:\(\mathcal{B}_{k_1,k_2}^{\text{mixed}} = \max\{\text{结果回归所有成对扰动}\} + \max\{\text{倾向评分所有成对扰动}\}\)。这个准则被证明具有“双重稳健”性质,即只要其中一个方向的估计是够好的,它就能选出好的组合。 3. 选择:选出使伪风险最小的学习器对。这个选择过程最小化了目标泛函对扰参数估计偏差的敏感性,因而也最小化了它的偏差。
三、报告主体:讲者讲了什么¶
*[0:00-0:10]* 引言与背景 - 研究问题:现代半参数方法经常使用机器学习来估计扰参数。给定候选学习器集合,如何选择来最小化目标泛函(如ATE)的偏差? - 现有最佳实践:DDML (Chernozhukov et al., 2018)。其基石是 Neyman 正交性和样本分割。但DDML没有解决“学习器选择”问题。 - 主要挑战: - 选择题 (a):如何从 \(\mathcal{K}\) 个学习器中选择 \(\hat{\theta}_{\hat{k}}\) 以确保 \(\hat{\psi}\) 的偏差小? - 推断题 (b):进行选择后,如何进行有效的统计推断? - 报告目标:提出一个通用框架,同时解决 (a) 和 (b),适用于一大类具有“双重稳健性”的泛函。
核心方法与直觉 [0:05-0:20]
- 理论根基:半参数理论中的影响函数(Influence Function)。通过影响函数,可以自然地得到满足 Neyman 正交性的矩方程,这是DML的第一步。
- 双重稳健泛函类:
- 报告的框架适用于一大类“双重稳健”的影响函数。其一般形式为:\(IF(\theta) = H(b, p) - \psi(\theta)\),其中 \(H(b, p) = b(X)p(X)h_1(O) + b(X)h_2(O) + p(X)h_3(O) + h_4(O)\)。
- 双重稳健性:\(\mathbb{E}_\theta[H(b^*, p)] = \mathbb{E}_\theta[H(b, p^*)] = \mathbb{E}_\theta[H(b, p)] = \psi(\theta)\),即只要 \(b\) 或 \(p\) 之一正确设定,对 \(H\) 取期望就会得到真实目标泛函。
- 核心思想:定义“扰动”(perturbations)来度量候选学习器的稳健性。
- 对于一个固定的候选学习器对 \((k_1, k_2)\),定义互相的扰动:per(k, \tilde{k}; k_1, \tilde{k}_1)。这个扰动定量地看,如果改变倾向评分或结果回归的学习器,DR估计量 \(\hat{\psi}\) 会变多少。
- 这提供了一个“伪风险”:最大(或成对)扰动大小。
主要准则与理论结果 [0:20-0:35] - 两个选择准则: - Minimax 准则:伪风险 \(\mathcal{B}_{k_1,\tilde{k}_1} = \max\limits_{\text{单向扰动}} \text{per}\)。选择使这个风险最小的对。这个准则的偏差由两个方向中较差的那个学习器的收敛速度决定。 - Mixed Minimax 准则:伪风险 \(\mathcal{B}_{k_1,\tilde{k}_1}^{\text{mix}} = \max\limits_{\tilde{k}, \tilde{k}_0 \in \mathcal{K}_2} \text{per}(k_1,\tilde{k}; k_1,\tilde{k}_0) + \max\limits_{k, k_0 \in \mathcal{K}_1} \text{per}(k,\tilde{k}_1; k_0,\tilde{k}_1)\)。这个准则的偏差由两个方向中最好的学习器的乘积决定,因此具有双重稳健性质(只需一个方向好即可)。 - 理论性质(Oracle & Empirical): - Oracle 性质:假设学习器的收敛速度已知,上述准则的Oracle选择器的偏差界可以被明确计算。 - 经验选择器(交叉验证):通过S重交叉验证计算经验扰动 \(\hat{\text{per}}\),并选择使经验伪风险最小的对。 - Excess bound:证明了经验选择器的风险与Oracle选择器的风险之差是 \(O_p(1/n)\)(即参数速率)。 - 证明技术:用到了退化U-统计量的指数不等式(基于 van der Vaart & van de Geer 的工作)。
仿真与例子 [0:35-0:45] - 仿真设计:做了一个简单的仿真,数据由线性模型生成。候选学习器包括梯度提升树、Lasso、随机森林。 - 结果:展示了报告中提出的两种选择器(Minimax 和 Mixed Minimax)在偏差(Bias)方面优于“预测误差最小化”的选择器(如直接用交叉验证MSE选择树/森林)。这表明直接针对目标泛函偏差的选择是有效的。 - 概念解释:这一部分用一个视觉化偏倚的图(讨论者Stijn提供)进一步解释了,为什么预测误差最小化(如MLE)可能会使估计量落在“对扰动非常敏感”的区域,而报告提出的方法旨在找到“鞍点”,使得估计量对扰动最不敏感。
后选择推断与数据应用 [0:45-0:55] - 后选择推断: - 报告提出了一个平滑近似方法。用一个光滑的函数(如softmax)来近似硬选择的指示函数,从而将选择过程转化为一个模型平均问题。 - 通过调整一个“温度”参数 \(\tau\)(当\(\tau \to \infty\)时退化为硬选择),可以构造一个近似有效的置信区间,这个区间自动考虑了选择的不确定性。 - 数据应用:右旋糖酐(RESPIRATE ?)研究: - 数据:ICU中6,000名接受Ventilator的患者,处理变量是是否使用右旋糖酐(RH?),结果是30天死亡率。 - 候选学习器:Logistic回归 + 三种(lasso、随机森林、梯度提升树)的组合。 - 结果:报告提出的(平滑)Minimax和Mixed Minimax估计量给出了更小的点估计偏差和更宽的置信区间,反映了正确的模型选择不确定性。该结果与Vansteelandt的“penalized estimating equations”方法(使用线性模型 vs. 逻辑模型)结果相似,但报告的方法使用机器学习,更灵活。
讨论与开放问题 [0:55-1:00] - 来自讨论者(Stijn Vansteelandt)的评论: - 与“bias-reduced”方法的关系:Stijn 介绍了另一种思路——直接构造一个对扰参数局部不敏感的估计量(通过解一个惩罚估计方程),而不是在不同学习器中选择。这被称为“标准化”或“bias-reduced”方法。 - 核心问题:报告的方法是否能保证最终估计量的后选择推断是有效的?前提是至少有一个候选学习器能在两个方向上以 \(o_p(n^{-1/4})\) 的速率收敛到真实值。 - 一个开放概念性问题:如果所有候选学习器都收敛到真实值,那这个选择过程的价值是什么?价值可能在于有限样本(finite sample)情况下的偏差减少,或者在其中一个方向收敛很慢(甚至错误)时,另一个方向能起到“保护”作用。 - 讲者的回应: - 目标:Minimax准则的目标是最小化平方偏差。如果所有学习器都收敛且 \(> n^{-1/4}\) 的速率,则两者都可行。但当两个方向收敛速度不同时,Mixed Minimax 准则会更好,因为它有双重稳健性。 - 后选择推断:报告提出的平滑近似方法,提供了一种处理选择不确定性的途径,但它依赖于一个关键假设:大多数被选中的学习器组合(在平滑权重 \(> 0\) 的组合中)在 “偏倚” 意义上是“好”的。 - 对Stijn问题的确认:Stijn问是否有可能报告中的选择准则,对应于直接最小化 \(\psi\) 的平方偏差。讲者明确表示“No, I don't have an answer to that question.”,即目前还没有理论证明选择的伪风险与真实的平方偏差之间的等价性。
四、对应论文与开放问题¶
对应论文(需核实):
- 主要论文:arXiv: 1911.02029,Title: “Selective machine learning of doubly robust functionals”. Authors: Yifan Cui, Eric Tchetgen, Tchetgen. 这几乎是确定无疑的。
- 潜在相关论文:报告未明确引用但讨论中提到的:
- Stijn Vansteelandt 等人的“bias-reduced”方法(需查具体标题)。非本次报告的工作。
- 讨论中提到的“penalized estimating equations version of the bias reduced estimator”。
开放问题(扎根于转写): 1. 直接最小化平方偏差(来自 Q&A, [1:00] 附近):报告的伪风险是否能直接近似于目标泛函的平方偏差?讲者承认 “No, I don't have an answer to that question”。这是一个开放的理论问题:什么条件下,最小化扰动等价于最小化平方偏差? 2. Excess bound 的推广([0:30] 附近 & 讨论者问题):报告中 Excess bound 的证明依赖于 \(L_2\) 距离。能否推广到 \(L_1\)、\(L_{\infty}\)、或更一般范数下的扰动度量?这需要更复杂的经验过程理论。 3. 高维 Kernel 设定([1:00] 附近):讨论者 Stijn 指出报告假设了一个“高维函数空间”和“非参数建模”,但给出的是一个“核函数设定”(kernel setting)。“在核函数设定中,模型被假定为是正确的”。这引出一个问题:在纯非参数设定中,选择准则的渐近性质是否仍然成立?当函数类过于光滑或预光滑时,这个选择策略是否仍然有效? 4. 松弛互补性(Relax complementarity)([0:55] 附近,讲者结尾):讲者提到他们在探索一个凸组合加权的泛化形式。但松弛互补性(即偏好在两个方向上的权重分配)如何选择?存在一个最优的松弛策略吗? 5. 惩罚的平滑性质([1:00] 附近,Stijn的问题):报告提出的平滑近似方法是解决后选择推断的一种途径,但它的统计性质和计算效率非常依赖于\(\tau\)(温度参数)的选择。应该如何选择\(\tau\)?
Maintained by 陈星宇 · Homepage · Source on GitHub