Higher order Targeted Maximum Likelihood Estimation¶
讲者: Mark van der Laan
讨论人: Alex Luedtke
来源: OCIS (Online Causal Inference Seminar)
日期: 2021-01-19
主题: 因果推断
视频: https://www.youtube.com/watch?v=2jumfnRQpxs · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
这场报告是 Targeted Learning (TL) 纲领下的最新进展,核心问题是:
在高度非参数(无限维)模型中,如何为因果 / 统计 estimand 构造一个既灵活(可使用 ML)又具备根号 n 渐近正态性和半参有效性的 plug-in 估计量?
- 奠基与主流路线:第一代方法是 TMLE (van der Laan & Rubin, 2006) 和 debiased / one-step ML(如 Chernozhukov et al. 2018 的 DML)。两者都利用 影响函数 (influence function / canonical gradient) 的线性项来校正初始 ML 估计的偏差,核心条件是 二阶余项 \(R^{(1)}(P, P_0)\) 是 \(o_P(n^{-1/2})\)。
- 这个假设在实践中很紧:\(R^{(1)}\) 通常是两个 nuisance 函数(如倾向得分和结局回归)偏差的乘积。如果每个偏差都是 \(O_P(n^{-1/4})\),余项就是 \(O_P(n^{-1/2})\),但还需要对数维度的惩罚。van der Laan 团队开发的 Highly Adaptive Lasso (HAL) (Benkeser & van der Laan 2016, Bibaut & van der Laan 2019) 是一个关键的奠基工作:它以 \(n^{-1/3}\) 的速率估计任何有界变差 (cadlag) 的 NUISANCE 函数,恰好让 TMLE 的 \(R^{(1)}\) 成为 \(o_P(n^{-1/2})\),从而在只用“有界变差”一个光滑性假设下实现渐近有效性。
- 报告站在哪里:报告指出 即使有 HAL,有限样本中 \(R^{(1)}\) 仍可能很大(尤其高维)。van der Laan 提出一个系统化的 高阶 (Higher Order, HO-) TMLE 框架,通过递归地对初始估计量本身进行 TMLE(即对“TMLE的参数化版本”再做 TMLE),把余项的阶数从 2 提高到 3、4、... \(k+1\),从而在有限样本中大幅削差,并为“有效影响函数退化”的 estimand 提供新的推断路径。
关键文献(来自幻灯片,ASR 无法准确给出): - van der Laan, Wang, & van der Laan (2021). "Higher Order Targeted Maximum Likelihood Estimation." arXiv:2101.06290. - Bibaut & van der Laan (2019). "Fast rates for empirical risk minimization over càdlàg functions." (HAL 收敛速率) - Benkeser & van der Laan (2016). "The Highly Adaptive Lasso estimator." (HAL 估计器)
二、最小内核 / 一个最简例子¶
设定:观测数据 \(O = (W, A, Y)\) i.i.d.,非参数模型。目标参数是治疗特异性均值
可观测 / 不可观测: - 估计量:\(\psi\) 的取值。 - 参数:\(Q_0(W) = \mathbb{E}_0(Y|A=1, W)\)(结局回归),\(G_0(W) = P_0(A=1|W)\)(倾向得分)。\(P_0\) 是完整数据分布,但 \(\Psi\) 只依赖 \((Q_0, G_0, W\) 的边际分布)。 - 样本:\(n\) 个 i.i.d. 副本 \((W_i, A_i, Y_i)\)。
一阶 TMLE 的问题: 有效影响函数为
二阶 TMLE 的核心创意(最简特例): 1. 把一阶 TMLE 映射视为一个新参数:\(\Psi^{(1)}_n(P) \equiv \Psi(\tilde{P}^{(1)}(P, \epsilon^{(1)}_n(P)))\),其中 \(\tilde{P}^{(1)}\) 是沿第一阶 LFM 的起伏,\(\epsilon^{(1)}_n(P)\) 是 MLE。这是“对初始估计 \(P\) 施加一个数据驱动的非线性映射”。 2. 想让初始 \(P\) 很好地估计 \(\Psi^{(1)}_n(P_0)\)。因此,对 \(P\) 再做一次 TMLE(针对此新参数 \(\Psi^{(1)}_n\)),得到二阶 TMLE。 3. 关键技术技巧:直接用经验测度 \(P_n\) 做 MLE 会破坏可微性。替代方案:用 HAL-MLE 估计一个平滑的 \(\tilde{P}_n\) 代替 \(P_n\)(即把 \(P_n\) 替换为一个正则化的 MLE),从而使 \(\Psi^{(1)}_n\) 可微。这被称为“用 HAL 正则化”。 4. 结果:最终的二阶 TMLE 的精确展开为
三、报告主体:讲者讲了什么¶
[0:00–0:06] 开场与纲目 - 讲者 Mark van der Laan 介绍这是关于“高阶 TMLE”的演讲。大纲:[0:02:00] 先回顾一阶 TMLE,再介绍 Highly Adaptive Lasso (HAL),然后定义二阶 TMLE,演示它优化了一阶 TMLE 的精确总余项,给出精确展开和推断,推广到 k 阶,最后展示 ATE 和积分平方密度的模拟。
[0:06–0:12] 一阶 TMLE 回顾 - [0:06:00] 参数 \(\Psi\) 的路径导数、典范梯度。 [0:06:45] 典范梯度定义了“最不利参数子模型”(least favorable submodel, LFM),其 score 就是典范梯度。 [0:07:09] TMLE:初始估计 \(P^0_n\) \(\rightarrow\) 沿 LFM 做 MLE 得 \(\epsilon_n\) \(\rightarrow\) 更新为 \(P^{1,*}_n\) \(\rightarrow\) 得到 plug-in 估计 \(\Psi(P^{1,*}_n)\)。 [0:09:03] 该估计量满足得分方程 \(P_n D^{(1)}_{P^{1,*}_n}=0\)。 [0:09:20] 关键等式:
[0:12–0:15] ATE 示例 - [0:12:45] \(O=(W,A,Y)\),\(\Psi(P)=\mathbb{E}_P[\mathbb{E}_P(Y|A=1,W)]\)。 [0:13:30] 典范梯度:
[0:15–0:18] 积分平方密度示例 - [0:15:57] 参数 \(\Psi(P)=\int p^2 d\mu\)。一阶余项 \(R^{(1)} = -\int(p-p_0)^2 d\mu\),这是个平方项(非“针对”),没有双稳健中的抵消,有限样本偏差严重。 - [0:16:33] 演示图片:沿着 LFM 移动 epsilon,TMLE 更新从不偏的初始出发朝真值移动,在似然拐点停住。
[0:18–0:23] Highly Adaptive Lasso (HAL) - [0:18:04] 任意 cadlag 函数 \(f:[0,1]^d \rightarrow \mathbb{R}\) 可表示为:
[0:24–0:27] 二阶 TMLE 的动机与定义 - [0:24:20] 即使有 HAL,有限样本中 \(R^{(1)}\) 仍可能大(大常数因子受维度影响)。想把它从二阶提升到三阶。 - [0:24:40] 把一阶 TMLE 映射视为新参数:
[0:28–0:35] 关键理论:二阶 TMLE 优化了精确总余项 - [0:28:03] 一阶 TMLE 的“精确总余项”:
[0:42–0:46] 推广与模拟 - [0:42:02] 推广到 k 阶 TMLE:精确展开包含 k 个线性项和 (k+1) 阶余项。 - [0:43:04] ATE 模拟:GN 是 \(n^{-1/4}\) 一致,QN 不一致时,一阶 TMLE 的偏差随 n 增大 \( \sqrt{n} \)-scale 增加,二阶 TMLE 偏差稳定。 - [0:44:18] 积分平方密度的模拟:二阶 TMLE 对“非宽恕”(non-forgiving) 平方余项也有巨大增益,将偏差从 \(10^{-3}\) 降至 \(10^{-5}\)。
[0:57–1:03] 讨论回应(与 Alex Luedtke) - [0:57:36] Alex 指出:若用 HAL-MLE \(\tilde{P}_n\) 本身作为初始估计,高阶 TMLE 会退化回 \(\Psi(\tilde{P}_n)\)(因为 KL 投影在模型 \(M(\tilde{P}_n)\) 上会返回 \(\tilde{P}_n\))。关键在于,高阶展开本身为分析 \(\Psi(\tilde{P}_n)\)(欠平滑的 HAL plug-in)提供了新工具。 - [1:00:00] van der Laan 回应:同意,但这不否定高阶 TMLE 的优势——它允许用超级学习器等更灵活的初始估计(优于 HAL),通过多步 MLE 推动最终估计量靠近 HAL 但仍保留初始的适应性。欠平滑 HAL 效果的 plug-in 估计量也是一个合法竞争者,但 TMLE 框架更灵活。
四、对应论文与开放问题¶
对应论文: - arXiv: van der Laan, Wang, & van der Laan (2021). "Higher Order Targeted Maximum Likelihood Estimation." arXiv:2101.06290 (幻灯片已确认,ASR 无法完整给出数字)。 - 参考 HAL: Bibaut & van der Laan (2019). "Fast rates for empirical risk minimization over càdlàg functions." 以及 Benkeser & van der Laan (2016). "The Highly Adaptive Lasso estimator."
开放问题(只罗列,不判断可行性): 1. 计算实现与大规模数据:[0:32:00] van der Laan 提到可以“用数值回归 / Cholesky 分解”计算典范梯度,但报告没有展示具体算法复杂度。对于大 \(n\)、高 \(d\),计算 \(n2^{d-1}\) 个基函数并做 L1-正则化是否可行? 2. 欠平滑的实操准则:[0:40:00–0:41:13] 提议“选择比CV更大的L1范数”使 \((\tilde{P}_n - P_n)D^{(j)}\) 可忽略。如何具体选择这个放大倍数?是否存在无模型、可计算的准则(例如基于 bootstrap 的检验)? 3. 交叉验证的整合:[0:11:25] 提到“cross-validated TMLE 可以避免 Donsker 条件”。高阶情况下,交叉验证 TMLE 的结构是什么?它如何与递归的 HAL-正则化 MLE 步骤兼容? 4. 对“有效影响函数为零”的 estimand:[0:46:05] 提到“高阶 TMLE 为有效影响函数消失的问题打开了推断的大门”。具体例子是什么(例如某些 Neyman 意义下的正交参数)?在这种退化情形下,线性展开的首项消失,二阶级数项如何决定收敛速率和推断?
Maintained by 陈星宇 · Homepage · Source on GitHub