跳转至

Nuisance Parameter Tuning for Estimating Doubly Robust Functionals

讲者: Rajarshi Mukherjee
来源: OCIS (Online Causal Inference Seminar)
日期: 2026-03-17
主题: 因果推断
视频: https://youtu.be/gOcHwBF5R9Q · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

子方向:半参数 / 非参数估计中困扰参数(nuisance parameter) 的调参与下游目标泛函估计的交互。

核心追问:在估计一个对困扰函数 η 有“双重稳健”性质的泛函 ψ(η) 时——尤其是期望条件协方差(ECC, E[Cov(A, Y|X)])——是否应该按预测最优标准(最小化困扰函数的均方积分误差)来选择困扰估计器的调参,还是需要为了下游 ψ 的估计(MSE / 渐近方差)而特意欠平滑 / 过平滑?

奠基与主流路线: - 经典半参数理论(Bickel et al. 1993; van der Vaart 1998)通常假设你有一致的、率最优的困扰估计,然后用一阶影响函数做一步 bias correction,得到 √n 收敛且达到半参有效界的估计。在这种框架下,困扰估计的调参问题常被归约成“选一个预测最优的,再上一步纠偏就行”,未专门讨论调参本身是否需要根据下游目标调整。 - 双重机器学习 / DML(Chernozhukov et al. 2018)强调用样本分割消除 overfitting bias,并提出交叉拟合(cross-fitting)作为标准工具,但 DML 的工作也通常默认可以用任意的 “good” 机器学习估计器来拟合困扰函数,不深究调参细节。 - 高阶影响函数 / 高阶半参理论(Robins et al. 2008, 2009)在非参数模型下建立了 ECC 及更一般泛函的极小极大率,并给出了达到该率所需的平滑性条件(弹性的平均光滑度 (α+β)/2 与维度 d 之比)。

这场报告的站位: - 它不动摇经典框架,而是填补了一个被主流忽略的 gap:给定一个具体的估计器形式(积分法 / Monte Carlo / 一阶 IF / Newey-Robins 型)和具体的样本分割方案(无 / 单 / 双重分割),应该如何选 K(或 λ)来极优化下游 ψ 的 MSE 或渐近方差? - 主要结论:(1)预测最优调参 不一定 是 ψ 的最优调参,尤其当平滑性差(α, β 小)时,需要大幅欠平滑;(2)样本分割方案与这一决策紧密交织:双重分割让 bias 只依赖于两个 K 的最小值(积分 / MC 型)或最大值(IF 型),而单分割会引入非线性偏差 K_min/n,无分割则额外引入“自身观测偏差” K_max/n;(3)只有部分估计器 + 部分分割方案能实际达到极小极大率(见幻灯片第 18–19, 23–27 页)。 - 第二部分(高维比例渐近)把同样的调参问题放到 d/n → c ∈ (0,∞) 且不假设稀疏性(因此困扰参数不能被一致估计)的场景,用随机矩阵理论(确定性等价、resolvent 分析)刻画去偏后估计器的渐近方差,并展示预测最优 Ridge 调参(最小化 Ridge 的预测误差)与方差最小化调参同样不一致。

关键引用(听不准的部分标注不确定性): - Robins et al. (2008, 2009) —— 高阶半参理论与 ECC 的极小极大率。转写里说“Robins et al. (2008, 2009) established”极小极大率,幻灯片也明确写了(pp. 8–9),可信。 - Newey & Robins 有一系列工作专门研究非线性偏差与质量偏差(转写 [0:28:08–0:32:01] 两次引用“Newey-Robins”),幻灯片给了 Newey-Robins 型估计器(p. 14)。对应论文可能包括 Newey & Robins (2018) Annals of Statistics 关于“own observation bias”和“nonlinearity bias”的工作。 - Crump et al. (2009) —— 方差加权平均处理效应(VWATE)中用 ECC 作为分子。 - Díaz (2023)、Zhou & Opacic (2022)、Shah & Peters (2020) —— ECC 在其他因果 / 独立性检验问题中的应用(幻灯片 p. 4 列出,转写未详述)。 - 高维部分:McGrath et al. (2025) NeurIPS

二、最小内核 / 一个最简例子

符号: - 观测数据 O_i = (A_i, Y_i, X_i) i.i.d. ~ P,其中 A 为二值处理,Y 为连续/二值结果,X ∈ ℝ¹(一维协变量,均匀分布在 [0,1])。 - 困扰函数: - p(X) = E[A|X](倾向性得分 / 条件均值) - b(X) = E[Y|X](结果回归) - 目标泛函(一类双重稳健泛函的特例): - ψ(P) = E[ Cov(A,Y|X) ] = E[ (A - p(X)) (Y - b(X)) ] - 等于 E[AY] - E[p(X) b(X)](积分表示) - 待选估计器用 wavelet projection 拟合 pbhat{b}_k(x) = (1/n) ∑ Y_i K_{V_k}(X_i, x),其中 V_k 是 k 维子空间,调参 k 控制平滑度(k ↑ → 偏差↓、方差↑)。预测最优调参 k_opt ≍ n^{d/(2β+d)};欠平滑指 k ≫ k_opt,过平滑指 k ≪ k_opt

最简特例:d=1, 二次可微(α=β=2)
设 X 均匀在 [0,1],p、b 都是二阶 Hölder。假设我们知道 pb 的平滑度一样(α=β=2)。这时 (α+β)/2 = 2 > d/4 = 0.25,在“高弹性区域”——按 Robins et al. 的极小极大率,可达到 n^{-1} 的率(半参数率)。

故事: 1. 预测最优:每个困扰函数的预测最优是 k_opt ≍ n^{1/(5)}(因为 d=1, β=2 → d/(2β+d)=1/5)。取 k1=k2=n^{1/5}。 2. 下游估计ψ,考虑两类估计器: - 积分型ψ_INT = n^{-1} ∑ A_i Y_i - ∫ hat{p}_{k1}(x) hat{b}_{k2}(x) dx - 一阶 IF 型ψ_IF = n^{-1} ∑ (A_i - hat{p}_{k1}(X_i)) (Y_i - hat{b}_{k2}(X_i)) 3. 关键差异: - 在双重样本分割下,ψ_INT 的偏差约 k_min^{-(α+β)/d} = k_min^{-4/1},方差约 1/n + k_min / n^2。若用预测最优 k_min = d^{1/5},则 k_min 太小,偏差主导 MSE。需要大幅欠平滑(把 k_min 涨到 ~ n^{some})来压偏差,但同时又必须考虑方差不能膨胀太快。最终 ψ_INT 能达到 n^{-1} 率(幻灯片 p. 18: 双分割下积分型可达到极小极大率)。 - ψ_IF 的偏差只依赖 k_max(因为一阶 IF 中的乘积项在“双重稳健”感受下抵消了较慢的那个偏差),所以可以独立地让一个 k 很大(欠平滑)而另一个保持预测最优、甚至过平滑来抑制非线性偏差(在单分割下显得很重要;但双分割下不需要)。双分割下 ψ_IF 也能达到 n^{-1} 率,而且在特定区域((α+β)/2 < d/2,但未被报告覆盖)可能更稳健。

为什么最简例子有效:d=1 意味着 k 可以直接取整数值来调;二元处理下 p 的估计只需一维非参;且 ECC 本身是 E[(A-p)(Y-b)] 的无参数形式,其双重稳健性表现为:若要么 p 要么 b 被真实模型正确指定(在非参数意义下就是估计精度足够高),ψ_IF 的偏差项就小了。

三、报告主体:讲者讲了什么

[0:00:03–0:01:16] 介绍 + 讲者 Rajarshi Mukherjee 开场。讲者说明报告分两部分:非参数(Shawn McGrath 主讲,Rajarshi 负责开场模拟);高维部分由 Shawn 随后介绍。

[0:01:18–0:04:13] 模拟动机(ATE 的 AIPW 估计):
n=1000,p=300,真实模型是线性 outcome regression + logistic propensity score。用 OLS(无偏)估计 outcome regression;用 ridge-regularized logistic regression 估计 PS,lambda 是调参。结果([0:03:32–0:04:13]):选择 lambda 对 PS 做 leave-one-out CV(即预测最优)不会最小化 AIPW 的方差;存在一个更小的 lambda(更欠平滑)能使下游方差更小。

[0:04:19–0:07:05] 一般框架:η 是困扰对象(normed space H),ψ(η) 是目标泛函。经典三步:plug-in → one-step Newton-Raphson correction(IF)→ higher order corrections。通常的问题是“如果 η̂ 是率最优、一致的,怎么得到 ψ̂ 的最佳形式”;此处相反:“给定一种 ψ 的估计方法(plug-in、一阶 IF、Newey-Robins),怎么选择 η̂ 来优化下游 ψ̂?

[0:07:17–0:10:00] ECC 定义与因果动机
E[Cov(A,Y|X)] 出现在 VWATE、无治疗效应检验、条件独立检验等(幻灯片 p. 4 列出 Crump 2009, Díaz 2023, Shah & Peters 2020)。识别假设([0:09:15–0:09:40]):无未测量混杂、一致性、正性。CATE γ(X) = E[Y|A=1,X] - E[Y|A=0,X],VWATE 权重与 Var(A|X) 成比例,其分子恰为 ECC。

[0:10:00–0:11:10] 四种 ψ 的估计器(引入): - ψ_IF(一阶 IF 型):n^{-1} ∑ (A_i - p̂)(Y_i - b̂)
- ψ_INT(积分型):n^{-1} ∑ A_i Y_i - ∫ p̂(x) b̂(x) dx
- ψ_MC(Monte Carlo 型):n^{-1} ∑ A_i Y_i - n^{-1} ∑ p̂(X_i) b̂(X_i)
- ψ_NR(Newey-Robins 型,仅用一个困扰函数):n^{-1} ∑ A_i (Y_i - b̂(X_i)) 或对称的另一版本。
核心宗旨:不是研究哪个估计器更优,而是对每一个,研究如何选 k1, k2 优化下游 MSE。

[0:12:00–0:14:13] 模型与极小极大率: - p ∈ Hölder(α), b ∈ Hölder(β),X ~ Uniform[0,1]^d(幻灯片 p. 8)。 - 极小极大 MSE 率(Robins et al. 2008, 2009):若 (α+β)/2 ≥ d/4 则可达 n^{-1}(参股率);否则为 n^{-(4α+4β)/(2α+2β+d)}。 - 关键阈值:(α+β)/2 = d/4

[0:14:24–0:15:50] 样本分割方案: - 无分割、单分割(二分数据,一半用于困扰估计、一半用于 ψ 估计)、双重分割(三份数据,p̂、b̂、ψ 各一份)。 - 双重分割消除非线性偏差(nonlinearity bias)(因同数据估计多个困扰函数造成),单分割消除自身观测偏差(own observation bias)(因同数据估计 ψ 与困扰函数造成)。

[0:16:00–0:18:30] 困扰函数估计器: - 以 wavelet projection 为例:hat{b}_k(x) = (1/n) ∑ Y_i K_{V_k}(X_i, x),k = 投影子空间维数。 - 预测最优:k_opt = n^{d/(2β+d)},此时偏差与方差同阶。欠平滑(k↑)—— 偏差消失更快、方差更大;过平滑(k↓)反之。

[0:19:30–0:21:30] 双重样本分割下的偏差(幻灯片 p. 15–16): - ψ_INT, ψ_MC: 偏差 ≍ k_min^{-(α+β)/d} (需两者都被高 k 估计) - ψ_IF: 偏差 ≍ k_max^{-(α+β)/d} (只需一方高 k) - 方差(p. 16): - INT: 1/n + k_min/n² - MC: 1/n + k_max/n² + k1k2/n³ - IF: 1/n + k_max/n² + k1k2/n³

[0:21:50–0:24:20] “何时需要欠/过平滑”图(Double SS)(p. 17–18): - INT / MC(左图):当 (α,β) 在左下方(小平滑)时——蓝区表示预测最优即可、红区表示必须欠平滑(甚至两个都得欠平滑)。 - IF(右图):蓝区更大;但在小平滑区仍需要欠平滑(k1 或 k2 一个欠平滑即可)。 - 核心:随着模型变大(平滑度下降),欠平滑愈发必要。

[0:24:20–0:27:30] 率最优性(待分割)(p. 19): - INT: 在整个 (α+β)/2 区域内都能达极小极大率(点线表示可达区域)。 - MC: 在 (α+β)/2 < d/4 区域不能达极小极大率(因为 MC 的方差包含 k1k2/n³ 项,当 k 需要很大时方差会压过偏差改进)。 - IF: 可达区域比 INT 小一些,但比 MC 大。 - 讲述者强调([0:27:00–0:27:30]):“without explicitly relying on higher-order bias corrections, these simple plug-in estimators ... can get optimality guarantees by careful smoothing and sample splitting.”

[0:27:32–0:32:00] 单分割(入题非线性偏差): - 在 INT / MC 偏差中新增橙色项 k_min/n(p. 20)。这导致偏差不能任意快地下降(因为 k_min 增加会同时增大非线性偏差)。 - 在 IF 中同样有 k_min/n 项;只有 Newey-Robins 型(仅一个困扰函数)不会收到非线性偏差影响。 - 调参图(p. 21–22):INT/MC 需要在某些区域一个欠平滑 + 一个过平滑(因为 need to control nonlinearity bias);IF 也需要这样搭配。 - 率最优性(p. 23):所有估计器的可达边界向右挪动(需要更高平滑度);INT 不能再覆盖全域;IF 仍能覆盖到 (α+β)/2 ≥ d/4 的部分。

[0:31:28–0:34:18] 无分割(引入自身观测偏差): - 偏差多出红色项 k_max/n(对于 MC、IF、Newey-Robins)。对于 INT 是 k_min/n。 - 调参图(p. 23–26):蓝区进一步向右缩;IF 在小平滑区要求过平滑。 - 率最优性(p. 27):所有估计器在 (α+β)/2 < d/2 时都无法达到极小极大率。讲者指出这与 Donsker 条件的边界 α < d/2(或 β < d/2)有关。

[0:34:20–0:37:41] 模拟(双分割): - n=300,d=1,b=p=μ 且 μ ∈ Hölder(s)。 - 低弹性 (s=0.05):预测最优 k1=k2=12,但最优调参把 k 大幅提高(INT 到 160/160,IF 到 192/12)。MSE 从 23.14 → 7.95(INT),22.08 → 4.85(IF)。 - 高弹性 (s=0.75):预测最优与最优几乎重合。 - 结论:非参数下,低弹性使调参差异至关重要;高弹性下预测最优就够了。

[0:37:55–0:41:49] 高维比例渐近(NeurIPS 2025): - 线性模型 A|X ~ N(X'α₀,1), Y|X ~ N(X'β₀,1),协相关由 θ₀ (ECC) 控制。X ~ i.i.d. subgaussian, d/n → c ∈ (0,∞)。 - α₀,β₀ 非稀疏,无一致估计。因此困扰估计器(Ridge λ₁, λ₂)有 O(1) 偏差。 - 需要进一步去偏:通过随机矩阵论(确定性等价 + resolvent calculus)构造去偏估计器并证明 √n 收敛、给出渐近方差表达式。 - 调参目标:选择使渐近方差最小的 (λ₁, λ₂)。预测最优(最小化 Ridge 的预测 MSE)与方差最小化调参在 INT 上几乎一致,但在 IF 和 Newey-Robins 上差异明显(λ 差 2–4 倍)。转写者强调“没有类似的效率理论”,所以只能通过优化渐近方差找到当前类内的最佳估计。

Q&A 亮点: - [0:44:30–0:46:07] Caleb Miles 问 TMLE 是否效仿 IF 的故事。讲者说未做但猜测是;因为欠平滑下的 IF 渐近等价于二阶影响函数。 - [0:46:15–0:48:31] Ching-Yuan(研究者自己)问是否有自动化方法。Rajarshi 回答“结果非常 case-specific……自动化很 tricky 因为结果不是普适的”。 - [0:50:25–0:54:20] Stijn 问是否有“clear winner”。回答:没有,因为率最优性下常数项比较需大量工作;高维部分中根据信噪比和 d/n 比值,“任一估计器 + 调参组合都能在某个参数配置下成为赢家”。

四、对应论文与开放问题

(a)对应论文: 1. 非参数部分
McGrath & Mukherjee. “Nuisance function tuning and sample splitting for optimal doubly robust estimation.” arXiv preprint, 2026+. (幻灯片 p. 39)
本报告主要基于此的工作。
2. 高维比例渐近部分
McGrath, Mukherjee, Debarghya Mukherjee, Jolene Wang. “Optimal nuisance function tuning for estimating a doubly robust functional under proportional asymptotics.” NeurIPS, 2025. (幻灯片 p. 33–39)

注意:报告未给出 arXiv ID 或 DOI;如需精确引用请以讲者网站 / 官方发布为准。

(b)开放问题(扎根于转写内容):

  1. 自动化的可行性([0:46:15–0:48:31]): 讲者明确承认缺乏通用方法。开放问题:是否存在一种数据驱动流程(如 Bootstrap 化 MSE 或方差泛函的估计),能在不预先知道 (α,β) 的情况下自适应地选择 k1, k2?或者,对于给定的一类双重稳健泛函,至少是否存在不依赖于样本分割具体方案的“稳健调参”原则?

  2. 效率常数与 finite-sample 比较([0:52:25–0:54:20]): 在非参数双分割、达 n^{-1} 率的区域,所有估计器(INT、MC、IF)在率的意义上等价;但常数可能差别很大。不同的估计器 + 调参 + 样本分割在不同的信噪比、d/n、平滑度下自有优势。本质上还没有一个清晰的理论来“预选”最佳组合;高维部分中这种依赖更尖锐(信号范数、内积 cross-talk)。开放问题:能推导出有效渐近方差(或确切 MSE 的前导项)作为调参的函数,从而为预测最优 vs 下游最优提供准确的理论指导?

  3. 超出双重稳健泛函([0:47:55–0:48:12]): Rajarshi 提到 L. (“Lynn”) 已经对非双重稳健泛函(可能指高阶或非 smooth 的泛函)做了类似计算,结果不同。这表明调参的“故事”不自动移植。开放问题:对于非双重稳健泛函(如 E[Ap(X)b(X)] 形式不再成立),是否需要重新刻画偏差 / 方差的结构?

  4. 高维部分中强列未知的下界([0:52:48–0:53:10]): 讲者明确指出在 d/n → c、非稀疏设置下没有已知的效率下界(类似半参经典结果)。因此无法判断某种调参策略下的最优方差是否达到了该类的极小极大下界。开放问题:对于高维比例渐近下的 ECC 或类似双重稳健泛函,能否建立有意义的 minimax lower bound(可能是退化为 O(1) 偏差受限的情形),从而界定“可达到的最佳渐近方差”?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论