跳转至

Optimal doubly robust estimation of heterogeneous causal effects

讲者: Edward Kennedy
讨论人: James Robins
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-04-28
主题: 因果推断
视频: https://www.youtube.com/watch?v=AUOnAfUjDVE · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。

相关论文

  • 2004.14497 (尚未精读 — talks read --id … --read-papers 可补)

一、这场报告在讲哪条工作线

子方向:条件平均处理效应(CATE)的半参数非参数估计与最优化理论

  • 该方向在追问什么:在观测数据( X, A, Y )下,如何从个体层面估计处理效果随协变量的变化(即CATE),并理解其统计可实现的“最优”收敛速率,特别是当CATE本身有额外结构(如光滑性、稀疏性)时。
  • 奠基与主流路线
  • CATE的早期方法:T-Learner/Künzel et al. (2019) 用单独估计结果回归再相减的“Plug-in”方法;X-Learner等Meta-Learner。
  • DR思路的雏形:van der Laan (2013) 和 Luedtke & van der Laan (2016) 提出用双鲁棒伪结果(基于ATE的IF)做CATE回归的构想,但未给出具体误差界。
  • Robinson‘s double-residual regression (Robinson 1988) —— CATE的一个早期半参数基础;Nie & Wager (2017) 的R-Learner是其在RKHS框架下的推广。
  • 理论方面:Robins et al. 的工作为ATE的minimax下界提供了基础,但CATE下的结果还很少。
  • 当前frontier与报告的站位
  • 在对CATE做非参数回归时,现有方法要么只给出较粗糙的误差界(如Zimmert & Lechner 2019),要么假设CATE光滑度不高于个体回归函数(如Fan et al. 2019),因而无法利用CATE自身的额外结构。
  • 这场报告给出了两个关键贡献:(1) DR-Learner——一个模型无关、方法无关的有限样本误差界,表明其误差可分解为“oracle回归误差”加上“倾向得分与结果回归MSE的乘积”。这使得CATE收敛速率可以比个体回归函数快得多(体现“双鲁棒乘积”效应)。(2) lp-R-Learner——一个专门设计的局部线性R-Learner(附带特殊的样本分裂),在光滑非参数模型下导出了更精细的误差界,给出了比DR-Learner更弱的达到oracle效率的条件。报告还从Robins的讨论中获得了高阶IF的视角。

二、最小内核 / 一个最简例子

符号与模型:我们观测iid样本 (X_i, A_i, Y_i),X是协变量(可以是高维的d维),A是二值处理(0/1),Y是结果。潜在结果框架:Y(1)、Y(0)。在无残余混杂+正性+一致性假设下,CATE τ(x) = E[Y(1)-Y(0) | X=x] = μ₁(x) - μ₀(x),其中μₐ(x)=E[Y|X=x, A=a],倾向得分π(x)=P(A=1|X=x)。

可观测数据:(X, A, Y)。不可观测的潜在量:(Y(1), Y(0))。参数/estimand:τ(x)。需要估计的nuisance:π(x), μ₀(x), μ₁(x)。

最简特例:d=1, X~Uniform[-1,1], 一个“欺骗性”DGP。设π(x)=0.5+0.4×sign(x)(倾向得分在正x和负x区域不同)。μ₁(x)=μ₀(x)=一个跳变的非光滑分段多项式(来自Györfi et al. 2002)。因此τ(x)=0(极其光滑——常数零),但μₐ(x)本身既非光滑也难以估计。

核心思想:如果直接用“T-Learner”方法(估计μ̂₁和μ̂₀,然后相减),会得到一条过拟合的、非常wiggly的曲线——因为处理组/对照组数据分布不同,平滑样条在每个组内都试图拟合跳变函数,差分后反而无法适应τ(x)的常数结构。而如果构造一个双鲁棒伪结果 φ̂ = (A - π̂(X))/(π̂(X)(1-π̂(X))) (Y - μ̂_A(X)) + μ̂₁(X) - μ̂₀(X),再对φ̂做回归,由于E[φ̂ | X] ≈ τ(X)的双鲁棒性质,这个回归能更有效地发掘τ(x)本身的简单结构(常数零)。幻灯片第4-5页的模拟图显示,DR方法的偏差和方差比T-Learner小1-2个数量级。

三、报告主体:讲者讲了什么

时间进度标记:转写稿时间戳 [H:MM:SS](注意:这是ASR时间戳,不一定精确对应讲者的幻灯片切换点,但可定位叙述节点)。

[0:00:07 - 0:05:00] 引言与setup
讲者 Edward Kennedy 介绍CATE的重要性(改善对个体变异的理解、政策制定、最优治疗分配),并给出两种主要目标:(1) 提供灵活且保证强的CATE估计量(更实用);(2) 探索CATE估计的统计最优性(更理论)。定义了符号:X(协变量,在R^d中)、A(二元处理)、Y(结果)。四个关键量:π(x)、μₐ(x)、η(x)=E[Y|X=x](用于后半段)。在无混杂等下,τ(x)=μ₁(x)-μ₀(x)。

[0:05:00 - 0:12:00] 一个直观的motivating example
(幻灯片第3-6页) 讲者用一个d=1的例子(见第二节)展示T-Learner的缺陷:μ_a 非光滑,但CATE=0。模拟显示T-Learner(平滑样条)输出误差很大。相反,如果已知π(x),构造IPW伪结果 ξ = (A-π)/(π(1-π))·Y,则E[ξ|X]=τ(X)。回归 ξ 的效果接近“oracle”(直接用Y₁-Y₀回归)。DR方法(近似双鲁棒版本)进一步改善方差。这一节的要点:CATE估计的问题从根本上不同于ATR估计,因为“差分”结构可以(而且应该)被利用。

[0:12:00 - 0:23:50] DR-Learner:方法 + 模型无关误差界
讲者提出一个两步DR估计量(幻灯片第7-12页): 1. 将样本分为D1a、D1b、D2三个独立子样本。 2. 用D1a估计π̂,用D1b估计μ̂₀、μ̂₁。 3. 在D2中构造伪结果φ̂(见第二节式),并用一个通用的回归估计量(ê_n)对φ̂回归X,得到τ̂_dr(x)。 讲者强调,这样做的关键在于样本分裂使“第一段nuisance估计”与“第二段回归”独立。 然后讲者给出稳定性条件(幻灯片第10页):(i) ê_n对常数平移不变性(在常数上加c与把结果加c再回归是一样的);(ii) 如果两个随机变量有相同条件期望,它们回归的MSE成比例。 得到核心定理(DR-Learner Master Theorem)(幻灯片第11页): √ E[{τ̂_dr(x)-τ(x)}²] ≤ (oracle MSE) + (oracle MSE调整项) + (π̂的MSE) × (max_a μ̂_a的MSE)。 这里oracle MSE是“如果我们能直接对Y₁-Y₀回归X得到的MSE”。而“乘积剩余项”是双鲁棒结构的体现:它意味着只要两个nuisance的MSE都控制得不太差,dr-Learner的误差就会靠近oracle。讲者指出,这个结果比之前Zimmert & Lechner (2019)和Fan et al. (2019)更好,因为更紧且不要求CATE光滑度少于μ_a。

[0:23:50 - 0:34:00] DR-Learner在光滑/稀疏模型下的推论+模拟
(幻灯片第13-21页)讲者给出在Hölder光滑模型下的推论(幻灯片第15页): 若π是α-光滑,μ_a是β-光滑,CATE是γ-光滑,且第二阶段回归达到minimax最优,则DR-Learner的MSE上界≈ n^{-2γ/(2γ+d)}+ (product of nuisance MSEs)。由此得到oracle效率的充分条件:若α和β(当两者相等时)一起满足 s≥d/2 / (1+γ/d),s是平均光滑度。这比ATE鲁棒估计的条件更弱(因为CATE的目标速率慢于√n)。 类似地,在稀疏模型下(幻灯片第17-18页),DR-Learner的oracle效率条件比ATE时更宽松。 [0:30:42 - 0:34:00] 模拟(幻灯片第20-21页)使用高维线性模型,Lasso估计所有nuisance,比较T-Learner、X-Learner、DR-Learner和Oracle(已知真nuisance)。结果显示,DR-Learner在MSE上接近Oracle,远优于T-Learner和X-Learner,且当d增加至接近n时性能依然稳健。

[0:34:00 - 0:48:00] lp-R-Learner:局部引理多项式R-Learner与最快的CATE估计速率
(幻灯片第24-35页)讲者转向更专业的估计量,目的是探索CATE估计的统计极限。 问题:若DR-Learner中的“乘积剩余”不够小,能否还有办法达到oracle速率?答案是,用更精细的估计方法可以。 lp-R-Learner的核心结构(幻灯片第25页): - 样本分裂为D1a(估计π̂)、D1b(估计另一个π̂’和η̂(Y|X的边际回归))、D2(测试)。 - 在D2中,定义一个局部加权最小二乘问题:权重由bandwidth h和基于π̂构建的核权重决定,回归的是A - π̂’与Y - η̂的“double residual”,并乘以关于X的局部多项式基。 - 该方法基于Robinson (1988)的double-residual regression + Nie & Wager (2017)的R-Learner,但其选择局部多项式(而非RKHS)和特定的样本分裂。 (幻灯片第26-29页) 误差界:假设nuisance是线性平滑子(如局部多项式、级数),且其偏差与方差符合标准光滑条件,则τ̂_r(x)的误差由5项控制:三个偏差项(oracle偏差h^γ + 乘积偏差k^{-2s/d} + 平方倾向得分偏差k^{-2α/d})和两个方差项(oracle方差(nh^d)^{-1/2} + 乘积方差项)。讲者强调方差项中优秀的设计使得在标准选择(k≥ log n)下nuisance方差可被忽略。 (幻灯片第29-31页) 推论:最优调参:令h~n^{-1/(2γ+d)},k~n/ log² n,得到τ̂_r(x)的速率≈ n^{-γ/(2γ+d)} + n^{-2s/d}。这里s = (α+β)/2。因此oracle效率(前一项为主)的条件是s ≥ d/4 / (1+γ/d)。比DR-Learner需要的条件(s≥d/2 / ...)更弱(几乎一半光滑度)。讲者推测此条件可能是minimax最优的。 (幻灯片第32-35页) 结合已知协变量密度:若X的密度已知,可以进一步加速。给出了另一种速率 n^{-3s/(2s + d(1+s/γ))},并在幻灯片第35页图片中展示。讲者认为这可能是minimax率,但开放证明。

[0:48:00 - 结束] 总结+讨论+Robins点评
讲者总结两部分工作:DR-Learner提供实用且强的保证(适合宽泛方法、灵活);lp-R-Learner则揭示统计最优性边界。提出了几个开放问题(见第四节)。最后,James Robins作为discussant用高阶IF的框架重新解读,指出lp-R-Learner的“双样本分裂+局部线性”实质上是在模拟一个高阶IF估计量,同时避免真正计算高阶U-统计量带来的计算代价。Robins指出,讲者的方法通过围绕π̂线性展开,将问题转化为一个“双重条件期望”的形式,从而可以用双样本分裂的“first-order”IF达到高阶效果,但代价是需要α≥s(即倾向得分光滑度不能低于平均光滑度)来保证附加项可控。

四、对应论文与开放问题

(a) 对应论文
核心论文:
E. H. Kennedy (2020). Towards optimal doubly robust estimation of heterogeneous causal effects. arXiv:2004.14497.
这场报告的大部分材料(包括DR-Learner、通用oracle不等式、lp-R-Learner及其误差界)都在该论文中。注意:报告中提到的Künzel et al. (2019) (Meta-Learners)、van der Laan (2013) (DR-Learner的原始想法)、Zimmert & Lechner (2019) 等均为该论文的参考/对比工作。另有一篇关于oracle不等式的一般性论文可能被引用,但未在转写中明确。

(b) 开放问题(基于转写与幻灯片)

  1. 是否可以改进通用oracle不等式,使其不依赖于特定的第二阶段方法?
    (转写 [0:48:11] “Discussion points”,第三张幻灯片。) 讲者问:“1. Can oracle inequality be improved without committing to particular 1st or 2nd stage methods?” 这是一个偏方法论的问题,可能涉及更紧的界、或避免稳定性条件的必要假设。

  2. 非光滑/非稀疏模型下的CATE最优估计速率?
    (转写 [0:48:11] “Discussion points”,第二点。) 讲者问:“2. Applications to non-smooth/sparse models?” 报告中只分析了Hölder光滑和稀疏模型;问在更一般的函数类(如有界变差、Besov)下边界是否类似。

  3. DR-Learner能否通过专门化的样本分裂和调参达到lp-R-Learner的速率(或更好)?
    (转写 [0:48:11] “Discussion points”,第三点。) “3. What rates are achieved by specialized sample splitting and tuning of a DR-Learner, rather than an R-Learner?” 这表明讲者认为DR-Learner可能更灵活被调紧,问是否有已知结论。

  4. lp-R-Learner的minimax最优性证明(特别是当结合已知协变量密度时的速率)。
    (转写 [0:45:10] “I think this is probably minimax optimal, but I haven’t proved it”;[0:47:16] “open question is whether this is a minimax rate”)。 讲者两次明确表示他猜测他的结果是minimax最优的,但目前尚未完成下界证明。

  5. Robins从高阶IF角度提出的问题:能否避开α≥s的条件?
    (转写 [1:00:20-1:00:47] Robbins comments:“Unfortunately, he paid for it with a term ... The reason he needed alpha greater than S.”) 这给讲者和听众一个具体的开放技术问题:是否有可能在不要求倾向得分光滑度高于平均光滑度的前提下,通过其他样本分裂或加权方案达到相同速率?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论