跳转至

Learning Surrogate Indices from Historical A/Bs: Adversarial ML for Debiased Inference on Functionals of Ill-Posed Inverses

讲者: Nathan Kallus
讨论人: Rahul Singh
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-08
主题: 因果推断
视频: https://youtu.be/Os1jikCZTvg · 幻灯片

本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。


一、这场报告在讲哪条工作线

这条工作线在追问什么 在实验平台(如 Netflix)上,审慎的业务决策需要长期因果效应(long-term treatment effect),例如用户3个月后的留存率。但长周期实验耗时且信噪比低。如果能找到一组短期指标(short-term surrogates, X)——例如头14天的各种engagement指标——和一个组合它们的函数(surrogate index, h₀),使得在新实验(新 treatment Z̃)中,平均短期指标指数等于平均长期结果,那就可以快速决策。核心问题:

  1. 如何从历史A/B实验数据中学习这个surrogate index h₀?
  2. 当短期指标与长期结果之间存在未观测混杂时,如何保证 h₀ 的因果有效性?
  3. 既然 h₀ 的估计是一个 ill-posed inverse problem(NPIV),如何在不对 h₀ 本身作强假设的条件下,对它的线性泛函(如新实验的ATE)做有效推断?

方向定位与奠基工作

  • 基础框架:代理指标(Surrogate Index)与混淆问题:Athey et al. (2019) Surrogate Index 和前述的 Athey et al. (不记得确切年份)。报告中用「missing surrogate index」对比了简单回归(statistical surrogacy,要求Y独立于Z给定X,极易被未观测混杂打破)和基于IV的因果方法。这条线的经典困惑是图中点的偏差:在混杂下,简单回归线斜率与真正的因果斜率可能正负相反。

  • 方法基石:auto-Double Machine Learning (auto-DML)

    • Chernozhukov et al. (2018) Double/Debiased Machine Learning for Treatment and Structural Parameters(基石)。其核心是Riesz representation:若因果参数 θ₀ = E[α(X) h₀(X)] 是 h₀ 的线性泛函(其中 α(X) 是已知的score函数,如平均导数的权重),则存在Riesz representer q₀(X) 使得 θ₀ = E[Y q₀(X)] + E[α(X) h₀(X) - q₀(X) h₀(X)](doubly robust moment)。
    • 近期泛化:Rahul Singh(本报告的讨论者)与作者合作的 Auto-DML: A General Framework for Inference on Functionals of Conditional Expectations。本报告将这一框架从「函数类为条件期望」推广到「函数类为 ill-posed inverse problem 的解」。
  • 当前 frontierIll-posed inverse problem 中的函数估计及其泛函推断。经典NPIV(Nonparametric IV)估计需要源条件(source condition)来保证 h₀ 的可学习性(如 Blundell, Chen, and Kristensen 2007; 以及 Che, Hoderlein, 与 Su 等人的众多工作)。但传统源条件适用于最大化收敛速度,而非泛函推断。本报告和对应的论文所做的是:首次给出用于泛函推断的源条件,并证明它等价于 Q₀ 的可学习性。

这场报告的站位

  • 统一了两种来源不同的挑战:(1)挑战一:在逆问题中,直接学习 h₀ 是病态的(ill-posed),但你不需要 h₀ 本身,只需要它的一个线性泛函。为此,需要学习逆问题的另一侧函数 Q₀。该报告提出了源条件,并证明在该条件下,Q₀ 在均方范数下可获得与简单回归相同的ML学习率(而非只能在弱范数下学习)。(2)挑战二:当工具变量是许多(大量历史A/B实验)、(每个实验样本量有限)时,出现many weak IV bias,典型的线性估计(2SLS)会发生严重的偏离。该报告给出了非参数版本的JIVE(split-sample IV),并为离散工具变量情形导出了具体的收敛率。

  • 创新点:将auto-DML的「双表示+双抵抗性」思想完整移植到 NPIV 框架下,并提供了ML 类(如神经网、RKHS)的通用收敛条件(依赖 critical radius 和 β)。其「双表示」展示了一种对称性:H 与 Q 各是对方逆问题的解,给推断带来了容错空间(至少一个逆问题nice即可)。

二、最小内核 / 一个最简例子

符号与模型

  • 可观测数据:{ (Yᵢ, Xᵢ, Zᵢ) }ᵢ=1ᴺ,独立同分布。
    • Y:长时结果(如3个月的留存指示变量)。
    • X:短时指标(组向量,如14天内各种engagement数值)。
    • Z:工具变量——历史A/B实验的分配指标(如具体哪个实验,版本号;报告聚焦于离散工具,对应每个A/B实验)。
  • 因果模型:Y = h₀(X) + U,其中 E[U | Z] = 0 是识别条件(实验随机分配Z,Z与所有混杂无关,但可能直接影响X,并且一个变量U同时影响X和Y,从而导致X与Y在给定Z后仍存在混杂)。
  • estimand
    • 目标参数(surrogate index的核心):在新实验 Z̃ 下,想推断 θ₀ = E[Y(Z̃)] ——即新treatment下成员的平均长期结果。
    • 由于 Y(Z̃) 潜在不可观测,但 X(Z̃) = X(under Z̃) 可观测(Z̃是新的A/B),并且我们假设条件独立性(给定X,Z对Y没有直接效应,即无直接效应假设;实际中允许直接效应,但需要IV方法调整)。这里简化为无直接效应,则:
    • 由 Z̃ 随机化给;θ₀ = E[Y | Z = Z̃] = E[E[Y | X, Z] | Z = Z̃] = E[ h₀(X) | Z = Z̃ ] 。所以 θ₀ = E[ h₀(X) | Z = Z̃ ] ——是 h₀ 在分布 P(X | Z = Z̃) 下的线性泛函。
  • 关键逆问题:h₀ 满足 E[Y | Z] = E[ h₀(X) | Z ](即 E[Y|Z] = T h₀,T为算子: (T f)(z) = E[ f(X) | Z=z])。求解 h₀ 是 NPIV。
  • 对偶表示:等价地,存在 Q₀(Z) 使得 θ₀ = E[Y Q₀(Z)],且 Q₀ 满足另一个逆问题:E[ Q₀(Z) | X ] = score(X),其中 score(X) 是分布 P(X|Z=Z̃) 相对于 P(X) 的密度比率(或一般线性泛函的Riesz representer α(X))。这是报告的关键:目标参数可以通过Q₀与Y的协方差来估计,而 Q₀ 是「将score(X) 从 X 投影回 Z」这一逆问题的解。

  • 不可观测量:U(因混杂产生)、给定时X与Z后的 Y 的完整条件分布、score(X)(但report通过auto-DML动态规避了其直接估计)。

最简特例 (d=1, binary Z, binary Z̃)

  • X是单个短时指标(如“7天内访问次数”,连续);Z是历史实验标识(二进制,仅两个历史实验:对照z=0、旧版z=1);Y是二值“3个月后是否留存”。
  • 你的历史数据来自两个独立的A/B测试。例如,z=0平均X=5,z=1平均X=8,相应地平均Y分别为0.12与0.10(注意到在正式开始实验观测到Y前,Y不可观测;实际中早期决策只能看到短时X)。历史数据显示,X与Y正相关(r=0.3,可能是混杂引起的),但这两点的连线呈现负相关:平均Y随z=1下降。
  • 新实验 Z̃:你想测试新版界面,暂未观察到Y,但你可观测新实验中的X(例如新组平均X=9)。若直接用历史回归(Y|X),你会预测θ₀很大(因为X正相关Y大)。但IV方法可以给出正确θ₀。

最简核心直觉(不使用IV时的错误与IV时的正确):简单回归 ĥ(X) = Ê[Y | X] 在混杂下是偏的。但报告提出的IV方法(记作ĥ_IV): 1. 找出满足 Ê[Y | Z] = Ê[ h(X) | Z ] 的h(即h的历史组均值匹配Y的历史组均值)。因为仅两个历史组,方程有两个数据点,解不唯一(ill-posed)。所以无法直接学习h。 2. 但你可以学习对偶函数Q:要求 Ê[Q(Z) | X] = score(X) (此处score(X) = dP(X|Z̃)/dP(X) )。在离散Z情形(Z只有两个值),Q(Z)退化为两个参数(q₀, q₁)。未知的score(X)是X的某个函数,这里需要源条件来使Q(Z)存在且可学习。 3. 报告的核心是:你若有一个足够的源条件(使得score(X)落在T̂的像的“顶部”),那么你可以用ML(最小化某个IV判据)以均方速率学习q̂(Z),从而得到θ̂ = (1/N) ΣYᵢ q̂(Zᵢ)(一个plug-in估计),再通过DML的cross-fitting得到渐近正态的置信区间。

三、报告主体:讲者讲了什么

A. 问题引入与实际背景 [0:03:00-0:05:30]

  • 动机:数字平台需要快速实验,但真正关心的长期指标(如3个月留存)观察周期太长。讲者给出了最简单的情形:用一个短时指标(14天engagement)预测长时结果。提出「surrogate index」H₀,其均值等于长期ATE。
  • 例子:Netflix的实验,测试菜单栏位置 → 观测短期指标如观看时长、种类等 → 希望预测3个月后是否会取消订阅。
  • 核心难题
    1. 简单回归(predict Y from X)会受未观测混杂的严重扭曲。讲者举了一个详细例子:用“空闲时间”作为混杂,虽然总体正相关,但因果效应可能是负的(因为推送给太忙的人会导致流失)。[0:15:50]
    2. Kallus 的「泄漏vs.因果」图示:当存在混杂时,从未观测的U到X,从U到Y的隐式连接,导致回归线真实斜率与因果斜率可能完全相反。

B. 方法与理论框架:auto-DML回顾 [0:10:40-0:14:00]

  • 回顾:在无IV的情形(即X=Z或相关),auto-DML提供了一套通用的推断方案:
    • 目标参数θ₀ = E[α(X)h₀(X)],h₀ = E[Y|X]。
    • 存在Riesz representer q₀(X),使得θ₀ = E[Y q₀(X)]。
    • 可通过最小化q的某个损失函数(类似最小二乘)来学习q̂,证明其收敛率取决于函数类的critical radius δₙ。
    • 最终的DR moment:θ₀ = E[α(X) ĥ(X) + q̂(X)(Y - ĥ(X))] (经cross-fitting后,只要δₙ²=o(1/√N))。
  • 扩充:讲者提到最近的工作(arXiv posted a few weeks ago)将auto-DML从线性泛函推广到更广义M估计(如分位数),但阐明本次基本盘是线性泛函。[0:13:28]

C. 主线一:Ill-posed逆问题中的泛函推断 [0:21:30-0:42:00]

  • 挑战一正式定义[0:21:30]:

    • h₀ 通过 NPIV 方程 E[Y|Z] = E[h₀(X)|Z] 定义。
    • 你希望的是θ₀ = E[h₀(X) | Z̃]。
    • 害处:h₀ 的估计是ill-posed的——你无法用离差的弱范数(project into Z then square)来控制真正的h₀误差。[0:22:30-0:23:50] 讲者展示了一个生动的图:平滑的函数H₀ vs. “几乎满足条件”的扰动的h,两者在弱范数下很接近,但实际差很大。
  • 关键洞察:双表示(dual formulation)[0:23:50-0:26:50]:

    • 参数θ₀可以写成线性泛函:θ₀ = E[α(X) h₀(X)] (此处α(X)=dP(Z̃|X)/dP(X) 是score)。
    • 同时也存在函数Q₀(Z),满足:E[Q₀(Z) | X] = α(X);那么θ₀也有一个与Y的期望的表示:θ₀ = E[Y Q₀(Z)]。
    • 这带来了一个对称关系:Q₀是另一个逆问题的解(从α投影到Z)。关键:若你有「源条件」使得α(X)落在算子T̂(X→Z)的“谱的高端”,那么Q₀的估计问题比H₀的“更良”(well-posed for ML rates in mean square)。
  • 解决方案[0:34:00-0:42:00]:

    • 对抗式估计(adversarial estimation):写成一个零和博弈,同时优化H与Q。
    • DR moment[0:35:35]:θ₀ = E[ α(X) h̃(X) + Q̃(Z) (Y - E[Y|Z]) ] ———这里的α是函数形式(如 α=1 针对ATE);实际工作中auto-DML用到了两次:先通过对抗式同时计算h̃与Q̃(从观测数据),然后构造DR评价量。
    • 关键条件:若H与Q的函数类有各自的critical radius,且源条件参数β(量化α(X)在T̂的逆的谱衰减有多么快)足够大,则它们的估计误差相乘不超过1/√N,从而可实现渐近正态。

D. 主线二:Many Weak IV偏差及其非参数解 [0:27:50-0:34:00, 0:44:00-0:48:50]

  • 问题呈现:当Z为许多离散的A/B实验(每个实验有有限样本n),“以平均为工具”的经典IV回归会引入严重的many weak IV bias(讲者用生动的模拟图展示)。经典的Angrist, Imbens & Krueger (1999) JIVE(Jackknife IV)通过样本分裂消除了分子分母相关性(自身一对的偏差),但会产生衰减偏误(attention bias)。

  • 线性解:讲者简略提到JIVE、LIMO等,但重点是非参数版本的NP-JIVE

  • 非参数NP-JIVE[0:32:20-0:34:00]:

    • 样本分裂:对每个离散Z的值,将实验内样本随机分为Fold 1(用于构造h的“弱范数拟合判据”),Fold 2(用于评估)。
    • 分裂后,消除了ĥ与Y向量间的短样本相关性,从而消除many weak IV bias。
    • 讲者展示了关键收敛率[0:33:45]:ĥ的弱范数误差 ≈ (√(δ_N² + δ_n²)) + λ,其中δ_N是总样本量的critical radius,δ_n是每个实验子样本的critical radius,λ是正则化参数。隐含条件:当n增长很慢(例如log K),δ_n可能大于δ_N,导致收敛变慢。
    • 离散优势[1:00:05 (讨论部分)]:离散性带来了分析的清晰度和简洁性;便于做这种 sample splitting analysis。
  • 推论:讲者将NP-JIVE与主线一的对抗估计结合,产生了可以给出置信区间的完整框架:你先通过NP-JIVE得到一个有偏的h̃与Q̃;然后利用DR moment做de-biasing,得到√N渐近正态估计量。

E. 应用案例 [0:35:00-0:37:00]

  • 真实的Netflix数据(多维短时指标:视频engagement、游戏engagement等),展示了即使每个单独指标偏差不大,但对于高维敏感问题(确定视频vs游戏的权重是2倍还是1/2),久病。该方法的一个main payoff是:恢复一个对重要短期指标权重无偏的surrogate index。

证明思路(讲者口头sketch)

  • 核心步骤
    1. DR Moment的性质:对于θ₀的plug-in估计θ̂ = (1/N) Σ[α(Xᵢ) h̃ᵢ + Q̃ᵢ (Yᵢ - ĥᵢ)],其偏差为(θ̂ - θ₀) = (1/N) Σ (h₀(Xᵢ) - h̃ᵢ) (α(Xᵢ) - Q̃(Zᵢ) ) + 一阶项(由i=1~N的独立增量主导)。
      • 这个偏差是双线性乘积形式,即B = E[(h₀ - h̃) (α - Q̃)]。
    2. 可控性论证:对于不可控的(h₀ - h̃),通常无法直接使L2 norm小;但由於α - Q̃ = (source condition)下的一个“投影”,讲者引入弱范数:用Cauchy-Schwarz得:|B| ≤ ||h₀ - h̃||weak * ||α - Q̃||strong,或对称版。
      • 如果源条件使得Q̃可以在均方范数(strong norm)下收敛(以δ_N速率),且h̃在弱范数下收敛快(以δ_n等速率),则乘积可到1/√N。
    3. NP-JIVE中,具体推导:在离散Z、每个Z中有n个观测的情况下,利用fold间的独立性,写出B的具体期望,通过Rademacher复杂度和经验过程论证,得到||ĥ - h₀||_weak的收敛率(报告中为(δ_N⁻² + δ_n⁻²)⁻¹/² + λ)。

四、对应论文与开放问题

对应论文

  • 核心论文:报告基于一系列工作,讲者提到数篇,但最核心的一篇大概是Kallus与其合作者关于「Inference on Functionals of Ill-posed Inverses via Adversarial Machine Learning」;具体标题不明。但报告中强调,这是一个序列:auto-DML → 推广到M-estimators(最近预印本)→ 推广到NPIV。报告幻灯片提到若干作者(Andrew Schauger, Massa, Whitney, Vasilis, Netflix的Aurelian, Anaporta等)。查找建议:「Kallus Ill-posed inverses auto-DML 2024」或「NP JIVE Nath Kallus」。
  • KDD论文:引用了一篇关于线性IV的KDD论文([0:32:40]),内容为在工业界线性场景下的many weak IV与JIVE、LIMO等;标题可能类似“Causal Inference with Many Weak Instruments in Online Experiments”。

开放问题(罗列,不判断可行性)

  1. 源条件的可比性与可验证性(来自讨论者的提问)[0:56:00]:报告中采用的源条件(score(X)落在T的谱中“高阶部分”)与传统数值分析中的源条件(如在ILL-posed inverses literature中普遍采用的条件)之间的关系是什么?是否针对ML场景提出了一个新参数化的条件?讲者回应称,传统文献中算子已知,而这里是未知算子(需要从条件期望中隐式学到)。——开放点:是否存在谱正则化或对比方法能在源条件未知时实现有效推断?

  2. 离散工具连续化(来自讨论者第二问)[0:57:15]:报告聚焦离散Z;当某些Z的值特别少(例如某项A/B仅100人,另一项10000人),离散建模会损失“大实验”的信息。是否存在一种“聚类/平滑”方法,在不破坏样本分裂论证的前提下利用实验间的相似性?讲者对此表示感兴趣并承诺思考。——开放点:能否建立一种能在连续工具或semiparametric Z的分布下(例如取值为连续变化量)也得到类似速率(同时控制N和n的critical radius)的理论?这可能需要对经验过程理论做更fine-grained的处理。

  3. shortcut:双劣情形。报告假设H或Q中至少一个逆问题是良定的。若两个都失效(score(X)在谱的深层,且Q的估计速率慢;同时H的弱范数也慢)——转写中未找到明确讨论。这是否意味着存在一个不依赖于源条件的信息论下界?——这是与你「统计计算tradeoff」兴趣高度契合的点:NPIV中的泛函推断是否在某些source condition下存在“计算-统计的gap”?


Maintained by 陈星宇 · Homepage · Source on GitHub

评论