Learning Surrogate Indices from Historical A/Bs: Adversarial ML for Debiased Inference on Functionals of Ill-Posed Inverses¶

讲者: Nathan Kallus
讨论人: Rahul Singh
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-04-08
主题: 因果推断
视频: https://youtu.be/Os1jikCZTvg · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

这条工作线在追问什么 在实验平台（如 Netflix）上，审慎的业务决策需要长期因果效应（long-term treatment effect），例如用户3个月后的留存率。但长周期实验耗时且信噪比低。如果能找到一组短期指标（short-term surrogates, X）——例如头14天的各种engagement指标——和一个组合它们的函数（surrogate index, h₀），使得在新实验（新 treatment Z̃）中，平均短期指标指数等于平均长期结果，那就可以快速决策。核心问题：

如何从历史A/B实验数据中学习这个surrogate index h₀？
当短期指标与长期结果之间存在未观测混杂时，如何保证 h₀ 的因果有效性？
既然 h₀ 的估计是一个 ill-posed inverse problem（NPIV），如何在不对 h₀ 本身作强假设的条件下，对它的线性泛函（如新实验的ATE）做有效推断？

方向定位与奠基工作

基础框架：代理指标（Surrogate Index）与混淆问题：Athey et al. (2019) Surrogate Index 和前述的 Athey et al. (不记得确切年份)。报告中用「missing surrogate index」对比了简单回归（statistical surrogacy，要求Y独立于Z给定X，极易被未观测混杂打破）和基于IV的因果方法。这条线的经典困惑是图中点的偏差：在混杂下，简单回归线斜率与真正的因果斜率可能正负相反。
方法基石：auto-Double Machine Learning (auto-DML)：
- Chernozhukov et al. (2018) Double/Debiased Machine Learning for Treatment and Structural Parameters（基石）。其核心是Riesz representation：若因果参数 θ₀ = E[α(X) h₀(X)] 是 h₀ 的线性泛函（其中 α(X) 是已知的score函数，如平均导数的权重），则存在Riesz representer q₀(X) 使得 θ₀ = E[Y q₀(X)] + E[α(X) h₀(X) - q₀(X) h₀(X)]（doubly robust moment）。
- 近期泛化：Rahul Singh（本报告的讨论者）与作者合作的 Auto-DML: A General Framework for Inference on Functionals of Conditional Expectations。本报告将这一框架从「函数类为条件期望」推广到「函数类为 ill-posed inverse problem 的解」。
当前 frontier：Ill-posed inverse problem 中的函数估计及其泛函推断。经典NPIV（Nonparametric IV）估计需要源条件（source condition）来保证 h₀ 的可学习性（如 Blundell, Chen, and Kristensen 2007; 以及 Che, Hoderlein, 与 Su 等人的众多工作）。但传统源条件适用于最大化收敛速度，而非泛函推断。本报告和对应的论文所做的是：首次给出用于泛函推断的源条件，并证明它等价于 Q₀ 的可学习性。

这场报告的站位

统一了两种来源不同的挑战：（1）挑战一：在逆问题中，直接学习 h₀ 是病态的（ill-posed），但你不需要 h₀ 本身，只需要它的一个线性泛函。为此，需要学习逆问题的另一侧函数 Q₀。该报告提出了源条件，并证明在该条件下，Q₀ 在均方范数下可获得与简单回归相同的ML学习率（而非只能在弱范数下学习）。（2）挑战二：当工具变量是许多（大量历史A/B实验）、弱（每个实验样本量有限）时，出现many weak IV bias，典型的线性估计（2SLS）会发生严重的偏离。该报告给出了非参数版本的JIVE（split-sample IV），并为离散工具变量情形导出了具体的收敛率。
创新点：将auto-DML的「双表示+双抵抗性」思想完整移植到 NPIV 框架下，并提供了ML 类（如神经网、RKHS）的通用收敛条件（依赖 critical radius 和 β）。其「双表示」展示了一种对称性：H 与 Q 各是对方逆问题的解，给推断带来了容错空间（至少一个逆问题nice即可）。

二、最小内核 / 一个最简例子¶

符号与模型

可观测数据：{ (Yᵢ, Xᵢ, Zᵢ) }ᵢ=1ᴺ，独立同分布。
- Y：长时结果（如3个月的留存指示变量）。
- X：短时指标（组向量，如14天内各种engagement数值）。
- Z：工具变量——历史A/B实验的分配指标（如具体哪个实验，版本号；报告聚焦于离散工具，对应每个A/B实验）。
因果模型：Y = h₀(X) + U，其中 E[U | Z] = 0 是识别条件（实验随机分配Z，Z与所有混杂无关，但可能直接影响X，并且一个变量U同时影响X和Y，从而导致X与Y在给定Z后仍存在混杂）。
estimand：
- 目标参数（surrogate index的核心）：在新实验 Z̃ 下，想推断 θ₀ = E[Y(Z̃)] ——即新treatment下成员的平均长期结果。
- 由于 Y(Z̃) 潜在不可观测，但 X(Z̃) = X(under Z̃) 可观测（Z̃是新的A/B），并且我们假设条件独立性（给定X，Z对Y没有直接效应，即无直接效应假设；实际中允许直接效应，但需要IV方法调整）。这里简化为无直接效应，则：
- 由 Z̃ 随机化给；θ₀ = E[Y | Z = Z̃] = E[E[Y | X, Z] | Z = Z̃] = E[ h₀(X) | Z = Z̃ ] 。所以 θ₀ = E[ h₀(X) | Z = Z̃ ] ——是 h₀ 在分布 P(X | Z = Z̃) 下的线性泛函。
关键逆问题：h₀ 满足 E[Y | Z] = E[ h₀(X) | Z ]（即 E[Y|Z] = T h₀，T为算子： (T f)(z) = E[ f(X) | Z=z]）。求解 h₀ 是 NPIV。
对偶表示：等价地，存在 Q₀(Z) 使得 θ₀ = E[Y Q₀(Z)]，且 Q₀ 满足另一个逆问题：E[ Q₀(Z) | X ] = score(X)，其中 score(X) 是分布 P(X|Z=Z̃) 相对于 P(X) 的密度比率（或一般线性泛函的Riesz representer α(X)）。这是报告的关键：目标参数可以通过Q₀与Y的协方差来估计，而 Q₀ 是「将score(X) 从 X 投影回 Z」这一逆问题的解。
不可观测量：U（因混杂产生）、给定时X与Z后的 Y 的完整条件分布、score(X)（但report通过auto-DML动态规避了其直接估计）。

最简特例 (d=1, binary Z, binary Z̃)

X是单个短时指标（如“7天内访问次数”，连续）；Z是历史实验标识（二进制，仅两个历史实验：对照z=0、旧版z=1）；Y是二值“3个月后是否留存”。
你的历史数据来自两个独立的A/B测试。例如，z=0平均X=5，z=1平均X=8，相应地平均Y分别为0.12与0.10（注意到在正式开始实验观测到Y前，Y不可观测；实际中早期决策只能看到短时X）。历史数据显示，X与Y正相关（r=0.3，可能是混杂引起的），但这两点的连线呈现负相关：平均Y随z=1下降。
新实验 Z̃：你想测试新版界面，暂未观察到Y，但你可观测新实验中的X（例如新组平均X=9）。若直接用历史回归（Y|X），你会预测θ₀很大（因为X正相关Y大）。但IV方法可以给出正确θ₀。

最简核心直觉（不使用IV时的错误与IV时的正确）：简单回归 ĥ(X) = Ê[Y | X] 在混杂下是偏的。但报告提出的IV方法（记作ĥ_IV）： 1. 找出满足 Ê[Y | Z] = Ê[ h(X) | Z ] 的h（即h的历史组均值匹配Y的历史组均值）。因为仅两个历史组，方程有两个数据点，解不唯一（ill-posed）。所以无法直接学习h。 2. 但你可以学习对偶函数Q：要求 Ê[Q(Z) | X] = score(X) (此处score(X) = dP(X|Z̃)/dP(X) )。在离散Z情形（Z只有两个值），Q(Z)退化为两个参数(q₀, q₁)。未知的score(X)是X的某个函数，这里需要源条件来使Q(Z)存在且可学习。 3. 报告的核心是：你若有一个足够的源条件（使得score(X)落在T̂的像的“顶部”），那么你可以用ML（最小化某个IV判据）以均方速率学习q̂(Z)，从而得到θ̂ = (1/N) ΣYᵢ q̂(Zᵢ)（一个plug-in估计），再通过DML的cross-fitting得到渐近正态的置信区间。

三、报告主体：讲者讲了什么¶

A. 问题引入与实际背景 [0:03:00-0:05:30]

动机：数字平台需要快速实验，但真正关心的长期指标（如3个月留存）观察周期太长。讲者给出了最简单的情形：用一个短时指标（14天engagement）预测长时结果。提出「surrogate index」H₀，其均值等于长期ATE。
例子：Netflix的实验，测试菜单栏位置 → 观测短期指标如观看时长、种类等 → 希望预测3个月后是否会取消订阅。
核心难题：
1. 简单回归（predict Y from X）会受未观测混杂的严重扭曲。讲者举了一个详细例子：用“空闲时间”作为混杂，虽然总体正相关，但因果效应可能是负的（因为推送给太忙的人会导致流失）。[0:15:50]
2. Kallus 的「泄漏vs.因果」图示：当存在混杂时，从未观测的U到X，从U到Y的隐式连接，导致回归线真实斜率与因果斜率可能完全相反。

B. 方法与理论框架：auto-DML回顾 [0:10:40-0:14:00]

回顾：在无IV的情形（即X=Z或相关），auto-DML提供了一套通用的推断方案：
- 目标参数θ₀ = E[α(X)h₀(X)]，h₀ = E[Y|X]。
- 存在Riesz representer q₀(X)，使得θ₀ = E[Y q₀(X)]。
- 可通过最小化q的某个损失函数（类似最小二乘）来学习q̂，证明其收敛率取决于函数类的critical radius δₙ。
- 最终的DR moment：θ₀ = E[α(X) ĥ(X) + q̂(X)(Y - ĥ(X))] （经cross-fitting后，只要δₙ²=o(1/√N)）。
扩充：讲者提到最近的工作（arXiv posted a few weeks ago）将auto-DML从线性泛函推广到更广义M估计（如分位数），但阐明本次基本盘是线性泛函。[0:13:28]

C. 主线一：Ill-posed逆问题中的泛函推断 [0:21:30-0:42:00]

挑战一正式定义[0:21:30]：
- h₀ 通过 NPIV 方程 E[Y|Z] = E[h₀(X)|Z] 定义。
- 你希望的是θ₀ = E[h₀(X) | Z̃]。
- 害处：h₀ 的估计是ill-posed的——你无法用离差的弱范数（project into Z then square）来控制真正的h₀误差。[0:22:30-0:23:50] 讲者展示了一个生动的图：平滑的函数H₀ vs. “几乎满足条件”的扰动的h，两者在弱范数下很接近，但实际差很大。
关键洞察：双表示（dual formulation）[0:23:50-0:26:50]：
- 参数θ₀可以写成线性泛函：θ₀ = E[α(X) h₀(X)] （此处α(X)=dP(Z̃|X)/dP(X) 是score）。
- 同时也存在函数Q₀(Z)，满足：E[Q₀(Z) | X] = α(X)；那么θ₀也有一个与Y的期望的表示：θ₀ = E[Y Q₀(Z)]。
- 这带来了一个对称关系：Q₀是另一个逆问题的解（从α投影到Z）。关键：若你有「源条件」使得α(X)落在算子T̂（X→Z）的“谱的高端”，那么Q₀的估计问题比H₀的“更良”（well-posed for ML rates in mean square）。
解决方案[0:34:00-0:42:00]：
- 对抗式估计（adversarial estimation）：写成一个零和博弈，同时优化H与Q。
- DR moment[0:35:35]：θ₀ = E[ α(X) h̃(X) + Q̃(Z) (Y - E[Y|Z]) ] ———这里的α是函数形式（如 α=1 针对ATE）；实际工作中auto-DML用到了两次：先通过对抗式同时计算h̃与Q̃（从观测数据），然后构造DR评价量。
- 关键条件：若H与Q的函数类有各自的critical radius，且源条件参数β（量化α(X)在T̂的逆的谱衰减有多么快）足够大，则它们的估计误差相乘不超过1/√N，从而可实现渐近正态。

D. 主线二：Many Weak IV偏差及其非参数解 [0:27:50-0:34:00, 0:44:00-0:48:50]

问题呈现：当Z为许多离散的A/B实验（每个实验有有限样本n），“以平均为工具”的经典IV回归会引入严重的many weak IV bias（讲者用生动的模拟图展示）。经典的Angrist, Imbens & Krueger (1999) JIVE（Jackknife IV）通过样本分裂消除了分子分母相关性（自身一对的偏差），但会产生衰减偏误（attention bias）。
线性解：讲者简略提到JIVE、LIMO等，但重点是非参数版本的NP-JIVE。
非参数NP-JIVE[0:32:20-0:34:00]：
- 样本分裂：对每个离散Z的值，将实验内样本随机分为Fold 1（用于构造h的“弱范数拟合判据”），Fold 2（用于评估）。
- 分裂后，消除了ĥ与Y向量间的短样本相关性，从而消除many weak IV bias。
- 讲者展示了关键收敛率[0:33:45]：ĥ的弱范数误差 ≈ (√(δ_N² + δ_n²)) + λ，其中δ_N是总样本量的critical radius，δ_n是每个实验子样本的critical radius，λ是正则化参数。隐含条件：当n增长很慢（例如log K），δ_n可能大于δ_N，导致收敛变慢。
- 离散优势[1:00:05 (讨论部分)]：离散性带来了分析的清晰度和简洁性；便于做这种 sample splitting analysis。
推论：讲者将NP-JIVE与主线一的对抗估计结合，产生了可以给出置信区间的完整框架：你先通过NP-JIVE得到一个有偏的h̃与Q̃；然后利用DR moment做de-biasing，得到√N渐近正态估计量。

E. 应用案例 [0:35:00-0:37:00]

真实的Netflix数据（多维短时指标：视频engagement、游戏engagement等），展示了即使每个单独指标偏差不大，但对于高维敏感问题（确定视频vs游戏的权重是2倍还是1/2），久病。该方法的一个main payoff是：恢复一个对重要短期指标权重无偏的surrogate index。

证明思路（讲者口头sketch）

核心步骤：
1. DR Moment的性质：对于θ₀的plug-in估计θ̂ = (1/N) Σ[α(Xᵢ) h̃ᵢ + Q̃ᵢ (Yᵢ - ĥᵢ)]，其偏差为(θ̂ - θ₀) = (1/N) Σ (h₀(Xᵢ) - h̃ᵢ) (α(Xᵢ) - Q̃(Zᵢ) ) + 一阶项（由i=1~N的独立增量主导）。
  - 这个偏差是双线性乘积形式，即B = E[(h₀ - h̃) (α - Q̃)]。
2. 可控性论证：对于不可控的（h₀ - h̃），通常无法直接使L2 norm小；但由於α - Q̃ = (source condition)下的一个“投影”，讲者引入弱范数：用Cauchy-Schwarz得：|B| ≤ ||h₀ - h̃||weak * ||α - Q̃||strong，或对称版。
  - 如果源条件使得Q̃可以在均方范数（strong norm）下收敛（以δ_N速率），且h̃在弱范数下收敛快（以δ_n等速率），则乘积可到1/√N。
3. NP-JIVE中，具体推导：在离散Z、每个Z中有n个观测的情况下，利用fold间的独立性，写出B的具体期望，通过Rademacher复杂度和经验过程论证，得到||ĥ - h₀||_weak的收敛率（报告中为(δ_N⁻² + δ_n⁻²)⁻¹/² + λ）。

四、对应论文与开放问题¶

对应论文

核心论文：报告基于一系列工作，讲者提到数篇，但最核心的一篇大概是Kallus与其合作者关于「Inference on Functionals of Ill-posed Inverses via Adversarial Machine Learning」；具体标题不明。但报告中强调，这是一个序列：auto-DML → 推广到M-estimators（最近预印本）→ 推广到NPIV。报告幻灯片提到若干作者（Andrew Schauger, Massa, Whitney, Vasilis, Netflix的Aurelian, Anaporta等）。查找建议：「Kallus Ill-posed inverses auto-DML 2024」或「NP JIVE Nath Kallus」。
KDD论文：引用了一篇关于线性IV的KDD论文（[0:32:40]），内容为在工业界线性场景下的many weak IV与JIVE、LIMO等；标题可能类似“Causal Inference with Many Weak Instruments in Online Experiments”。

开放问题（罗列，不判断可行性）

源条件的可比性与可验证性（来自讨论者的提问）[0:56:00]：报告中采用的源条件（score(X)落在T的谱中“高阶部分”）与传统数值分析中的源条件（如在ILL-posed inverses literature中普遍采用的条件）之间的关系是什么？是否针对ML场景提出了一个新参数化的条件？讲者回应称，传统文献中算子已知，而这里是未知算子（需要从条件期望中隐式学到）。——开放点：是否存在谱正则化或对比方法能在源条件未知时实现有效推断？
离散工具连续化（来自讨论者第二问）[0:57:15]：报告聚焦离散Z；当某些Z的值特别少（例如某项A/B仅100人，另一项10000人），离散建模会损失“大实验”的信息。是否存在一种“聚类/平滑”方法，在不破坏样本分裂论证的前提下利用实验间的相似性？讲者对此表示感兴趣并承诺思考。——开放点：能否建立一种能在连续工具或semiparametric Z的分布下（例如取值为连续变化量）也得到类似速率（同时控制N和n的critical radius）的理论？这可能需要对经验过程理论做更fine-grained的处理。
shortcut：双劣情形。报告假设H或Q中至少一个逆问题是良定的。若两个都失效（score(X)在谱的深层，且Q的估计速率慢；同时H的弱范数也慢）——转写中未找到明确讨论。这是否意味着存在一个不依赖于源条件的信息论下界？——这是与你「统计计算tradeoff」兴趣高度契合的点：NPIV中的泛函推断是否在某些source condition下存在“计算-统计的gap”？

Maintained by 陈星宇 · Homepage · Source on GitHub

Learning Surrogate Indices from Historical A/Bs: Adversarial ML for Debiased Inference on Functionals of Ill-Posed Inverses¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论