Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference¶
作者: Joel Persson, M{\aa}rten Schultzberg, Sebastian Ankargren
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.17165
一、领域脉络与小综述¶
这个方向是什么:本方向研究在实验评估中,当目标结局(如人类真实行为)难以观测或观测成本极高时,能否以及如何用替代结局(surrogate endpoint,此处为大型语言模型 LLM 的输出)来有效恢复目标结局上的平均处理效应(ATE)。其根本统计问题是:替代结局与目标结局之间的条件独立性(surrogacy)与跨样本分布稳定性(comparability)在何种条件下足以保证因果识别,以及当条件破损时如何量化偏误。当前该子方向处于“框架初建、诊断工具刚提出、实证验证刚起步”的阶段。
发展脉络: - 奠基工作:Prentice (1989) [24] 提出了临床试验中替代结局的正式定义与操作性标准(条件独立性 \(Y \perp W | X, Y^*\)),为后续所有替代结局理论划定了起点。 - 主要进展(替代结局与短期代理):Athey, Chetty, Imbens & Kang (2019/2025) [4, 5] 提出 surrogate index,将多个短期代理组合以估计长期效应;Athey, Chetty & Imbens (2025) [3] 与 Kallus & Mao (2020) [18] 进一步探讨了在有限目标结局数据下,代理变量如何提升估计效率与纠正选择偏误。这些工作将替代结局从“单变量条件独立”推向了“多代理组合与半参数效率”。 - 当前 frontier(LLM 作为人类代理的因果推断):近一两年涌现出将 LLM 视为人类被试替代品的工作,但大多停留在预测层面或工程演示。Hewitt et al. (2024) [15] 与 Manning & Horton (2025) [19] 展示 LLM 能预测社会科学实验结果;Hansen et al. (2024) [14] 与 Suh et al. (2025) [26] 表明 LLM 能模拟专业预测者与公众意见分布。然而,从预测走向因果识别时,瓶颈出现:Gao et al. (2025) [12] 指出 LLM 无法复现人类选择的经验分布;Gui & Toubia (2023) [13] 从因果视角揭示了 LLM 实验中的混杂(隐瞒处理导致遗漏通道,揭示处理导致过度反应);Egami et al. (2023) [9] 提出了用不完美 LLM 标注结合小样本人类标签的框架。Wang et al. (2025) [28] 的 AgentA/B 展示了 LLM 代理 A/B 测试的工程可行性,但明确承认 LLM 与人类在探索行为上存在系统性差异,且未给出统计识别条件。 - 本文的位置:本文是首个将经典替代结局理论系统适配至 LLM 实验场景的工作。它不追求 LLM 与人类的分布等价([12, 13] 暗示这不可行),而是退一步问:在更弱的替代与可比性条件下,LLM 输出能否识别人类 ATE?若不能,偏误有多大?同时,它将 LLM 的随机性(temperature 采样)从“工程麻烦”重构为“统计设计变量”(多次抽样取平均可缓解衰减偏误与方差膨胀)。
子线索聚类: 1. LLM 预测对齐:致力于让 LLM 输出在分布或期望上逼近人类([14, 15, 19, 26, 31])。此线索假设 LLM 可以“模仿”人类,但 [12] 证伪了其在简单博弈中的分布等价性。 2. LLM 因果推断的混杂与偏误:关注 LLM 实验中特有的因果陷阱([9, 12, 13])。此线索指出 LLM 实验不是标准随机实验,存在盲法混杂与刻板响应偏误。 3. 经典替代结局与短期代理理论:在标准潜在结果框架下,用短期/可观测代理替代长期/昂贵结局的识别与估计理论([3, 4, 5, 18, 24])。此线索提供了成熟的条件独立与校准映射工具,但未考虑代理变量本身是随机生成器输出、且实验者可控制其随机性的情况。
这个方向在追问的核心问题: 1. 识别条件:替代结局需要承载多少关于处理效应的信息,才能在无需目标结局的情况下点识别 ATE?(当前主流:Prentice 准则或其均值独立弱化版;瓶颈:如何验证该条件对新干预成立)。 2. 跨样本稳定性:在历史数据上学到的“代理-目标”校准函数,能否直接搬运到新干预的 LLM 生成数据上?(当前主流:假设分布稳定性;瓶颈:支持集重叠不足时的外推偏误)。 3. 随机代理的估计后果:当替代结局本身是随机变量的单次实现时,测量误差如何扭曲校准估计?(当前主流:经典测量误差理论;瓶颈:如何利用实验者对随机性生成过程的控制权来纠偏)。
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“LLM 实验缺乏统计根基”,并将自己的工作定位为“首次将替代结局理论适配至 LLM,揭示 LLM 随机性可被设计利用,且核心假设只能被证伪不能被验证”。这使得“提出证伪诊断与偏误界”成为“显然的下一步”。 - 被淡化或回避的路线:作者淡化了“直接对 LLM 做分布校准或微调使其逼近人类分布”的路线([26, 31]),认为这过于敏感且难以跨场景泛化,转而主张“均值校准+替代假设”。同时,作者回避了半参数效率理论:在拥有小样本人类数据与大量 LLM 数据时,如何构造达到半参数效率界的估计量([18] 探讨了此问题,本文未涉及)。 - 明显该被引却未出现的:Proximal Causal Inference (负对照框架)。本文的 Surrogacy 条件(\(Y \perp W | X, Y^*\))与 Proximal CI 中的负对照条件(\(Y \perp Z | X, U\),其中 \(Z\) 为负对照处理)在结构上高度对称,且本文的校准函数 \(\mu\) 与 Proximal 的桥函数在数学形式上同构。Miao, Tchetgen, Geng 等人的系列工作未在 intro 出现,这是一个值得研究者去查的缺口——作者是否刻意回避了与 Proximal CI 的对话,以保持“替代结局”叙事的纯粹性?
张力:未见明显对立引用。文献间的张力更多是“互补与递进”:[12, 13] 证伪了分布等价,[9] 提出了不完美标注的推断框架,本文则用 [24] 的替代理论将 [9] 的思想形式化并推向 ATE 识别。没有两篇工作在相同设定下得出相反结论。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / Estimand:\(\tau \equiv E[Y(1) - Y(0)]\),人类群体上的平均处理效应(ATE)。
- 随机变量 / 样本:
- \(W \in \{0, 1\}\):处理分配(二值)。
- \(X\):预处理协变量。
- \(Y\):人类真实结局(潜在结果 \(Y(w)\))。
- \(Y^*\):LLM 生成的替代结局,为随机变量,分布为 \(Y^* | (W, X) \sim F(\cdot | W, X)\)。
- \(P \in \{0, 1\}\):样本指示器。\(P=0\) 为实验样本(人类数据,观测 \((W, X, Y^*, Y)\));\(P=1\) 为人工样本(LLM 数据,仅观测 \((W, X, Y^*)\))。
- \(Y^*_1, \dots, Y^*_K\):对同一 \((W, X)\) 的 \(K\) 次独立 LLM 抽样(replication count 为 \(K\))。
- \(\bar{Y}^*_K\):\(K\) 次抽样的算术平均。
- 维数 / 指标:\(n_0, n_1\) 分别为实验样本与人工样本量;\(K\) 为抽样次数;\(B\) 为结局绝对值上界。
- 潜在 / 不可观测量:\(\theta(W, X) \equiv E[Y^* | W, X]\)(LLM 替代结局的潜在条件均值,单次抽样时不可见,仅可通过多次抽样逼近);\(\varepsilon \equiv Y^* - \theta(W, X)\)(LLM 采样噪声)。
- 模型:数据生成机制为——对 \(P=0\),从人类分布中抽样 \((W, X, Y)\),并固定 \((M, I, D)\) 从 LLM 抽样 \(Y^*\);对 \(P=1\),从相同 \(X\) 分布抽样,赋值 \(W\),从 LLM 抽样 \(Y^*\)。处理分配 \(W\) 在两个样本中均独立随机化。LLM 生成过程满足 SUTVA(无干涉)。
- 可观测数据:研究者实际能观测到的是 \(P=0\) 样本中的 \((W, X, Y^*, Y)\) 四元组,以及 \(P=1\) 样本中的 \((W, X, Y^*)\) 三元组。想要但观测不到的是 \(P=1\) 样本中的人类结局 \(Y\),只能靠替代假设与校准函数去识别。
第二步:讲最小内核
整篇论文的证明与方法本质上是线性校准+经典测量误差这一特例的推广。在此特例下,识别、偏误与纠偏机制一目了然。
最简特例:线性校准、同方差噪声、单次与多次抽样 假设校准函数为线性:\(E[Y | X, \theta(W, X)] = \alpha_0 + \phi_0' X + \beta_0 \theta(W, X)\)。 LLM 噪声同方差:\(\sigma^2_\varepsilon(W, X) \equiv \sigma^2_\varepsilon\),且 \(\varepsilon \perp Y | W, X\)。 研究者用 OLS 在 \(P=0\) 样本上将 \(Y\) 回归到 \((X, Y^*)\),得到 \(\hat{\mu}(x, y^*) = \hat{\alpha} + \hat{\phi}' x + \hat{\beta} y^*\)。
- 识别(Theorem 3.1 的内核):若 Surrogacy 成立(\(Y \perp W | X, Y^*\)),则 \(E[Y(w) | X] = E[\mu(X, Y^*) | X, W=w]\)。若 Comparability 成立(\(\mu\) 跨 \(P\) 不变),则在 \(P=1\) 中对 \(\mu(X, Y^*)\) 按 \(W\) 求期望差,即恢复 \(\tau\)。在线性情形下,这退化为:\(\tau = \beta_0 (E[\theta | W=1] - E[\theta | W=0])\)。
- 偏误(Proposition 3 的内核):由于 \(Y^* = \theta + \varepsilon\) 且 \(\varepsilon\) 与 \(X, \theta, Y\) 均不相关,这是标准的经典测量误差问题。OLS 回归系数 \(\hat{\beta}\) 依概率收敛到 \(\beta_0\) 乘以信噪比(可靠性比率):
\[R \equiv \frac{\text{Var}(\theta | X)}{\text{Var}(\theta | X) + \sigma^2_\varepsilon} < 1\]因此,校准 ATE 估计量 \(\hat{\tau}_{\text{cal}}\) 收敛到 \(R \tau\),发生衰减偏误。
- 纠偏(Proposition 1, 2, 3 的内核):若对同一 \((W, X)\) 抽样 \(K\) 次,取 \(\bar{Y}^*_K\),则噪声方差缩至 \(\sigma^2_\varepsilon / K\)。用 \(\bar{Y}^*_K\) 替代 \(Y^*\) 重做 OLS,可靠性比率变为 \(R_K = \frac{\text{Var}(\theta | X)}{\text{Var}(\theta | X) + \sigma^2_\varepsilon / K} \to 1\)。当 \(K \to \infty\),\(\bar{Y}^*_K \to \theta\) a.s.,衰减偏误消失,且若 \(Y \perp W | X, \theta\) 成立,Surrogacy 在极限下恢复。
核心数学困难:在非线性 \(\mu\) 或异方差 \(\varepsilon\) 下,单次抽样造成的偏误不再是简单的系数衰减,而是回归函数的“过度平滑化”(向边际均值收缩,见 Remark 2 与 [7, 10]),且多次抽样的极限恢复需要更精细的条件(\(\varepsilon \perp Y | W, X\))。本文的关键想法是:将 LLM 的随机性从“误差”重构为“可设计的重复测量”,利用实验者对生成过程的控制权,通过 \(K\) 次抽样将测量误差问题转化为可逼近潜在均值的渐进无偏问题。
三、这篇论文做了什么¶
三句话:①研究了 LLM 输出作为替代结局时,何时能识别人类 ATE;②核心工具是替代结局理论(Surrogacy + Comparability)结合经典测量误差纠偏(多次抽样平均);③主要结论是:在较弱替代与可比性条件下 ATE 可点识别,但 LLM 随机性引入衰减偏误与方差膨胀,可通过 \(K\) 次抽样缓解;核心假设只能被历史数据证伪、无法对新干预验证,故人类实验不可替代。
关键设定与假设: - Assumption 1 (Surrogacy, Prentice 准则):\(Y \perp W | X, Y^*\)。统计含义:替代结局 \(Y^*\) 与协变量 \(X\) 完全中介了处理 \(W\) 对人类结局 \(Y\) 的效应。相比经典文献 [24],本文将其适配至 LLM 场景,并指出若仅关心 ATE,可弱化为均值独立 \(E[Y | W, X, Y^*] = E[Y | X, Y^*]\) [3]。 - Assumption 2 (Comparability):\(Y \perp P | X, Y^*\) 且支持集重叠。统计含义:校准函数 \(\mu(x, y^*) = E[Y | X=x, Y^*=y^*, P=0]\) 在 \(P=1\) 样本中不变。这等价于要求 LLM 与人类在 \((X, Y^*)\) 到 \(Y\) 的映射上跨样本稳定,且无外推。 - Assumption 3 (Bounded outcomes):\(|Y| \le B\) a.s.。统计含义:为偏误界提供截断,是 Manski 部分识别框架的标准要求 [20]。 - 多抽样设定:\(Y^*_k | (W, X) \overset{iid}{\sim} F(\cdot | W, X)\),且 \(\varepsilon \perp Y | W, X\)。统计含义:LLM 噪声与人类潜在结果条件独立,保证了多次抽样平均能逼近不含人类结局信息的纯噪声项,从而在极限下恢复对 \(\theta\) 的识别。
主要结果: 1. Theorem 3.1 (Identification under surrogate transport):在 Assumptions 1-2 下,\(\tau = E[\mu(X, Y^*) | P=1, W=1] - E[\mu(X, Y^*) | P=1, W=0]\)。直觉:Surrogacy 保证了 \(Y^*\) 承载了所有处理信息,Comparability 保证了校准函数可跨样本搬运。必要条件:支持集重叠。技术难点:无,这是迭代期望的直接推论。 2. Proposition 3 (Attenuation from a noisy surrogate):在线性校准+同方差噪声下,单次抽样的校准 ATE 依概率收敛到 \(R \tau\)(\(R < 1\) 为可靠性比率),发生衰减偏误;\(K\) 次抽样平均后 \(R_K \to 1\),偏误消失。直觉:经典测量误差的可靠性比率衰减。必要条件:线性模型、\(\varepsilon \perp Y | W, X\)。技术难点:将 LLM 采样噪声 \(\varepsilon\) 识别为与 \(X, \theta, (Y - E[Y|X,\theta])\) 均不相关的经典测量误差。 3. Proposition 4 (Sensitivity bound):在 Assumption 3 下,若 Comparability 的重叠条件破损,校准 ATE 与真实 ATE 的最大偏差为 \(|\Delta_1 - \Delta_0| \le 2B(\text{TV}_0 + \text{TV}_1)\),其中 \(\text{TV}_w\) 是 \(P=0\) 与 \(P=1\) 在 \((X, Y^*)\) 分布上的 arm-specific 总变差距离。直觉:分布漂移越严重(TV 越大),校准函数外推的最坏偏误越大,界线性增长。必要条件:结局有界。技术难点:利用有界性将期望差转化为密度差积分,再用 TV 距离的等价定义放缩。此界对有界函数类是紧的。
证明路线与技术技巧: - 整体路线: 1. 设定与分解:将 LLM 输出分解为潜在均值 \(\theta(W,X)\) 与噪声 \(\varepsilon\),建立测量误差结构。 2. 识别:用迭代期望证明在 Surrogacy + Comparability 下,对校准函数 \(\mu\) 在人工样本中求组间期望差即可恢复 \(\tau\) (Theorem 3.1)。 3. 估计偏误分析:在线性设定下,证明单次抽样导致 OLS 系数衰减至 \(R\),进而 ATE 衰减至 \(R\tau\) (Proposition 3)。 4. 纠偏设计:证明 \(K\) 次抽样平均使噪声方差缩至 \(1/K\),可靠性比率 \(R_K \to 1\),且在极限下 \(\bar{Y}^*_K \to \theta\) a.s.,恢复 Surrogacy (Propositions 1, 2)。 5. 诊断与敏感性:构造矩条件检验证伪 Surrogacy (Section 5.1);构造基于 TV 距离的最坏偏误界量化 Comparability 破损后果 (Proposition 4)。 - 关键跳跃点:Proposition 3 中将 LLM 采样噪声 \(\varepsilon\) 论证为经典测量误差(与回归方程误差、协变量、潜在均值均不相关)是关键跳跃。这依赖于 \(\varepsilon \perp Y | W, X\) 这一强条件,它切断了 LLM 随机性与人类异质性之间的关联,使得 OLS 衰减具有闭式解。 - 技术技巧点名: - 迭代期望:用于 Theorem 3.1 证明,将 \(E[Y(w)|X]\) 转化为 \(E[\mu(X, Y^*)|X, W=w]\)。 - 经典测量误差理论 / 可靠性比率:用于 Proposition 3,直接调用 Fuller (1987) [11] 的标准结果。 - 强大量定律:用于 Proposition 1,证明 \(\bar{Y}^*_K \to \theta\) a.s.。 - 总变差距离 / Weitzman 重叠系数:用于 Proposition 4,将分布漂移量化为 TV 距离,并利用 Tsybakov (2009) [27] 的 TV 等价定义放缩积分。 - Lindeberg-Lévy CLT:用于 Section 5.1 的证伪检验,证明残差均值渐近正态。
真实例子与应用: - 用的什么数据 / 场景:Upworthy Research Archive [21],包含 2013-2015 年间 32,487 个标题 A/B 测试。筛选出 417 个“是否为疑问句”标题对比的测试,人类结局 \(Y\) 为点击率(CTR),处理 \(W\) 为疑问句指示。 - 怎么把本文方法用上去:用 gpt-4o-mini (temperature=0.7) 对每个标题生成 \(K=10\) 次 CTR 预测作为 \(Y^*\),协变量 \(X\) 为标题长度、日历周、变体数。在 \(P=0\)(人类数据)上用 OLS / RF / GBT 估计校准函数 \(\hat{\mu}\),通过 5-fold cross-fitting 避免过拟合,然后在 \(P=1\)(LLM 数据)上计算校准 ATE。 - 得到什么结果:人类真实 ATE 为 \(-0.00116\)(疑问句降低点击率)。Raw LLM ATE 为 \(-0.00045\)(衰减至约 40%)。OLS 校准 ATE 为 \(-0.00056\)(仍显著衰减,\(t=2.3\))。RF 与 GBT 校准 ATE 分别为 \(-0.00079\) 与 \(-0.00072\),与人类 ATE 差异在统计误差内(\(t<1.5\))。随着 \(K\) 从 1 增至 10,校准 ATE 逐步去衰减,逼近人类 ATE,验证了 Proposition 1 与 3。 - 这个例子想说明什么:验证理论预测——LLM 原始输出存在严重衰减偏误,非线性校准+多次抽样平均可有效去衰减并恢复人类 ATE;同时,证伪检验拒绝了 OLS 校准的 Surrogacy 矩条件,但未拒绝 RF/GBT 的,说明模型误设会导致 Surrogacy 在实证中破损。
🔎 结论是否比证明窄: - Proposition 3 的衰减偏误闭式解严格限制在线性校准+同方差噪声+条件独立噪声下,但作者在 Remark 2 与正文中泛泛 claim “非线性 \(\hat{\mu}\) 下衰减表现为过度平滑化,\(K\)-平均仍适用”,引用了 Carroll et al. (2006) [7] 与 Fan & Truong (1993) [10],但未给出非线性下的任何定理或形式化界。这是一个典型的“条件 X 下严格证明,却被泛泛 claim 为一般成立”的缺口。 - Proposition 4 的偏误界 \(2B(\text{TV}_0 + \text{TV}_1)\) 对有界函数类是紧的,但作者承认对平滑 \(\mu\) 极度保守(实证中实际偏误比界小 4 个数量级),并泛泛提及“可用 Wasserstein 距离+Lipschitz 常数给出更紧的界”,但未证明也未构造该界。
四、开放问题(点到为止,扎根具体语句)¶
- 非线性校准下的衰减偏误界与去衰减速率:Proposition 3 仅在线性设定下给出闭式解,Remark 2 提及非线性下衰减表现为过度平滑化,但未给出偏误的显式界或 \(K\)-平均去衰减的收敛速率。要估什么:非线性 \(\mu\) 下,单次抽样校准 ATE 的偏误界(依赖 \(\mu\) 的光滑度与 \(\varepsilon\) 的分布),以及 \(K\)-平均后偏误随 \(K\) 的衰减阶(扎根于 Remark 2 与对 [7, 10] 的引用)。
- 基于 Wasserstein 距离与光滑条件的紧偏误界:Proposition 4 的 TV 界极度保守,作者在 Section 5.2 明确提及“可用 Wasserstein 距离乘以 Lipschitz 常数给出更紧的界”,但未构造。要证什么:在 \(\mu\) 为 \(\gamma\)-Hölder 连续且 \(\varepsilon\) 有界的条件下,\(|\Delta_1 - \Delta_0|\) 的分布依赖界,使其在 Upworthy 等平滑场景下不至宽松 4 个数量级(扎根于 Section 5.2 末尾段)。
- 与 Proximal Causal Inference 的桥接与半参数效率:本文的 Surrogacy (\(Y \perp W | X, Y^*\)) 与校准函数 \(\mu\) 与 Proximal CI 的负对照条件与桥函数同构,但 intro 完全未引 Proximal 文献。要估什么:在拥有 \(P=0\) 小样本与 \(P=1\) 大样本时,如何结合 Proximal 的半参数效率界理论(如 [18] 的效率提升)与本文的校准估计,构造达到半参数效率界的估计量(扎根于 intro 对 [3, 18] 的引用及未引的 Proximal 空白)。
- LLM 噪声条件独立 \(\varepsilon \perp Y | W, X\) 的证伪或松弛:Proposition 1 与 3 的去衰减逻辑严重依赖 \(\varepsilon \perp Y | W, X\)(LLM 随机性与人类异质性无关),若此条件破损(如 LLM 对某些人类类型系统性偏误),多次抽样平均可能无法恢复 Surrogacy。要证什么:在 \(\varepsilon\) 与 \(Y\) 存在条件依赖时,\(K\)-平均的偏误极限是什么,以及能否从 \(P=0\) 数据中构造对 \(\varepsilon \perp Y | W, X\) 的矩检验(扎根于 Proposition 1 的假设条件与 Section 8 对 LLM 训练场景的讨论)。
Maintained by 陈星宇 · Homepage · Source on GitHub