Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference¶

作者: Joel Persson, M{\aa}rten Schultzberg, Sebastian Ankargren
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.17165

一、领域脉络与小综述¶

这个方向是什么：本方向研究在实验评估中，当目标结局（如人类真实行为）难以观测或观测成本极高时，能否以及如何用替代结局（surrogate endpoint，此处为大型语言模型 LLM 的输出）来有效恢复目标结局上的平均处理效应（ATE）。其根本统计问题是：替代结局与目标结局之间的条件独立性（surrogacy）与跨样本分布稳定性（comparability）在何种条件下足以保证因果识别，以及当条件破损时如何量化偏误。当前该子方向处于“框架初建、诊断工具刚提出、实证验证刚起步”的阶段。

发展脉络： - 奠基工作：Prentice (1989) [24] 提出了临床试验中替代结局的正式定义与操作性标准（条件独立性 \(Y \perp W | X, Y^*\)），为后续所有替代结局理论划定了起点。 - 主要进展（替代结局与短期代理）：Athey, Chetty, Imbens & Kang (2019/2025) [4, 5] 提出 surrogate index，将多个短期代理组合以估计长期效应；Athey, Chetty & Imbens (2025) [3] 与 Kallus & Mao (2020) [18] 进一步探讨了在有限目标结局数据下，代理变量如何提升估计效率与纠正选择偏误。这些工作将替代结局从“单变量条件独立”推向了“多代理组合与半参数效率”。 - 当前 frontier（LLM 作为人类代理的因果推断）：近一两年涌现出将 LLM 视为人类被试替代品的工作，但大多停留在预测层面或工程演示。Hewitt et al. (2024) [15] 与 Manning & Horton (2025) [19] 展示 LLM 能预测社会科学实验结果；Hansen et al. (2024) [14] 与 Suh et al. (2025) [26] 表明 LLM 能模拟专业预测者与公众意见分布。然而，从预测走向因果识别时，瓶颈出现：Gao et al. (2025) [12] 指出 LLM 无法复现人类选择的经验分布；Gui & Toubia (2023) [13] 从因果视角揭示了 LLM 实验中的混杂（隐瞒处理导致遗漏通道，揭示处理导致过度反应）；Egami et al. (2023) [9] 提出了用不完美 LLM 标注结合小样本人类标签的框架。Wang et al. (2025) [28] 的 AgentA/B 展示了 LLM 代理 A/B 测试的工程可行性，但明确承认 LLM 与人类在探索行为上存在系统性差异，且未给出统计识别条件。 - 本文的位置：本文是首个将经典替代结局理论系统适配至 LLM 实验场景的工作。它不追求 LLM 与人类的分布等价（[12, 13] 暗示这不可行），而是退一步问：在更弱的替代与可比性条件下，LLM 输出能否识别人类 ATE？若不能，偏误有多大？同时，它将 LLM 的随机性（temperature 采样）从“工程麻烦”重构为“统计设计变量”（多次抽样取平均可缓解衰减偏误与方差膨胀）。

子线索聚类： 1. LLM 预测对齐：致力于让 LLM 输出在分布或期望上逼近人类（[14, 15, 19, 26, 31]）。此线索假设 LLM 可以“模仿”人类，但 [12] 证伪了其在简单博弈中的分布等价性。 2. LLM 因果推断的混杂与偏误：关注 LLM 实验中特有的因果陷阱（[9, 12, 13]）。此线索指出 LLM 实验不是标准随机实验，存在盲法混杂与刻板响应偏误。 3. 经典替代结局与短期代理理论：在标准潜在结果框架下，用短期/可观测代理替代长期/昂贵结局的识别与估计理论（[3, 4, 5, 18, 24]）。此线索提供了成熟的条件独立与校准映射工具，但未考虑代理变量本身是随机生成器输出、且实验者可控制其随机性的情况。

这个方向在追问的核心问题： 1. 识别条件：替代结局需要承载多少关于处理效应的信息，才能在无需目标结局的情况下点识别 ATE？（当前主流：Prentice 准则或其均值独立弱化版；瓶颈：如何验证该条件对新干预成立）。 2. 跨样本稳定性：在历史数据上学到的“代理-目标”校准函数，能否直接搬运到新干预的 LLM 生成数据上？（当前主流：假设分布稳定性；瓶颈：支持集重叠不足时的外推偏误）。 3. 随机代理的估计后果：当替代结局本身是随机变量的单次实现时，测量误差如何扭曲校准估计？（当前主流：经典测量误差理论；瓶颈：如何利用实验者对随机性生成过程的控制权来纠偏）。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“LLM 实验缺乏统计根基”，并将自己的工作定位为“首次将替代结局理论适配至 LLM，揭示 LLM 随机性可被设计利用，且核心假设只能被证伪不能被验证”。这使得“提出证伪诊断与偏误界”成为“显然的下一步”。 - 被淡化或回避的路线：作者淡化了“直接对 LLM 做分布校准或微调使其逼近人类分布”的路线（[26, 31]），认为这过于敏感且难以跨场景泛化，转而主张“均值校准+替代假设”。同时，作者回避了半参数效率理论：在拥有小样本人类数据与大量 LLM 数据时，如何构造达到半参数效率界的估计量（[18] 探讨了此问题，本文未涉及）。 - 明显该被引却未出现的：Proximal Causal Inference (负对照框架)。本文的 Surrogacy 条件（\(Y \perp W | X, Y^*\)）与 Proximal CI 中的负对照条件（\(Y \perp Z | X, U\)，其中 \(Z\) 为负对照处理）在结构上高度对称，且本文的校准函数 \(\mu\) 与 Proximal 的桥函数在数学形式上同构。Miao, Tchetgen, Geng 等人的系列工作未在 intro 出现，这是一个值得研究者去查的缺口——作者是否刻意回避了与 Proximal CI 的对话，以保持“替代结局”叙事的纯粹性？

张力：未见明显对立引用。文献间的张力更多是“互补与递进”：[12, 13] 证伪了分布等价，[9] 提出了不完美标注的推断框架，本文则用 [24] 的替代理论将 [9] 的思想形式化并推向 ATE 识别。没有两篇工作在相同设定下得出相反结论。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / Estimand：\(\tau \equiv E[Y(1) - Y(0)]\)，人类群体上的平均处理效应（ATE）。
随机变量 / 样本：
\(W \in \{0, 1\}\)：处理分配（二值）。
\(X\)：预处理协变量。
\(Y\)：人类真实结局（潜在结果 \(Y(w)\)）。
\(Y^*\)：LLM 生成的替代结局，为随机变量，分布为 \(Y^* | (W, X) \sim F(\cdot | W, X)\)。
\(P \in \{0, 1\}\)：样本指示器。\(P=0\) 为实验样本（人类数据，观测 \((W, X, Y^*, Y)\)）；\(P=1\) 为人工样本（LLM 数据，仅观测 \((W, X, Y^*)\)）。
\(Y^*_1, \dots, Y^*_K\)：对同一 \((W, X)\) 的 \(K\) 次独立 LLM 抽样（replication count 为 \(K\)）。
\(\bar{Y}^*_K\)：\(K\) 次抽样的算术平均。
维数 / 指标：\(n_0, n_1\) 分别为实验样本与人工样本量；\(K\) 为抽样次数；\(B\) 为结局绝对值上界。
潜在 / 不可观测量：\(\theta(W, X) \equiv E[Y^* | W, X]\)（LLM 替代结局的潜在条件均值，单次抽样时不可见，仅可通过多次抽样逼近）；\(\varepsilon \equiv Y^* - \theta(W, X)\)（LLM 采样噪声）。
模型：数据生成机制为——对 \(P=0\)，从人类分布中抽样 \((W, X, Y)\)，并固定 \((M, I, D)\) 从 LLM 抽样 \(Y^*\)；对 \(P=1\)，从相同 \(X\) 分布抽样，赋值 \(W\)，从 LLM 抽样 \(Y^*\)。处理分配 \(W\) 在两个样本中均独立随机化。LLM 生成过程满足 SUTVA（无干涉）。
可观测数据：研究者实际能观测到的是 \(P=0\) 样本中的 \((W, X, Y^*, Y)\) 四元组，以及 \(P=1\) 样本中的 \((W, X, Y^*)\) 三元组。想要但观测不到的是 \(P=1\) 样本中的人类结局 \(Y\)，只能靠替代假设与校准函数去识别。

第二步：讲最小内核

整篇论文的证明与方法本质上是线性校准+经典测量误差这一特例的推广。在此特例下，识别、偏误与纠偏机制一目了然。

最简特例：线性校准、同方差噪声、单次与多次抽样 假设校准函数为线性：\(E[Y | X, \theta(W, X)] = \alpha_0 + \phi_0' X + \beta_0 \theta(W, X)\)。 LLM 噪声同方差：\(\sigma^2_\varepsilon(W, X) \equiv \sigma^2_\varepsilon\)，且 \(\varepsilon \perp Y | W, X\)。研究者用 OLS 在 \(P=0\) 样本上将 \(Y\) 回归到 \((X, Y^*)\)，得到 \(\hat{\mu}(x, y^*) = \hat{\alpha} + \hat{\phi}' x + \hat{\beta} y^*\)。

识别（Theorem 3.1 的内核）：若 Surrogacy 成立（\(Y \perp W | X, Y^*\)），则 \(E[Y(w) | X] = E[\mu(X, Y^*) | X, W=w]\)。若 Comparability 成立（\(\mu\) 跨 \(P\) 不变），则在 \(P=1\) 中对 \(\mu(X, Y^*)\) 按 \(W\) 求期望差，即恢复 \(\tau\)。在线性情形下，这退化为：\(\tau = \beta_0 (E[\theta | W=1] - E[\theta | W=0])\)。
偏误（Proposition 3 的内核）：由于 \(Y^* = \theta + \varepsilon\) 且 \(\varepsilon\) 与 \(X, \theta, Y\) 均不相关，这是标准的经典测量误差问题。OLS 回归系数 \(\hat{\beta}\) 依概率收敛到 \(\beta_0\) 乘以信噪比（可靠性比率）：
\[R \equiv \frac{\text{Var}(\theta | X)}{\text{Var}(\theta | X) + \sigma^2_\varepsilon} < 1\]
因此，校准 ATE 估计量 \(\hat{\tau}_{\text{cal}}\) 收敛到 \(R \tau\)，发生衰减偏误。
纠偏（Proposition 1, 2, 3 的内核）：若对同一 \((W, X)\) 抽样 \(K\) 次，取 \(\bar{Y}^*_K\)，则噪声方差缩至 \(\sigma^2_\varepsilon / K\)。用 \(\bar{Y}^*_K\) 替代 \(Y^*\) 重做 OLS，可靠性比率变为 \(R_K = \frac{\text{Var}(\theta | X)}{\text{Var}(\theta | X) + \sigma^2_\varepsilon / K} \to 1\)。当 \(K \to \infty\)，\(\bar{Y}^*_K \to \theta\) a.s.，衰减偏误消失，且若 \(Y \perp W | X, \theta\) 成立，Surrogacy 在极限下恢复。

核心数学困难：在非线性 \(\mu\) 或异方差 \(\varepsilon\) 下，单次抽样造成的偏误不再是简单的系数衰减，而是回归函数的“过度平滑化”（向边际均值收缩，见 Remark 2 与 [7, 10]），且多次抽样的极限恢复需要更精细的条件（\(\varepsilon \perp Y | W, X\)）。本文的关键想法是：将 LLM 的随机性从“误差”重构为“可设计的重复测量”，利用实验者对生成过程的控制权，通过 \(K\) 次抽样将测量误差问题转化为可逼近潜在均值的渐进无偏问题。

三、这篇论文做了什么¶

三句话：①研究了 LLM 输出作为替代结局时，何时能识别人类 ATE；②核心工具是替代结局理论（Surrogacy + Comparability）结合经典测量误差纠偏（多次抽样平均）；③主要结论是：在较弱替代与可比性条件下 ATE 可点识别，但 LLM 随机性引入衰减偏误与方差膨胀，可通过 \(K\) 次抽样缓解；核心假设只能被历史数据证伪、无法对新干预验证，故人类实验不可替代。

关键设定与假设： - Assumption 1 (Surrogacy, Prentice 准则)：\(Y \perp W | X, Y^*\)。统计含义：替代结局 \(Y^*\) 与协变量 \(X\) 完全中介了处理 \(W\) 对人类结局 \(Y\) 的效应。相比经典文献 [24]，本文将其适配至 LLM 场景，并指出若仅关心 ATE，可弱化为均值独立 \(E[Y | W, X, Y^*] = E[Y | X, Y^*]\) [3]。 - Assumption 2 (Comparability)：\(Y \perp P | X, Y^*\) 且支持集重叠。统计含义：校准函数 \(\mu(x, y^*) = E[Y | X=x, Y^*=y^*, P=0]\) 在 \(P=1\) 样本中不变。这等价于要求 LLM 与人类在 \((X, Y^*)\) 到 \(Y\) 的映射上跨样本稳定，且无外推。 - Assumption 3 (Bounded outcomes)：\(|Y| \le B\) a.s.。统计含义：为偏误界提供截断，是 Manski 部分识别框架的标准要求 [20]。 - 多抽样设定：\(Y^*_k | (W, X) \overset{iid}{\sim} F(\cdot | W, X)\)，且 \(\varepsilon \perp Y | W, X\)。统计含义：LLM 噪声与人类潜在结果条件独立，保证了多次抽样平均能逼近不含人类结局信息的纯噪声项，从而在极限下恢复对 \(\theta\) 的识别。

主要结果： 1. Theorem 3.1 (Identification under surrogate transport)：在 Assumptions 1-2 下，\(\tau = E[\mu(X, Y^*) | P=1, W=1] - E[\mu(X, Y^*) | P=1, W=0]\)。直觉：Surrogacy 保证了 \(Y^*\) 承载了所有处理信息，Comparability 保证了校准函数可跨样本搬运。必要条件：支持集重叠。技术难点：无，这是迭代期望的直接推论。 2. Proposition 3 (Attenuation from a noisy surrogate)：在线性校准+同方差噪声下，单次抽样的校准 ATE 依概率收敛到 \(R \tau\)（\(R < 1\) 为可靠性比率），发生衰减偏误；\(K\) 次抽样平均后 \(R_K \to 1\)，偏误消失。直觉：经典测量误差的可靠性比率衰减。必要条件：线性模型、\(\varepsilon \perp Y | W, X\)。技术难点：将 LLM 采样噪声 \(\varepsilon\) 识别为与 \(X, \theta, (Y - E[Y|X,\theta])\) 均不相关的经典测量误差。 3. Proposition 4 (Sensitivity bound)：在 Assumption 3 下，若 Comparability 的重叠条件破损，校准 ATE 与真实 ATE 的最大偏差为 \(|\Delta_1 - \Delta_0| \le 2B(\text{TV}_0 + \text{TV}_1)\)，其中 \(\text{TV}_w\) 是 \(P=0\) 与 \(P=1\) 在 \((X, Y^*)\) 分布上的 arm-specific 总变差距离。直觉：分布漂移越严重（TV 越大），校准函数外推的最坏偏误越大，界线性增长。必要条件：结局有界。技术难点：利用有界性将期望差转化为密度差积分，再用 TV 距离的等价定义放缩。此界对有界函数类是紧的。

证明路线与技术技巧： - 整体路线： 1. 设定与分解：将 LLM 输出分解为潜在均值 \(\theta(W,X)\) 与噪声 \(\varepsilon\)，建立测量误差结构。 2. 识别：用迭代期望证明在 Surrogacy + Comparability 下，对校准函数 \(\mu\) 在人工样本中求组间期望差即可恢复 \(\tau\) (Theorem 3.1)。 3. 估计偏误分析：在线性设定下，证明单次抽样导致 OLS 系数衰减至 \(R\)，进而 ATE 衰减至 \(R\tau\) (Proposition 3)。 4. 纠偏设计：证明 \(K\) 次抽样平均使噪声方差缩至 \(1/K\)，可靠性比率 \(R_K \to 1\)，且在极限下 \(\bar{Y}^*_K \to \theta\) a.s.，恢复 Surrogacy (Propositions 1, 2)。 5. 诊断与敏感性：构造矩条件检验证伪 Surrogacy (Section 5.1)；构造基于 TV 距离的最坏偏误界量化 Comparability 破损后果 (Proposition 4)。 - 关键跳跃点：Proposition 3 中将 LLM 采样噪声 \(\varepsilon\) 论证为经典测量误差（与回归方程误差、协变量、潜在均值均不相关）是关键跳跃。这依赖于 \(\varepsilon \perp Y | W, X\) 这一强条件，它切断了 LLM 随机性与人类异质性之间的关联，使得 OLS 衰减具有闭式解。 - 技术技巧点名： - 迭代期望：用于 Theorem 3.1 证明，将 \(E[Y(w)|X]\) 转化为 \(E[\mu(X, Y^*)|X, W=w]\)。 - 经典测量误差理论 / 可靠性比率：用于 Proposition 3，直接调用 Fuller (1987) [11] 的标准结果。 - 强大量定律：用于 Proposition 1，证明 \(\bar{Y}^*_K \to \theta\) a.s.。 - 总变差距离 / Weitzman 重叠系数：用于 Proposition 4，将分布漂移量化为 TV 距离，并利用 Tsybakov (2009) [27] 的 TV 等价定义放缩积分。 - Lindeberg-Lévy CLT：用于 Section 5.1 的证伪检验，证明残差均值渐近正态。

真实例子与应用： - 用的什么数据 / 场景：Upworthy Research Archive [21]，包含 2013-2015 年间 32,487 个标题 A/B 测试。筛选出 417 个“是否为疑问句”标题对比的测试，人类结局 \(Y\) 为点击率（CTR），处理 \(W\) 为疑问句指示。 - 怎么把本文方法用上去：用 gpt-4o-mini (temperature=0.7) 对每个标题生成 \(K=10\) 次 CTR 预测作为 \(Y^*\)，协变量 \(X\) 为标题长度、日历周、变体数。在 \(P=0\)（人类数据）上用 OLS / RF / GBT 估计校准函数 \(\hat{\mu}\)，通过 5-fold cross-fitting 避免过拟合，然后在 \(P=1\)（LLM 数据）上计算校准 ATE。 - 得到什么结果：人类真实 ATE 为 \(-0.00116\)（疑问句降低点击率）。Raw LLM ATE 为 \(-0.00045\)（衰减至约 40%）。OLS 校准 ATE 为 \(-0.00056\)（仍显著衰减，\(t=2.3\)）。RF 与 GBT 校准 ATE 分别为 \(-0.00079\) 与 \(-0.00072\)，与人类 ATE 差异在统计误差内（\(t<1.5\)）。随着 \(K\) 从 1 增至 10，校准 ATE 逐步去衰减，逼近人类 ATE，验证了 Proposition 1 与 3。 - 这个例子想说明什么：验证理论预测——LLM 原始输出存在严重衰减偏误，非线性校准+多次抽样平均可有效去衰减并恢复人类 ATE；同时，证伪检验拒绝了 OLS 校准的 Surrogacy 矩条件，但未拒绝 RF/GBT 的，说明模型误设会导致 Surrogacy 在实证中破损。

🔎 结论是否比证明窄： - Proposition 3 的衰减偏误闭式解严格限制在线性校准+同方差噪声+条件独立噪声下，但作者在 Remark 2 与正文中泛泛 claim “非线性 \(\hat{\mu}\) 下衰减表现为过度平滑化，\(K\)-平均仍适用”，引用了 Carroll et al. (2006) [7] 与 Fan & Truong (1993) [10]，但未给出非线性下的任何定理或形式化界。这是一个典型的“条件 X 下严格证明，却被泛泛 claim 为一般成立”的缺口。 - Proposition 4 的偏误界 \(2B(\text{TV}_0 + \text{TV}_1)\) 对有界函数类是紧的，但作者承认对平滑 \(\mu\) 极度保守（实证中实际偏误比界小 4 个数量级），并泛泛提及“可用 Wasserstein 距离+Lipschitz 常数给出更紧的界”，但未证明也未构造该界。

四、开放问题（点到为止，扎根具体语句）¶

非线性校准下的衰减偏误界与去衰减速率：Proposition 3 仅在线性设定下给出闭式解，Remark 2 提及非线性下衰减表现为过度平滑化，但未给出偏误的显式界或 \(K\)-平均去衰减的收敛速率。要估什么：非线性 \(\mu\) 下，单次抽样校准 ATE 的偏误界（依赖 \(\mu\) 的光滑度与 \(\varepsilon\) 的分布），以及 \(K\)-平均后偏误随 \(K\) 的衰减阶（扎根于 Remark 2 与对 [7, 10] 的引用）。
基于 Wasserstein 距离与光滑条件的紧偏误界：Proposition 4 的 TV 界极度保守，作者在 Section 5.2 明确提及“可用 Wasserstein 距离乘以 Lipschitz 常数给出更紧的界”，但未构造。要证什么：在 \(\mu\) 为 \(\gamma\)-Hölder 连续且 \(\varepsilon\) 有界的条件下，\(|\Delta_1 - \Delta_0|\) 的分布依赖界，使其在 Upworthy 等平滑场景下不至宽松 4 个数量级（扎根于 Section 5.2 末尾段）。
与 Proximal Causal Inference 的桥接与半参数效率：本文的 Surrogacy (\(Y \perp W | X, Y^*\)) 与校准函数 \(\mu\) 与 Proximal CI 的负对照条件与桥函数同构，但 intro 完全未引 Proximal 文献。要估什么：在拥有 \(P=0\) 小样本与 \(P=1\) 大样本时，如何结合 Proximal 的半参数效率界理论（如 [18] 的效率提升）与本文的校准估计，构造达到半参数效率界的估计量（扎根于 intro 对 [3, 18] 的引用及未引的 Proximal 空白）。
LLM 噪声条件独立 \(\varepsilon \perp Y | W, X\) 的证伪或松弛：Proposition 1 与 3 的去衰减逻辑严重依赖 \(\varepsilon \perp Y | W, X\)（LLM 随机性与人类异质性无关），若此条件破损（如 LLM 对某些人类类型系统性偏误），多次抽样平均可能无法恢复 Surrogacy。要证什么：在 \(\varepsilon\) 与 \(Y\) 存在条件依赖时，\(K\)-平均的偏误极限是什么，以及能否从 \(P=0\) 数据中构造对 \(\varepsilon \perp Y | W, X\) 的矩检验（扎根于 Proposition 1 的假设条件与 Section 8 对 LLM 训练场景的讨论）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论