Algorithm or Creative? A Three-Arm Experimental Design for Decomposing Algorithmic Bias in Platform A/B Tests¶

作者: Pallavi Pal, Anjana Susarla
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2605.23706

一、核心问题与贡献（3句话）¶

论文研究了在线广告平台 A/B 测试中，投放算法根据创意元数据定向受众导致的“发散投放”问题——传统两臂实验将创意效应与算法靶向效应混为一谈，而事后调整已实现受众（post-treatment mediator）会产生偏误。
核心工具是三臂随机实验设计：增加一臂，使算法能看到处理元数据但用户所见创意与对照组完全相同，从而在不需要 sequential ignorability 假设的条件下，通过简单的组均值之差点识别自然间接效应（算法通路）和自然直接效应（创意通路）。
主要贡献：方法上提供了一个可验证假设（被操纵的 mediator 分布与处理臂相匹配）的实验识别方案；实证上在 Meta 真实广告投放中首次实现了对发散投放的因果分解，发现约 75% 的受众重分配来自算法通道，且传统 A/B 测试将算法通道低估约一半。

二、基础设定¶

核心概念与符号：
\(D \in \{A, B\}\)：处理，指不同创意（creative）。
\(S\)：中介变量（mediator），即投放算法的实际投放决策（表现为受众构成的分布）。
\(Y\)：结局，如女性曝光份额或点击率。
潜在结果：\(Y_i(a, s)\) 表示个体 \(i\) 在处理 \(a\) 和中介值 \(s\) 下的潜在结局；\(S_i(a)\) 表示在处理 \(a\) 下个体 \(i\) 会实现的中介值。
自然间接效应（NIE）：\(E[Y(A, S(B))] - E[Y(A, S(A))]\)，固定处理为 \(A\) 而将中介从 \(S(A)\) 分布变为 \(S(B)\) 分布。
自然直接效应（NDE）：\(E[Y(B, S(B))] - E[Y(A, S(B))]\)，固定中介为 \(S(B)\) 分布而将处理从 \(A\) 变为 \(B\)。
总效应（TE）：\(E[Y(B, S(B))] - E[Y(A, S(A))]\)，且 TE = NIE + NDE。
三臂：臂1（\(A, S(A)\)），臂2（\(A, S(B)\)），臂3（\(B, S(B)\)）。
关键假设：
(A1) 随机分配至臂：臂指示符 \(Z \in \{1,2,3\}\) 与所有潜在结果独立。由实验设计保证。
(A2) 排他性（Excludability）：\(Z\) 对 \(Y\) 的影响仅通过 \((D, S)\) 对实现。类似 SUTVA 中的排他性，确保额外工具（如臂2中的干预）不直接影响结局。
(A3) 中介变量在臂2中的成功操纵：在臂2中，实现的中介变量 \(S\) 的边际分布与 \(S(B)\) 的边际分布相同。这是本文最关键的假设，因为它将 observational mediation 中不可验证的 cross-world independence（\(Y(a,s) \perp S(a')\)）替换为可通过比较臂2与臂3中 \(S\) 经验分布来检验的假设。与 Imai et al. (2013) 的“平行设计”相比，这里的假设更温和（只需边际分布匹配，而非个体级 mediator 干预），且可直接检验。
与已有文献的关系：Baron & Kenny (1986) 的回归调整因 post-treatment bias 失效；Imai et al. (2013) 要求 mediator 被独立随机化（需实验者能直接设置 mediator），而本文利用算法对元数据的反应来变相实现 mediator 的操纵，更适用于平台实验的现实约束。
问题背景：
现有文献（Lambrecht & Tucker 2019, Ali et al. 2019, Burtch et al. 2025）仅描述了发散投放这一经验事实，但未将其作为因果中介问题处理。
传统 mediation 分析（Imai et al. 2010, VanderWeele 2015）需要 sequential ignorability 或独立随机化 mediator，这在广告平台中不可行。
本文填补了空白：将投放算法视为 Pearl-Robins mediator，通过操纵算法所依赖的元数据（而非直接操纵算法本身）来实现识别，使假设可验证。

三、主要定理 / 核心结果¶

定理（Lemma 1）：三臂分解的无偏性¶

原文陈述：在假设 (A1)-(A3) 下，\(\widehat{\text{NIE}} = \bar{Y}_2 - \bar{Y}_1\)，\(\widehat{\text{NDE}} = \bar{Y}_3 - \bar{Y}_2\)，\(\widehat{\text{TE}} = \bar{Y}_3 - \bar{Y}_1\) 分别是 NIE、NDE、TE 的无偏估计，且样本分解 \(\widehat{\text{TE}} = \widehat{\text{NIE}} + \widehat{\text{NDE}}\) 精确成立。
直观解释：三臂设计将需要调整的复杂介导路径转化为三个可随机比较的组的均值之差。臂2提供了“处理 A + 中介 B 分布”的反事实，通过物理随机化而非统计调整来建立可比性，因此避免了 post-treatment bias。每个期望都由对应组的样本均值直接识别。
解决的技术难点：在 observational mediation 中，识别 NIE 和 NDE 需要跨世界独立性假设（\(Y(a,s) \perp S(a')\)）——这是不可检验的。本文通过构造臂2使得 \(S\) 的分布等于 \(S(B)\) 的分布，从而在无需该假设的情况下实现点识别。关键是将不可验证的独立性假设转化为可检验的分布匹配假设（A3）。
适用条件与局限：
必须满足 (A1)-(A3)。(A3) 可通过比较臂2和臂3中 \(S\) 的分布来检验（例如 Kolmogorov-Smirnov 检验），但要求 \(S\) 是可观测的（如受众人口统计分布），且样本量足够大以进行检验。
本定理识别的 NIE 和 NDE 是总体平均自然效应，而非个体级自然效应。个体级分解需要额外的跨世界独立性假设。这在大多数应用中是合理的，因为总体平均反事实（“若将交付均衡在 B 水平会怎样”）是政策相关目标。
局限：要求实验者能通过元数据操纵算法输出（即 \(S(B)\) 分布可复制），这依赖于平台算法的特定结构。若平台并行运行多个算法版本或不基于元数据定向，则 (A3) 可能不成立。

关键数值/实证结果（Meta 实地实验）¶

核心发现（高竞价水平）：
算法通道（NIE）使女性曝光份额增加 +2.07 个百分点；创意通道（NDE）使女性曝光份额下降 -0.68 个百分点；总效应（TE）为 +1.39 个百分点。绝对值的 75% 来自算法通道。
传统两臂实验只能看到总效应 +1.39 ppt，低估了算法通道的贡献（实际 NIE 为 +2.07，但被 NDE 的负向部分抵消）。若仅用 TE，会错误地归因于创意。
按年龄-性别细分：算法通道最突出地针对 35-44 岁女性（NIE = +1.50 ppt）和 45-54 岁女性（+0.70 ppt），同时从 65+ 男性和女性收回曝光（NIE 分别为 -1.58 ppt 和 -1.09 ppt）。创意通道的 NDE 呈现反方向：对 65+ 群体为正，对中年女性为负，部分抵消了算法通道。
统计显著性：在 HC3 稳健标准误和 Romano-Wolf 多重检验校正后，三个主体对比的调整 p 值均 ≥ 0.48，未达到 5% 显著性。但方向性和细分的模式具有内部一致性。
与基线的对比：
与模拟结果比较：模拟中假设无创意效应（NDE=0），三臂设计成功恢复零估计（NDE = -0.09 ppt，95% CI 包含 0），验证了方法的正确性。
与传统两臂实验对比：后者只能估计 TE，无法分离算法和创意，因此对算法通道的估计偏小约 50%（在抵消明显的细胞中）。
结论的稳健性：
使用 HC3 稳健标准误（因离散诊断显示 Bernoulli 方差低估了 5 倍以上），并采用 wild bootstrap 步骤进行多重检验调整。
低竞价水平下样本仅约 1600 次曝光，估计不精确但方向性有经济解释（低竞价下算法空间小，创意通道相对更大）。
点击率（CTR）分解中，NIE 为正但统计不显著，且发现 CTR 的算法间接效应几乎完全来自组内选择性而非组成变化（即算法在同一人口细胞中选择了更可能点击的用户），表明仅审核人口统计细胞会低估算法定向的真实程度。

四、证明框架 / 方法设计¶

识别逻辑：
臂1 直接给出 \(E[Y(A, S(A))]\) ——随机化保证。
臂3 直接给出 \(E[Y(B, S(B))]\)。
臂2 的核心：强制处理为 \(A\) 但中介分布等于 \(S(B)\) 分布。通过假设 (A3)（操纵成功），臂2的均值等于 \(E[Y(A, S(B))]\)。
NIE = 臂2均值 - 臂1均值；NDE = 臂3均值 - 臂2均值；TE = 臂3均值 - 臂1均值。无偏性由线性期望运算直接得到。
证明主干逻辑（参见附录 A Proof of Lemma 1）：
步骤1：利用随机化（A1）将 \(E[\bar{Y}_1]\) 等于 \(E[Y(A, S(A))]\)。
步骤2：同理，\(E[\bar{Y}_3] = E[Y(B, S(B))]\)。
步骤3：对臂2，通过条件期望塔式性质，先给定 \(S^{(2)}=s\) 并利用排他性（A2）将观察到的 \(Y_i\) 替换为潜在结果 \(Y_i(A,s)\)，然后利用随机化（A1）去掉条件，最后利用 (A3) 将 \(S^{(2)}\) 的边际分布等于 \(S(B)\) 的分布，得到 \(E[\bar{Y}_2] = \int E[Y(A,s)] dF_{S(B)}(s) = E[Y(A, S(B))]\)。
最关键的“跳跃点”是对臂2均值的推导：它巧妙地将对 \(S\) 的操纵转化为对分布施加协变量条件，而无需假设个体中介值的可干预性。这依赖于 (A2) 和 (A3) 的精确配合。(A2) 确保改变 \(S\) 的方式不影响结局的其他路径（即臂2的构造不会通过其他途径影响 \(Y\)），(A3) 确保被操纵的分布确实是目标分布。
数学工具评价：本证明是经典随机化推断和潜在结果框架的直接应用，几乎没有复杂渐近工具。其贡献在于将识别假设简化到可验证的程度，而非证明技巧本身。但论文在实证部分详细讨论了离散诊断和多种稳健标准误（HC3、wild bootstrap、Romano-Wolf 多重检验），展示了良好的统计实务。

五、与研究者兴趣的关联¶

连接子方向：直接连接 causal mediation 和 identification 领域，特别是中介分析的实验识别策略。研究者关注 proximal CI（negative control）、IV、mediation、longitudinal causal inference 等。本文提供的“三臂设计”是实验版本的中介分解，与负对照（negative control）思想有异曲同工之处：利用可操作的协变量（元数据）来模拟处理臂的中介分布。
可借鉴的核心思路：
将不可验证的 cross-world independence 替换为可检验的分布匹配假设：这是本文最突出的迁移点。在研究者自己的工作中（如 proximal CI 或 sensitivity analysis），类似“制造一个反事实分布”的手法可应用于其他中介或多重中介设定。
使用实验设计而非统计调整来实现识别：对于任何 post-treatment mediator 问题（如生存分析中的时依混杂、longitudinal 设定中的时变处理），如果能通过外部机制操纵中介，则可借鉴此三臂框架。
对假阳性控制的处理：HC3 + wild bootstrap + Romano-Wolf 多重检验是处理聚类异方差和多个对比的务实方案。
值得精读的关键参考文献：
Imai, K., Tingley, D., & Yamamoto, T. (2013). “Experimental designs for identifying causal mechanisms.” Journal of the Royal Statistical Society: Series A.
- 为什么值得读：本文是该文献中“平行设计”的直接扩展和应用；阅读可理解实验中介设计的最早形式，并与本文的适应型设计对比。
Acharya, A., Blackwell, M., & Sen, M. (2016). “Explaining causal findings without bias: Detecting and assessing direct effects.” American Political Science Review.
- 为什么值得读：系统分析了 post-treatment 调整的偏差来源，并提出了 sequential g-estimation 方法。可与本文的实验设计对比，理解 observational 方法与实验方法在假设强度上的差异。
Pearl, J. (2001). “Direct and indirect effects.” UAI.
- 为什么值得读：正式定义了自然直接和间接效应，并揭示了其识别条件。本文的 NIE/NDE 定义直接源于此，是理解分解的基础。

六、延伸思考与练习¶

假设扰动：
若 假设 (A3) 不成立（即臂2中的 \(S\) 分布不等于 \(S(B)\) 的边际分布），则 NIE 和 NDE 的识别将失败。在现实中，如果平台算法在臂2中因为看到处理元数据但创意为空而采取不同的竞价策略（例如，认为这是一个“假测试”，分配更少的预算），则 (A3) 会违背。技术上需要引入灵敏度分析：假设臂2中的实际分布为 \(F_{S^{(2)}}\) 与目标分布 \(F_{S(B)}\) 之间存在某种 divergence（如 KL 散度有界），则可对 NIE 的偏误进行界限分析（如采用 Imai et al. 2010b 的敏度分析思路）。
若 假设 (A2) 排他性被违反（例如，臂2的实验操作本身（如设定 metadata-only）改变了广告出价或放置优先级，而不仅通过算法定向），则估计结果将包含直接的操作效应。技术上需要更细致的结构方程模型或使用工具变量分离排他性通道。
开放问题：
动态 contaminated mediator：作者在实证中注意到臂3的 NDE 在交付上非零（尽管设置为 placebo），暗示用户反馈可能随时间更新了臂3中的算法状态（即 \(S^{(3)}\) 偏离了 \(S(B)\)）。设计一个适应性的、允许中介分布随时间进化的序列实验框架是一个开放方向。
高维中介/多目标定向：当代广告算法在数百个细粒度人口特征上同时优化。如何扩展三臂设计同时分解多条中介路径（例如年龄定向、兴趣定向、行为定向）？可能涉及多臂实验设计或网络实验。
理解检测题：
题目：假设你无法直接操纵 \(S\) 的分布以达到 (A3)，但你有一个可观测的协变量 \(X\) 满足条件 \(S(B) \perp X\)（在对 \(B\) 臂的条件独立下）。你能否通过分层随机化（在 \(X\) 的层内独立随机化三臂）来放松 (A3) 为“臂2中 \(S\) 的条件分布等于 \(S(B)\) 的条件分布”？写出在这种情况下 \(E[Y(A, S(B))]\) 的识别表达式，并讨论所需假设是否变弱。

Maintained by 陈星宇 · Homepage · Source on GitHub

Algorithm or Creative? A Three-Arm Experimental Design for Decomposing Algorithmic Bias in Platform A/B Tests¶

一、核心问题与贡献（3句话）¶

二、基础设定¶

三、主要定理 / 核心结果¶

定理（Lemma 1）：三臂分解的无偏性¶

关键数值/实证结果（Meta 实地实验）¶

四、证明框架 / 方法设计¶

五、与研究者兴趣的关联¶

六、延伸思考与练习¶

评论