Causal Inference Challenges in Industry : A perspective from experiences at LinkedIn¶

讲者: Ya Xu
讨论人: Iavor Bojinov
来源: OCIS (Online Causal Inference Seminar)
日期: 2020-05-26
主题: 因果推断
视频: https://www.youtube.com/watch?v=OoKsLAvyIYA · 幻灯片

官方摘要：In this talk, we will briefly give some background how online controlled experiments are commonly used in industry, and introduce some challenges we face, and also some opportunities in novel applications.

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

方向定位：在线控制实验（A/B测试）在互联网工业中的因果推断挑战。这是因果推断的一个快速增长的应用分支，核心关注点从经典的随机化试验（SUTVA成立）延伸至违背SUTVA（干扰/溢出效应）、长期效应推断、序贯/自适应实验以及观察性因果推断与随机化实验的结合。这一方向的主流奠基工作包括：

Kohavi, Tang & Xu (2020) Trustworthy Online Controlled Experiments —— 工业实验的综合性手册，涵盖常见陷阱、度量设计和计算基础设施。
Eckles et al. (2016) Design and analysis of experiments in networks: reducing bias from interference —— 网络干扰下的集群随机化设计。
Saveski et al. (2017) The risk of risk: a field experiment on the effects of risk disclosure —— 被本文转写明确提及（“Randomize Over Randomized Experiments”），用于检测网络效应的双随机化方法。
Azevedo et al. (2020) A/B testing with fat tails —— 工业实验中厚尾分布的影响。

当前frontier：在大量并行实验（~20,000/年）、亿级用户、实时决策的背景下，统计方法必须同时处理干扰（interference）、多阶段处理路径、多重比较和计算可扩展性。学术界的经典理论（Neyman–Rubin框架、Chernoff–Savage序贯检验）经常无法直接缩放，需要新设计或近似。

这场报告的站位：从LinkedIn的实践出发，枚举工业界真实面临的四类挑战（干扰、长期效应、序贯实验、观察性研究），而不是提出一个新的理论解决方案。讲者明确表示目的是“stimulate creativity and innovations”以吸引学术界合作解决尚未解决的问题。报告结构是问题驱动而非方法驱动。对于研究者陈星宇而言，这份材料的功能是问题发现——每个挑战都可能衍生出与他的工具包（半参数效率理论、高阶影响函数、U统计量、因果推断识别理论）可对接的具体研究机会。

二、最小内核 / 一个最简例子¶

符号与设定（以干扰为例）：

可观测数据：对于每个用户 \(i\)，观测到处理分配 \(W_i \in \{0,1\}\)（0=对照，1=处理）以及结果 \(Y_i\)。在标准A/B测试中，\(W_i\) 通过独立Bernoulli随机化分配（e.g., 50/50）。
潜在结果框架：每个用户有潜在结果 \(Y_i(W_1, \ldots, W_n)\)，即受所有用户处理分配影响。
SUTVA假设（常被遗忘）：\(Y_i(W_1, \ldots, W_n) = Y_i(W_i)\)，即不受他人分配影响。这是经典A/B测试的基石。

最简干扰例子（两个节点，时间点

\[0:12:30\]

—

\[0:14:10\]

）：

用户A（James）被分配处理（W_A=1）：收到激励来向用户B（Morgan）发送生日祝福消息。
用户B被分配对照（W_B=0）：照理不应有额外的发送消息行为。
但若A发送了消息，B出于礼节回复一条消息，则B的结果（如消息发送数）受A的处理分配影响，SUTVA被违背。

挑战：标准的treatment effect估计 \(\hat{\tau} = \bar{Y}_{obs, trt} - \bar{Y}_{obs, ctrl}\) 中，B（对照）因干扰而产生比反事实更高的消息数，导致对照均值上偏，从而低估真实处理效应。

一个解决直觉（集群随机化，

\[0:14:30\]

—

\[0:15:30\]

）：
- 将社交网络图聚类（尽可能切分少边），使得多数边保持在cluster内部。
- 以整个cluster为单位分配处理（全部处理或全部对照）。
- 此时，cluster内部的干扰被“内部化”，cluster之间的干扰被最小化。
- 代价：有效样本量从用户个数降为cluster个数，统计功效严重下降。

更精细的直觉（基于边的分析，

\[0:21:50\]

—

\[0:23:30\]

）：
- 对于消息传递这类有明确“边”的交互，直接对边（message pair）建模：定义“发送者-接收者”对，根据发送者和接收者的处理分配标记边类型（T→T, T→C, C→C, C→T）。
- 若假设“处理 affinity”为零（处理组和对照组用户之间的连接概率相等），则可以通过比较不同边类型上的平均响应（如回复率）来无偏估计处理效应。
- 此方法无需大规模聚类，计算量小，可适用于每日数百个实验（

\[0:26:40\]

—

\[0:27:20\]

）。

三、报告主体：讲者讲了什么¶

3.1 背景与基础（
\[0:05:00\]
—
\[0:10:00\]
）¶

LinkedIn场景：拥有约7亿会员的社交网络，实验范围从UI元素（搜索框、按钮、导航）到后台基础设施（网络、数据中心、离线管道）。
实验规模（
\[0:08:00\]
—
\[0:08:10\]
）：引用三家大型公司（Google、Microsoft、LinkedIn）年均约20,000个实验。
重叠实验架构（
\[0:08:30\]
—
\[0:09:10\]
）：分层hash，不同层使用不同的hash ID将用户分配进bucket，各层正交。

3.2 挑战一：干扰（Leakage / Interference）（
\[0:10:30\]
—
\[0:27:30\]
）¶

SUTVA回顾（
\[0:10:50\]
—
\[0:11:05\]
）：一个隐式假设，但现实中经常违背。
分类（
\[0:11:40\]
—
\[0:12:20\]
）：
直接连接（社交网络）：如生日消息鼓励。
间接连接（共享资源）：如广告预算竞争。
社交网络干扰的三种解决方案：
集群随机化（
\[0:14:30\]
—
\[0:17:00\]
）：
- 先聚类（尽量切分少量边），再分配整个cluster到处理或对照。
- 分析用模型加权（暴露模型），结果对模型选择敏感（“estimate is one today, different tomorrow”），不适用于工业。
- 转写中讲者明确表示这是“interesting scientific study but not quite practical”。
随机化叠随机化（Randomize over Randomized Experiments）（
\[0:17:08\]
—
\[0:18:40\]
）：
- 将整个图随机分成两半：一半用Bernoulli随机化（可能有偏），另一半用集群随机化。
- 比较两种方法估计出的效应差异，以探测是否存在真实的网络效应。
- 结果：对预期有网络效应的特征，检测到显著差异。
- 但集群隔离度差：最多砍断80%边，仍有20%边在cluster间（
  \[0:19:30\]
  —
  \[0:19:55\]
  ），cluster数量少（约5000）导致功效低。
基于边的分析（Edge-based Analysis）（
\[0:20:50\]
—
\[0:27:20\]
）：
- 针对有清晰“边”交互的场景（如消息、评论），将每条边按发送方和接收方的处理分配分类（T→T, T→C, C→C, C→T）。
- 模型假设：有衰减效应（α=回复概率，随着交互轮次下降），以及“无处理亲和性”假设（处理组和对照组用户间的连接概率等于随机期望）。
- 在此假设下，可仅用T→T和C→C边的平均结果构造无偏估计。
- 近似公式（
  \[0:26:40\]
  —
  \[0:27:10\]
  ）：对50/50分流的实验，矫正效应 ≈ 简单效应（发送+接收）。该近似与计算密集的精确解几乎一致（散点图显示近似线重合）。
- 挑战：计算昂贵（全量精确搜索复杂度高），但近似足够好且可在生产系统中每日运行。

3.3 挑战二：测量长期效应（
\[0:27:40\]
—
\[0:36:55\]
）¶

例子（
\[0:28:00\]
—
\[0:29:30\]
）：Bing时代的一个实验——一个bug将底部搜索结果移到顶部，导致搜索次数+10%，收入+30%。直觉上这是短期效应，用户长期会因体验差而流失，不能类推出长期。
传统方法（
\[0:29:40\]
—
\[0:30:05\]
）：将实验运行足够长的时间，直接测量最后一个时间段的效应。问题：昂贵、用户锁定/ cookie churn、网络效应级联、生存偏差、与其他新特征的交互（
\[0:30:20\]
—
\[0:30:50\]
）。
无简单解决方案：讲者承认“we don‘t think we have a perfect solution”，呼唤学术界帮助。

3.4 挑战三：序贯实验（Sequential Experimentation）（
\[0:31:30\]
—
\[0:38:30\]
）¶

工业中实际流程（
\[0:32:00\]
—
\[0:32:30\]
）：ramp up——从低比例（如1%）逐步增加至100%，平衡风险和学习。
具体问题：
如何决定下一阶段ramp的比例？
如何利用所有阶段的数据（而不只是最终阶段）来减少方差？（
\[0:35:10\]
—
\[0:35:30\]
）
自适应实验：如何在大配置空间（颜色、形状、参数）中高效探索最优配置？（
\[0:35:40\]
—
\[0:36:00\]
）
转写中未给出具体方法，只提到一篇自己的论文（未命名）。

3.5 挑战四：观察性因果研究（
\[0:36:30\]
—
\[0:39:30\]
）¶

何时需要：当A/B测试不可行时（如品牌广告不可设对照、政策限制、法律约束）。
实践方法：在公司内部平台中实现了三种最常用方法——鲁棒双稳健估计、工具变量、面板数据，并自动化程度较高。
未深入理论。

3.6 三个有趣的应用（
\[0:40:00\]
—
\[0:46:00\]
）¶

公平性度量（
\[0:40:50\]
—
\[0:42:00\]
）：引入Atkinson等式指数来检测实验是否对部分用户有害（即使平均效应为正）。例子：一个特征帮助低社交资本的用户更多，缩小差距。
弱联系的力量（
\[0:42:00\]
—
\[0:43:00\]
）：利用数百个实验变化作为工具变量，因果证明增加网络多样性可提升劳动力市场流动性多达15%。
异质性处理效应与个性化（
\[0:43:30\]
—
\[0:46:00\]
）：在营销折扣场景中，希望找到“处理-用户群”最优对。规模大时需自动化搜索。

3.7 讨论者Iavor Bojinov的补充（
\[0:49:00\]
—
\[1:00:00\]
）¶

总结四个挑战（超越平均、连接单元、长期效应、实验速度）。
聚焦“阶段发布（phased release）”问题，用潜在结果框架形式化多阶段治疗路径：同一用户在不同阶段可能经历不同处理序列（如第一阶段对照、第二阶段处理）。提出可以测量的各种效应（短期效应、学习效应、长期效应）。
开放问题：如何设计阶段大小和持续时间？为何是1%、2%、5%等？不同公司有不同的经验法则（Apple: 1-2-5-10-20-50；Google: 无推荐）。
呼吁学术与工业界合作，分享数据，开发数学公式化。

四、对应论文与开放问题¶

(a) 这场报告对应的主要论文/书籍¶

书籍：Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. （转写结尾
\[0:47:50\]
明确提到）
网络效应检测方法：Saveski, M., et al. (2017). Randomize over randomized experiments to detect network effects. 转写
\[0:17:10\]
—
\[0:17:40\]
提及，但未给出全名，需核实；可能出自KDD 2017或类似会议。
基于边的分析和近似公式：转写中未给出具体引用，但从内容推测可能是Xu, Y., et al. 在LinkedIn内部的技术报告或KDD Workshop，需查证。
序贯实验的框架：转写
\[0:35:00\]
—
\[0:35:30\]
提到“paper”，但未列标题，可能出自Ya Xu的团队；建议搜索作者“Ya Xu”和关键词“phased release”“sequential experimentation”。
异质性应用（弱联系）：Kuchler, L., et al. 的LinkedIn研究论文，具体未知。

注意：这些引用信息全部来自转写中不确定的记忆或口头提及，具体标题、作者、年份需对照视频或论文数据库核实。

(b) 报告留下的开放问题（每条扎根转写）¶

干扰下集群随机化的高效剖面设计（
\[0:19:30\]
—
\[0:20:00\]
）：即使80%边被切断，剩余20%的干扰仍然大，cluster数量仅5000导致功效低。问题：能否在聚类算法中引入平衡约束或设计偏差校正方法，使得在工业规模（百万节点）下既能保持功率又能有效控制干扰？
长期效应与短期效应的差距推断（
\[0:30:20\]
—
\[0:30:50\]
）：存在cookie churn、网络级联、生存偏差等，使得简单的长时间运行实验无效。问题：能否利用半参数模型或U统计量（如高阶影响函数）从短期实验数据外推长期效应，并给出置信区间？
序贯实验中多阶段数据的最优利用（
\[0:35:10\]
—
\[0:35:30\]
）：当前只使用最终阶段数据估计效应，忽略了早期阶段信息。问题：如何设计序贯似然比或贝叶斯方法，以利用1%数据的信息减少50%阶段的方差？是否与联立推断或adaptive stopping有关？
阶段发布中阶段的规模和时间点选择（讨论者Bojinov，
\[0:52:50\]
—
\[0:54:20\]
）：没有理论指导，只有经验法则。问题：能否形式化为一个最优停止问题（如多臂赌博机与风险控制），并推导出依赖先验风险的后验最优规则？是否需要序贯假设检验的新框架？
异质性处理效应中处理和用户群的联合最优选择（
\[0:44:30\]
—
\[0:45:30\]
）：配置空间巨大，需自动化探索。问题：能否利用随机矩阵理论或低度多项式屏障来分析“统计-计算权衡”？当前有无已知的information-computation gap？是否可借助高阶U统计量的计算复杂性理论来刻画暴力搜索的成本？
观察性因果推断方法的可扩展性（
\[0:38:30\]
—
\[0:39:00\]
）：已实现工具变量、面板数据等，但未讨论选择偏差和灵敏度。问题：如何在自动化平台上为每次分析设定合理的敏感性分析框架（e.g., Rosenbaum bounds），并确保计算开销可控？

以上问题都是基于转写讲者直接说明“未解决”或“没有完美解决方案”，研究者陈星宇可以在其中挑选与自身工具库（半参数效率、高阶U统计量、因果识别、统计计算）匹配的题目。

Maintained by 陈星宇 · Homepage · Source on GitHub

Causal Inference Challenges in Industry : A perspective from experiences at LinkedIn¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

3.1 背景与基础（\[0:05:00\]—\[0:10:00\]）¶

3.2 挑战一：干扰（Leakage / Interference）（\[0:10:30\]—\[0:27:30\]）¶

3.3 挑战二：测量长期效应（\[0:27:40\]—\[0:36:55\]）¶

3.4 挑战三：序贯实验（Sequential Experimentation）（\[0:31:30\]—\[0:38:30\]）¶

3.5 挑战四：观察性因果研究（\[0:36:30\]—\[0:39:30\]）¶

3.6 三个有趣的应用（\[0:40:00\]—\[0:46:00\]）¶

3.7 讨论者Iavor Bojinov的补充（\[0:49:00\]—\[1:00:00\]）¶