Transfer Learning Between U.S. Presidential Elections: How much can we learn from a 2020 ad campaign to inform 2024 elections?¶

讲者: Hyunseung Kang
讨论人: Melody Huang
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-04-30
主题: 因果推断
视频: https://youtu.be/WzH2YzaVQx0 · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

一、这场报告在讲哪条工作线¶

子方向：迁移学习（Transfer Learning / Generalizability / Transportability）中的敏感性分析。

这个子方向回答的问题是：我们能否将在一个研究/时间/地点（源总体）中估计出的因果效应，迁移到另一个不同的研究/时间/地点（目标总体）？其核心假设是choice-based transportability：给定一组共同观测的协变量 \(V\)，潜在结果 \(Y(a)\) 与源/目标指示变量 \(S\) 条件独立。当这个假设不成立（如不同的选举年），就需要敏感性分析来量化结论对假设偏离的稳健性。

奠基与主流路线： 1. 无敏感性分析的迁移：Dahabreh et al. (2019, 2023), Egami & Hartman (2023), Degtiar & Rose (2023) 等建立了标准识别与估计框架（通常假设 transportability 成立）。 2. 带敏感性分析的迁移：已有多种参数化模型，如线性结果模型 (Nguyen et al., 2017; Dahabreh et al., 2020; Zeng et al., 2023)、指数倾斜模型 (Dahabreh et al., 2022)、边际敏感性模型 (Nie et al., 2021)、遗漏变量偏差模型 (Huang, 2024b)。这些工作提供了一整套工具，但通常假设源和目标观测量相同的协变量集。 3. 校准敏感性参数：如何判断一个敏感性参数（如 odds ratio 偏差）是否“大”一直是个难点。常见做法包括排除单个协变量（Imbens, 2003; Carnegie et al., 2016）或利用 R² 度量（Cinelli & Hazlett, 2020）。但缺乏针对迁移学习场景的系统校准方法。

这场报告的站位： - 特色 1：源、目标协变量集不同（源 ⊇ 目标）。 这引入了额外的 nuisance parameter——将 CATE(X) 投影到更小空间 \(V\) 上（Zeng et al., 2023 的工作）。报告的理论部分（EIF）正是在这个更复杂设定下推导的。 - 特色 2：数据是离散的。 导致简单的插件估计量自动非参有效（源自 Chamberlain, 1987, Theorem 1），这为用回归+自举（而非复杂 DML）提供了理论基础。 - 特色 3：提出基于“不相似分块”的特定校准方法。 利用源 RCT 自身数据，创造“伪源”和“伪目标”，用真实 ATE 与迁移估计的比较来校准敏感性参数范围。这是对“怎么知道自己是否偏得太多”问题的务实回答。

二、最小内核 / 一个最简例子¶

符号与模型： - \(S \in \{0,1\}\)，\(S=1\) 源 (2020)，\(S=0\) 目标 (2024)。 - \(A \in \{0,1\}\) 处理（投放负面广告）。 - \(Y \in \{0,1\}\) 结果（是否投票）。 - 协变量分两层： - \(X\) 源协变量（2020 RCT 中所有测量值）。 - \(V \subset X\) 目标协变量（2024 普查/选民数据中可获得的子集，如年龄组、性别）。 - 潜在结果 \(Y(1), Y(0)\)。目标 estimand: \(\theta = \mathbb{E}[Y(1) - Y(0) \mid S=0]\)。

最简特例（d=1，一个二值共享变量）： 假设 \(X = (V, U)\)，其中 \(V\) 是“政党注册（D/R）”，\(U\) 是“特朗普支持率评分”（仅源 RCT 有，目标无）。源 RCT 是分层随机实验，对于每个政党注册的选民，A 以已知概率分配。

核心思想： - 如果 transportability 成立（假设 2020 和 2024 的 \(Y(a) \perp S \mid V\)），那么目标 ATE = 源 RCT 中条件 CATE（\(V\) 层面）再按目标 \(V\) 分布重加权。 - 如果不成立，如何处理？引入两个敏感性参数 \(\gamma_1, \gamma_0\)，通过 odds ratio 量化偏差：

\[\text{Odds}(Y(a) \mid V=v, S=0) = e^{\gamma_a} \cdot \text{Odds}(Y(a) \mid V=v, S=1)\]

（讨论人 Melody 注意到：这个公式隐含假设对于所有 \(v\)，\(\gamma_a\) 是常数。尽管实际可能因 \(v\) 而异，但这是当前模型的简化。）

看懂这个例子的关键： 以 \(V = \text{政党}\) 为例。源 RCT 中，民主党选民 \(v=D\) 的平均投票概率在暴露广告后是 p1_D，在对照组是 p0_D。如果 \(\gamma_1=0\)，则 2024 年民主党选民的广告条件效应 = 2020 年的条件效应。如果 \(\gamma_1>0\)，则 2024 年民主党选民的投票概率（在受广告暴露下）更高。\(\theta\) 的识别公式是在源估计的条件 CATE(\(V\)) 基础上，乘以一个指数倾斜因子（见报告公式），然后再按目标 \(V\) 分布求和。

三、报告主体：讲者讲了什么¶

[H:MM] 标注为基于转写的近似时间点，具体对应视频。

[0:00 - 0:04] - 动机与背景： - 回顾 Aggarwal et al. (2023) 的 2020 年大选数字广告 RCT：针对特朗普的负面广告对投票率的影响基本为零（ATE = -0.06 个百分点，SE=0.12）。 - 激活问题：“2020 年广告的无效性，在 2024 年是否同样成立？” 22-23 年强调 2020-2024 的相似性（相同候选人）与巨大差异（新冠 vs. 堕胎、移民等）。

[0:04 - 0:09] - 方法论路线：采用迁移学习+敏感性分析。 - 设计元素：允许协变量漂移、广告效果漂移、源目标协变量不完全重叠。 - 分析元素：简单的插件估计量（因数据离散，非参有效）、理论正确的自举法、基于 EIF 的估计量（如需要连续协变量时）、通过“不相似划分”校准敏感性参数。

[0:09 - 0:12] - 符号与基本设定： - 设定 \(S, A, Y, X, V\) 如上。 - 源 RCT 有“额外协变量 \(X\setminus V\)”（如特朗普支持率评分）。 - 识别公式（图 15）：\(\theta = \mathbb{E}[ \mathbb{E}[ \mu_1(V) - \mu_0(V) \mid S=1] \mid S=0 ] + \text{额外期望}\)（此处 \(\mu_a(V)\) 是 CATE(X) = \(\mu_1(X) - \mu_0(X)\) 在源中估计后投影到 V 上形成的函数）。

[0:12 - 0:17] - 敏感性分析模型： - 定义偏差参数 \(\gamma_a\)：\(\text{Odds}(Y(a) \mid V, S=0) = e^{\gamma_a} \cdot \text{Odds}(Y(a) \mid V, S=1)\)。 - 解释：\(\gamma_a=0\) 等于 transportability 成立；正 \(\gamma_a\) 表示目标群体 (2024) 广告效果有利于投票，负相反。 - 技术说明（0:16-0:21）： - 该模型无 observable restrictions（因为目标群体结果不可观测；引用 Robins et al. 2000 等）。 - 可以采用“局部敏感性模型”，让 \(\gamma_a\) 依赖于 \(V\) 中的特定子变量（如政党）。 - 可用于构建伪 \(R^2\)（引用 Frank & Elbers, 2018, Proposition 3）。

[0:17 - 0:22] - 识别与估计： - 在敏感性模型下，\(\mathbb{E}[Y(a) \mid S=0]\) 可识别为：

\[\mathbb{E} \left[ \frac{\tilde{m}_a(V) \cdot e^{\gamma_a}}{\tilde{m}_a(V) \cdot e^{\gamma_a} + (1-\tilde{m}_a(V))} \; \Big| \; S=0 \right]\]

其中 \(\tilde{m}_a(V) = \mathbb{E}[ Y(a) \mid V, S=1]\) 是源中可估计的指数。 - 提出简单插件估计量： 1. 从源数据估计 \(\tilde{m}_a(V)\)（用回归，因数据离散可完全非参）。 2. 对每个目标个体 \(i\)，将估计的 \(\hat{\tilde{m}}_a(V_i)\) 代入上述公式得 \(\hat{\mathbb{E}}[Y(a)_i \mid S=0]\)。 3. 取 target 中平均值，得 \(\hat{\theta}(\gamma_1, \gamma_0)\)。 - 为什么偏置不是问题：因数据离散，\(\tilde{m}_a(V)\) 的估计是直接将单元格内平均值代入，不产生渐近偏置（Chamberlain, 1987）。这点在 22-24 分钟着重解释。

[0:22 - 0:27] - 自举法： - 建议对源和目标分别重抽样，构建百分位自举置信区间。 - 强调当目标总体是全部“固定”的选民（如整个州的注册选民）时，只有源数据有抽样不确定性，因此自举时仅需重抽样源（0:23-0:26）。 - 因数据离散，Donkser 条件自动满足（0:25）。

[0:27 - 0:30] - EIF 讨论（若时间允许）： - 导出了 EIF（但称其为“最复杂的 EIF 之一”），因协变量不等 + 敏感性指数项。 - 当 transportability 不成立时，该 EIF 不再是 doubly robust，且不消除插件偏差（0:28-0:29）。 - 主要用途在于连续协变量场景，那时单纯回归会带来偏差。

[0:30 - 0:38] - 宾州实证分析： - 源 RCT：5 个战场州。目标：4.8 百万宾州注册选民（67 个县），共享协变量为年龄组、性别、政党、不完整投票历史。源多出种族和更多投票历史。 - 敏感性图（图 23）：随着 \((\gamma_0, \gamma_1)\) 变化，ATE 显著性区域在 67 个县间差异极大。例如 Philly 和 Allegheny 对正广告效应敏感；Bedford 和 Fulton 对负广告效应敏感。 - 最不敏感县：Clinton 县（在正负效应方面都是最不敏感的，且是唯一无显著性的县）。

[0:38 - 0:42] - 敏感性参数校准（创新点）： - 方法：将源 RCT 的 5 个州按“蓝领州 vs. 非蓝领州”分为 2 个子总体。 - 将其中一个视为“伪源”，另一个视为“伪目标”。计算（a）后者真实的 RCT ATE（称为 Oracle CI）和（b）通过迁移学习从前者估计出的 CI。 - 定义：校准后的“合理”\(\gamma\) 集合 \(C\) 为满足迁移 CI 与 Oracle CI 有交集的 \((\gamma_0, \gamma_1)\)。 - 结果（0:38-0:42）： - 校准前：几乎所有县对正效应敏感。 - 校准后：仅剩 9 个县的正效应是“合理的”，且全为拜登 2020 年赢得的城市/大学县（Philly, Allegheny, Centre 等）。这些县主要集中在 urban 大学城，与 Aggarwal et al. 中按特朗普支持率分层的结果一致。 - 负效应分析：校准后大多数县负效应仍然合理，尤其是 Bedfors/Fulton（特朗普高支持率县）。

[0:42 - 0:45] - 初步结论： - 若 transportability 成立，2024 年所有县均无效。 - 若不成立，少数县（城-大学县）可能有效（正效应），大多数县负效应合理。方向与 2020 年投票立场高度相关。 - 关键观察：更好的目标协变量比更大样本量更重要。

讨论部分（Melody 与讲者互动）: - Melody 指出天花板效应、carryover effects、gamma 是否恒定问题。讲者回应：间隔 4 年，carryover 影响可能小；gamma 可以随 \(V\) 中的子变量局部变化（局部敏感性识别）。 - Melody 提出校准是否能用于“跨时间”而非“跨空间”的偏移（参考 midterm 数据）。讲者表示这是未来工作。 - 讨论关于“不相似划分”的本质：是广告效果不相似，而非协变量分布不相似。IR (内部) 和 ER (外部) 对于重叠性问题的关系。

四、对应论文与开放问题¶

对应论文： - 这场报告是关于一篇（或一系列）仍在进行的 working paper。据转写，作者包括 Xinran Miao, Jiwei Zhao, Hyunseung Kang（0:01:23-0:01:25）。标题和 arXiv 号未在转写中明确提供。讲者在讨论中提到“这是初步的，在 ACIC 有海报”（0:42:52），说明可能仍在投稿过程中。 - 相关性文献： - Zing et al. (2023) — 协变量不同的迁移学习（被引用 EIF 部分）。 - 确认信息缺乏：无法确认论文标题、arXiv 号或具体合作者全名（如转写中 “Zim Ran” 应为 “Xinran”）。所有不能确认的信息将标记。

开放问题（扎根于转写/讨论，不作判断）： 1. 敏感性参数的不变性（Melody, 0:26-0:28）：\(\gamma_a\) 假设对所有 \(V\) 恒定。如何允许其随 \(V\) 变化（局部识别）？能否校准更复杂的模型？ 2. 校准中的“不相似”标准（Melody, 0:25-0:26）：如何系统性地定义/选择“不相似”分块？只需要基于协变量还是基于预期广告效果差异？ 3. 迁移学习中的不确定性（讲者, 0:23-0:26）：当目标总体完全已知（如全州选民），自举时是否需要重抽样目标？这如何影响推断？ 4. 采用其他敏感性模型（Melody, 0:23-0:24）：基于权重的敏感性方法（如边际敏感性模型）与基于结果的 odds ratio 模型如何比较？ 5. 跨时间校准（作者, 0:25-0:26）：能否利用中间选举（2018, 2022）数据来校准从 2020 到 2024 的 \(\gamma_a\)？ 6. 交换性假设的选择（Melody, 0:24）：只假设 \(\mathbb{E}[Y(a) \mid X, S=0] = \mathbb{E}[Y(a) \mid X, S=1]\)（即效应可交换）比假设 full transportability 弱。如何在这类假设下构建敏感性模型？ 7. 数据实现细节：由于目标数据是“购买”并每周更新的（0:30-0:32），此工作流在实时选举监测中如何实现？是否考虑了选择偏差（只有购买了数据的时刻的选民名单可用）？

Maintained by 陈星宇 · Homepage · Source on GitHub

Transfer Learning Between U.S. Presidential Elections: How much can we learn from a 2020 ad campaign to inform 2024 elections?¶

一、这场报告在讲哪条工作线¶

二、最小内核 / 一个最简例子¶

三、报告主体：讲者讲了什么¶

四、对应论文与开放问题¶

评论