Transfer Learning Between U.S. Presidential Elections: How much can we learn from a 2020 ad campaign to inform 2024 elections?¶
讲者: Hyunseung Kang
讨论人: Melody Huang
来源: OCIS (Online Causal Inference Seminar)
日期: 2024-04-30
主题: 因果推断
视频: https://youtu.be/WzH2YzaVQx0 · 幻灯片
本页据讲座录音的自动转写(ASR)生成。人名 / 术语 / 公式 / 具体的率与界可能被听错,关键处请对照视频或讲者论文核对。
一、这场报告在讲哪条工作线¶
子方向:迁移学习(Transfer Learning / Generalizability / Transportability)中的敏感性分析。
这个子方向回答的问题是:我们能否将在一个研究/时间/地点(源总体)中估计出的因果效应,迁移到另一个不同的研究/时间/地点(目标总体)?其核心假设是choice-based transportability:给定一组共同观测的协变量 \(V\),潜在结果 \(Y(a)\) 与源/目标指示变量 \(S\) 条件独立。当这个假设不成立(如不同的选举年),就需要敏感性分析来量化结论对假设偏离的稳健性。
奠基与主流路线: 1. 无敏感性分析的迁移:Dahabreh et al. (2019, 2023), Egami & Hartman (2023), Degtiar & Rose (2023) 等建立了标准识别与估计框架(通常假设 transportability 成立)。 2. 带敏感性分析的迁移:已有多种参数化模型,如线性结果模型 (Nguyen et al., 2017; Dahabreh et al., 2020; Zeng et al., 2023)、指数倾斜模型 (Dahabreh et al., 2022)、边际敏感性模型 (Nie et al., 2021)、遗漏变量偏差模型 (Huang, 2024b)。这些工作提供了一整套工具,但通常假设源和目标观测量相同的协变量集。 3. 校准敏感性参数:如何判断一个敏感性参数(如 odds ratio 偏差)是否“大”一直是个难点。常见做法包括排除单个协变量(Imbens, 2003; Carnegie et al., 2016)或利用 R² 度量(Cinelli & Hazlett, 2020)。但缺乏针对迁移学习场景的系统校准方法。
这场报告的站位: - 特色 1:源、目标协变量集不同(源 ⊇ 目标)。 这引入了额外的 nuisance parameter——将 CATE(X) 投影到更小空间 \(V\) 上(Zeng et al., 2023 的工作)。报告的理论部分(EIF)正是在这个更复杂设定下推导的。 - 特色 2:数据是离散的。 导致简单的插件估计量自动非参有效(源自 Chamberlain, 1987, Theorem 1),这为用回归+自举(而非复杂 DML)提供了理论基础。 - 特色 3:提出基于“不相似分块”的特定校准方法。 利用源 RCT 自身数据,创造“伪源”和“伪目标”,用真实 ATE 与迁移估计的比较来校准敏感性参数范围。这是对“怎么知道自己是否偏得太多”问题的务实回答。
二、最小内核 / 一个最简例子¶
符号与模型: - \(S \in \{0,1\}\),\(S=1\) 源 (2020),\(S=0\) 目标 (2024)。 - \(A \in \{0,1\}\) 处理(投放负面广告)。 - \(Y \in \{0,1\}\) 结果(是否投票)。 - 协变量分两层: - \(X\) 源协变量(2020 RCT 中所有测量值)。 - \(V \subset X\) 目标协变量(2024 普查/选民数据中可获得的子集,如年龄组、性别)。 - 潜在结果 \(Y(1), Y(0)\)。目标 estimand: \(\theta = \mathbb{E}[Y(1) - Y(0) \mid S=0]\)。
最简特例(d=1,一个二值共享变量): 假设 \(X = (V, U)\),其中 \(V\) 是“政党注册(D/R)”,\(U\) 是“特朗普支持率评分”(仅源 RCT 有,目标无)。源 RCT 是分层随机实验,对于每个政党注册的选民,A 以已知概率分配。
核心思想: - 如果 transportability 成立(假设 2020 和 2024 的 \(Y(a) \perp S \mid V\)),那么目标 ATE = 源 RCT 中条件 CATE(\(V\) 层面)再按目标 \(V\) 分布重加权。 - 如果不成立,如何处理?引入两个敏感性参数 \(\gamma_1, \gamma_0\),通过 odds ratio 量化偏差:
看懂这个例子的关键: 以 \(V = \text{政党}\) 为例。源 RCT 中,民主党选民 \(v=D\) 的平均投票概率在暴露广告后是 p1_D,在对照组是 p0_D。如果 \(\gamma_1=0\),则 2024 年民主党选民的广告条件效应 = 2020 年的条件效应。如果 \(\gamma_1>0\),则 2024 年民主党选民的投票概率(在受广告暴露下)更高。\(\theta\) 的识别公式是在源估计的条件 CATE(\(V\)) 基础上,乘以一个指数倾斜因子(见报告公式),然后再按目标 \(V\) 分布求和。
三、报告主体:讲者讲了什么¶
[H:MM] 标注为基于转写的近似时间点,具体对应视频。
[0:00 - 0:04] - 动机与背景: - 回顾 Aggarwal et al. (2023) 的 2020 年大选数字广告 RCT:针对特朗普的负面广告对投票率的影响基本为零(ATE = -0.06 个百分点,SE=0.12)。 - 激活问题:“2020 年广告的无效性,在 2024 年是否同样成立?” 22-23 年强调 2020-2024 的相似性(相同候选人)与巨大差异(新冠 vs. 堕胎、移民等)。
[0:04 - 0:09] - 方法论路线:采用迁移学习+敏感性分析。 - 设计元素:允许协变量漂移、广告效果漂移、源目标协变量不完全重叠。 - 分析元素:简单的插件估计量(因数据离散,非参有效)、理论正确的自举法、基于 EIF 的估计量(如需要连续协变量时)、通过“不相似划分”校准敏感性参数。
[0:09 - 0:12] - 符号与基本设定: - 设定 \(S, A, Y, X, V\) 如上。 - 源 RCT 有“额外协变量 \(X\setminus V\)”(如特朗普支持率评分)。 - 识别公式(图 15):\(\theta = \mathbb{E}[ \mathbb{E}[ \mu_1(V) - \mu_0(V) \mid S=1] \mid S=0 ] + \text{额外期望}\)(此处 \(\mu_a(V)\) 是 CATE(X) = \(\mu_1(X) - \mu_0(X)\) 在源中估计后投影到 V 上形成的函数)。
[0:12 - 0:17] - 敏感性分析模型: - 定义偏差参数 \(\gamma_a\):\(\text{Odds}(Y(a) \mid V, S=0) = e^{\gamma_a} \cdot \text{Odds}(Y(a) \mid V, S=1)\)。 - 解释:\(\gamma_a=0\) 等于 transportability 成立;正 \(\gamma_a\) 表示目标群体 (2024) 广告效果有利于投票,负相反。 - 技术说明(0:16-0:21): - 该模型无 observable restrictions(因为目标群体结果不可观测;引用 Robins et al. 2000 等)。 - 可以采用“局部敏感性模型”,让 \(\gamma_a\) 依赖于 \(V\) 中的特定子变量(如政党)。 - 可用于构建伪 \(R^2\)(引用 Frank & Elbers, 2018, Proposition 3)。
[0:17 - 0:22] - 识别与估计: - 在敏感性模型下,\(\mathbb{E}[Y(a) \mid S=0]\) 可识别为:
[0:22 - 0:27] - 自举法: - 建议对源和目标分别重抽样,构建百分位自举置信区间。 - 强调当目标总体是全部“固定”的选民(如整个州的注册选民)时,只有源数据有抽样不确定性,因此自举时仅需重抽样源(0:23-0:26)。 - 因数据离散,Donkser 条件自动满足(0:25)。
[0:27 - 0:30] - EIF 讨论(若时间允许): - 导出了 EIF(但称其为“最复杂的 EIF 之一”),因协变量不等 + 敏感性指数项。 - 当 transportability 不成立时,该 EIF 不再是 doubly robust,且不消除插件偏差(0:28-0:29)。 - 主要用途在于连续协变量场景,那时单纯回归会带来偏差。
[0:30 - 0:38] - 宾州实证分析: - 源 RCT:5 个战场州。目标:4.8 百万宾州注册选民(67 个县),共享协变量为年龄组、性别、政党、不完整投票历史。源多出种族和更多投票历史。 - 敏感性图(图 23):随着 \((\gamma_0, \gamma_1)\) 变化,ATE 显著性区域在 67 个县间差异极大。例如 Philly 和 Allegheny 对正广告效应敏感;Bedford 和 Fulton 对负广告效应敏感。 - 最不敏感县:Clinton 县(在正负效应方面都是最不敏感的,且是唯一无显著性的县)。
[0:38 - 0:42] - 敏感性参数校准(创新点): - 方法:将源 RCT 的 5 个州按“蓝领州 vs. 非蓝领州”分为 2 个子总体。 - 将其中一个视为“伪源”,另一个视为“伪目标”。计算(a)后者真实的 RCT ATE(称为 Oracle CI)和(b)通过迁移学习从前者估计出的 CI。 - 定义:校准后的“合理”\(\gamma\) 集合 \(C\) 为满足迁移 CI 与 Oracle CI 有交集的 \((\gamma_0, \gamma_1)\)。 - 结果(0:38-0:42): - 校准前:几乎所有县对正效应敏感。 - 校准后:仅剩 9 个县的正效应是“合理的”,且全为拜登 2020 年赢得的城市/大学县(Philly, Allegheny, Centre 等)。这些县主要集中在 urban 大学城,与 Aggarwal et al. 中按特朗普支持率分层的结果一致。 - 负效应分析:校准后大多数县负效应仍然合理,尤其是 Bedfors/Fulton(特朗普高支持率县)。
[0:42 - 0:45] - 初步结论: - 若 transportability 成立,2024 年所有县均无效。 - 若不成立,少数县(城-大学县)可能有效(正效应),大多数县负效应合理。方向与 2020 年投票立场高度相关。 - 关键观察:更好的目标协变量比更大样本量更重要。
讨论部分(Melody 与讲者互动): - Melody 指出天花板效应、carryover effects、gamma 是否恒定问题。讲者回应:间隔 4 年,carryover 影响可能小;gamma 可以随 \(V\) 中的子变量局部变化(局部敏感性识别)。 - Melody 提出校准是否能用于“跨时间”而非“跨空间”的偏移(参考 midterm 数据)。讲者表示这是未来工作。 - 讨论关于“不相似划分”的本质:是广告效果不相似,而非协变量分布不相似。IR (内部) 和 ER (外部) 对于重叠性问题的关系。
四、对应论文与开放问题¶
对应论文: - 这场报告是关于一篇(或一系列)仍在进行的 working paper。据转写,作者包括 Xinran Miao, Jiwei Zhao, Hyunseung Kang(0:01:23-0:01:25)。标题和 arXiv 号未在转写中明确提供。讲者在讨论中提到“这是初步的,在 ACIC 有海报”(0:42:52),说明可能仍在投稿过程中。 - 相关性文献: - Zing et al. (2023) — 协变量不同的迁移学习(被引用 EIF 部分)。 - 确认信息缺乏:无法确认论文标题、arXiv 号或具体合作者全名(如 转写中 “Zim Ran” 应为 “Xinran”)。所有不能确认的信息将标记。
开放问题(扎根于转写/讨论,不作判断): 1. 敏感性参数的不变性(Melody, 0:26-0:28):\(\gamma_a\) 假设对所有 \(V\) 恒定。如何允许其随 \(V\) 变化(局部识别)?能否校准更复杂的模型? 2. 校准中的“不相似”标准(Melody, 0:25-0:26):如何系统性地定义/选择“不相似”分块?只需要基于协变量还是基于预期广告效果差异? 3. 迁移学习中的不确定性(讲者, 0:23-0:26):当目标总体完全已知(如全州选民),自举时是否需要重抽样目标?这如何影响推断? 4. 采用其他敏感性模型(Melody, 0:23-0:24):基于权重的敏感性方法(如边际敏感性模型)与基于结果的 odds ratio 模型如何比较? 5. 跨时间校准(作者, 0:25-0:26):能否利用中间选举(2018, 2022)数据来校准从 2020 到 2024 的 \(\gamma_a\)? 6. 交换性假设的选择(Melody, 0:24):只假设 \(\mathbb{E}[Y(a) \mid X, S=0] = \mathbb{E}[Y(a) \mid X, S=1]\)(即效应可交换)比假设 full transportability 弱。如何在这类假设下构建敏感性模型? 7. 数据实现细节:由于目标数据是“购买”并每周更新的(0:30-0:32),此工作流在实时选举监测中如何实现?是否考虑了选择偏差(只有购买了数据的时刻的选民名单可用)?
Maintained by 陈星宇 · Homepage · Source on GitHub