The informativeness of combined experimental and observational data under dynamic selection¶
作者: Yechan Park, Yuya Sasaki
来源: Journal of Econometrics
主题: 因果推断
相关性: 9/10
链接: https://doi.org/10.1016/j.jeconom.2026.106219
一、领域脉络与小综述¶
这个方向是什么 这个子方向要解决的根本统计问题是:在存在动态选择(dynamic selection / survivorship bias)的纵向/长期追踪数据中,如何对长期因果效应进行部分识别(partial identification)与界估计(bounds estimation)。具体而言,当只有长期观测数据、且个体是否存活(或是否留在样本中)受处理和潜在结果共同影响时,经典的无混淆假设或工具变量往往失效,导致长期效应不可点识别。该方向的当前成熟度处于“从完全负结果向利用辅助数据打破不可能性过渡”的阶段:学界已确认纯观测数据在无强模型假设下无法给出有信息量的界,但如何通过融合短期实验数据等辅助信息来获得紧界,框架仍在建立中。
发展脉络 根据摘要与首读总结中作者提供的引用线索,该方向的发展可串成以下主线: - 奠基工作(目标参数定义与问题显化):Vikstrom et al. (2018) 明确提出了 ATETS(Average Treatment Effect on the Treated Survivors) 这一目标参数,将“动态选择下的长期效应”从单纯的存活偏差问题,提炼为一个具有明确因果解释的待估量,留下了“如何识别该参数”的口子。 - 主要进展(数据融合路线):Athey et al. (2019, 2020) 开辟了结合短期实验与长期观测数据的路线。作者在摘要中直接引用此路线作为“推翻负结果”的核心工具,表明 Athey 的工作确立了“短期实验可锚定长期观测中的选择机制”这一直觉,但未在无模型约束的 partial identification 框架下给出系统的 sharp bounds 推导。 - 当前前沿(系统化 partial identification 框架):Chesher & Rosen (2017) 提供了基于随机约束与支持集的 systematic partial identification framework。作者引用此框架作为推导 sharp bounds 的数学基石,暗示 Athey 路线虽提供了数据融合直觉,但缺乏在一般设定下推导 sharp bounds 的系统化工具。 - 本文的位置:本文站在 Athey (2020) 与 Chesher & Rosen (2017) 的交汇点——用 Athey 的数据融合原则打破 Vikstrom (2018) ATETS 的不可能性,再用 Chesher-Rosen 框架将这种“打破”转化为可计算的 sharp bounds。
子线索聚类 这些被引文献大致落在三条子线索上: 1. 动态选择与长期效应定义(Vikstrom 2018 等):聚焦于在存活偏差下定义何种因果参数(如 ATETS)具有政策意义,以及为何经典面板数据方法失效。 2. 数据融合(Athey 2019, 2020 等):聚焦于如何利用短期实验的内部有效性,去校准长期观测数据中的选择偏差或混淆,属于“用强内部有效性换外部有效性”的路线。 3. 系统化 partial identification(Chesher & Rosen 2017 等):聚焦于不依赖参数化模型,仅利用分布的支持集、单调性等随机约束,通过凸分析推导参数的 sharp identification region,属于纯数理统计的识别理论。
这个方向在追问的核心问题 1. 无辅助数据时的识别极限:在动态选择下,仅靠观测数据,ATETS 的 sharp bounds 是否必然退化到参数的自然范围(即完全无信息)? 2. 辅助数据的最低要求:需要何种结构或类型的辅助数据(如短期实验、工具变量、negative control),才能使 bounds 脱离自然范围、变得有信息量? 3. Sharp bounds 的计算与表征:在融合多种数据源与随机约束后,如何系统化地推导并表征 sharp identification region,而非仅给出松散的(outer)bounds?
⚠️ 作者的 framing - 作者把缺口 frame 成什么:作者将缺口 frame 为“无模型约束 + 无辅助数据 = 不可能性”,这使得“引入短期实验数据”成为显然的下一步,且将 Chesher-Rosen 框架作为将这一直觉转化为严格数学结论的唯一合法工具。 - 竞争路线被淡化或回避:摘要中完全未提及半参数/参数存活模型(如 duration analysis / proportional hazards)这一经典路线。在计量经济学中,通过施加参数化分布假设(如 Cox 模型)或不可检验的独立竞争风险假设,动态选择下的长期效应是可以点识别的。作者刻意将“classical model restrictions”放在与 data-combination principle 并列或从属的位置,暗示这些约束要么不可检验,要么过于强,从而凸显 data-combination 的优越性。 - 明显该被引却未出现的:在因果推断中,打破识别不可能性的另一条主流路线是 Proximal Causal Inference(负控制)(如 Miao, Geng, Tchetgen Tchetgen 2018 等)。Proximal CI 同样是利用辅助变量(负控制暴露/结果)来打破不可识别性,与本文“短期实验作为辅助”的逻辑有深层结构相似性。作者未引此路线,可能是因为计量经济学的 data-combination 传统与统计学的 proximal 传统目前仍处于平行发展状态。这值得研究者去查:是否可以用 proximal 语言重新表述 Athey 的短期实验假设?
张力 被引的这些工作之间,未见明显对立引用。Athey 的数据融合与 Chesher-Rosen 的 partial identification 框架是互补关系。但存在一个隐含的理论张力:Athey 路线通常依赖短期实验与长期观测之间的同质性假设(如短期效应的同质性、或选择机制的同质性),而 Chesher-Rosen 框架追求的是最少假设下的 sharp bounds。本文试图在“利用同质性假设打破不可能性”与“保持无参数约束的 sharpness”之间走钢丝,这种张力本身是本文技术难点的来源。
二、这篇论文做了什么¶
三句话 ① 研究了在动态选择下,仅用长期观测数据无法点识别或部分识别 ATETS 的问题。 ② 核心工具是结合短期实验数据与长期观测数据,并基于 Chesher & Rosen (2017) 的随机约束框架推导 sharp bounds。 ③ 主要结论是:无辅助数据时 ATETS 的 informative bounds 不可能获得;但引入短期实验数据后,即使不施加经典参数模型约束,也能获得 informative sharp bounds。
关键设定与假设 - 目标参数:ATETS(Average Treatment Effect on the Treated Survivors)。定义为在处理组中,存活到长期时间点的那些个体,其受处理与不受处理的潜在结果之差均值。统计含义:它不包含因处理而死亡/退出者的效应,只关注“幸存者”的效应,是政策评估中避免存活偏差的标准参数。 - 动态选择:个体是否存活(\(S=1\))受处理分配 \(D\) 和潜在结果 \(Y(1), Y(0)\) 共同影响。这意味着 \(S\) 既是处理后变量,又是 collider,直接阻断了对 \(Y\) 的无混淆识别。 - 数据结构:长期观测数据(包含 \(D, S, Y\) 的联合分布)+ 短期实验数据(包含短期处理 \(D\) 与短期结果 \(Y_{short}\) 的分布,通常 \(D\) 是随机分配的)。 - 关键假设(Data-combination principle):沿 Athey et al. (2020) 路线,假设短期实验中的短期效应与长期观测中的短期部分存在某种连接(如短期结果的分布一致性,或短期效应的同质性)。相比已有文献,本文在推导 bounds 时不施加参数化存活模型约束(如 Cox 模型),仅依赖分布支持集与数据融合的随机约束。
主要结果 - 定理 1(Impossibility Result):在无模型约束且无辅助数据时,ATETS 的 informative bounds 不可能获得。 - 直觉:在动态选择下,仅观测 \((D, S, Y)\) 的联合分布,由于 \(S\) 依赖于潜在结果,未存活者的 \(Y\) 分布完全不可观测,导致 ATETS 的识别区域退化到参数的先验逻辑范围(例如,若 \(Y \in [0,1]\),则 ATETS 的 bounds 必为 \([-1, 1]\) 或 \([0, 1]\),无任何统计信息量)。 - 必要条件:仅需动态选择(\(S\) 依赖潜在结果)与无辅助数据。 - 解决的技术难点:严格证明了在一般分布类下,不存在比先验范围更紧的 bounds,确立了纯观测数据的理论极限。 - 定理 2(Possibility via Data Combination):利用短期实验数据与长期观测数据的组合,可以在不施加经典模型约束下获得 informative bounds。 - 直觉:短期实验数据提供了短期因果效应的无混淆估计,这锚定了长期观测数据中处理对短期结果的影响,进而通过短期结果与存活/长期结果的关联,收紧了未存活者潜在结果的分布范围,打破了 impossibility。 - 必要条件:短期实验数据与长期观测数据在短期维度上的分布一致性或效应同质性假设。 - 定理 3(Sharp Bounds):基于 Chesher & Rosen (2017) framework,推导融合 data-combination principle 与经典模型约束的 sharp identification bounds。 - 直觉:Chesher-Rosen 框架将识别问题转化为随机变量支持集上的凸分析问题。本文将数据融合的随机约束(短期实验分布)与存活机制的逻辑约束(如 \(S\) 的支持集条件)嵌入该凸分析框架,得到的 bounds 是所有可行分布下参数范围的精确包络,而非松散的外界。 - 解决的技术难点:如何在凸分析框架中引入跨数据源的随机约束,并保证界的 sharpness(即不存在更紧的界能被同一组约束所支持)。
证明路线与技术技巧 - 整体路线: 1. 确立 Impossibility:构造一族满足观测分布 \((D, S, Y)\) 的潜在结果分布,证明在该族内 ATETS 可以取到先验范围内的任意值,从而 bounds 退化。 2. 引入 Data-combination 约束:将短期实验分布作为额外的随机约束,限制潜在结果分布族的取值范围。 3. 转化为 Chesher-Rosen 框架:将所有约束(支持集、分布一致性、动态选择逻辑)转化为随机变量支持集上的凸集约束。 4. 求解 Sharp Identification Region:通过凸分析(如投影、极值点刻画)求解目标参数(ATETS)在这些约束下的极小与极大值,得到 sharp bounds。 - 关键跳跃点:从“短期实验约束”到“长期 ATETS bounds”的跨越。难点在于短期实验只约束短期结果,而目标是长期结果,必须通过存活机制 \(S\) 将短期约束传递到长期。作者利用了 \(S\) 作为 collider 的结构,将短期约束与长期约束在 \(S\) 的条件分布上“缝合”。 - 技术技巧点名: - Systematic partial identification / 随机约束凸分析(Chesher & Rosen 2017):用于将识别问题转化为支持集上的凸优化,保证界的 sharpness。 - Data-combination principle(Athey et al. 2020):用于引入跨数据源的分布一致性约束,打破 impossibility。 - 支持集刻画:用于显式构造 impossibility 证明中的反例分布族,以及 sharp bounds 中的极值点。
真实例子与应用 - 场景:职业培训项目对就业的长期效应评估。 - 数据:长期观测数据(追踪受培训与未受培训者的长期就业状态,但存在退出/失业导致的动态选择)+ 短期实验数据(类似 NSW 实验等,有短期随机分配的培训与短期就业记录)。 - 应用方式:将短期实验数据作为辅助约束,代入 Chesher-Rosen 框架,计算长期 ATETS 的 sharp bounds。 - 结果与说明:在无辅助数据时,长期效应的 bounds 宽至无统计意义;引入短期实验后,bounds 显著收紧,表明短期实验对推断长期效应具有实质性信息贡献。此例子主要验证理论:展示 impossibility-to-possibility 的跨越,以及 data-combination 在真实数据上的界收紧效果。
🔎 结论是否比证明窄 - 摘要中声称“exploiting short-term experimental data can be informative without imposing classical model restrictions”。这一结论严格依赖于 Athey et al. (2020) 的 data-combination principle 中的同质性/一致性假设。如果短期实验与长期观测的短期维度不可比(如人群不同、处理不同),则“informative”的证明将断裂。作者在摘要中将“without imposing classical model restrictions”与“exploiting data-combination”并列,但后者本身也是一种强假设,只是不属于“经典参数模型约束”。研究者需在正文中核验:data-combination principle 的具体假设条件是什么?其不可检验程度是否比参数模型假设更低?
三、开放问题¶
- Proximal CI 与 Data-combination 的统一框架:本文用短期实验打破 impossibility,Proximal CI 用 negative control 打破 impossibility。能否将“短期实验”视为一种特殊的“负控制暴露”,从而在半参数效率理论下统一这两种打破不可能性的路线?(扎根于摘要中未引 proximal CI 的空白,以及首读总结指出的结构相似性)。
- Bounds 的宽度与辅助数据量的定量关系:本文证明了 informative bounds 的存在性,但 bounds 的宽度(信息量)如何随短期实验的样本量或短期时间点的数量变化?能否推导出类似 minimax rate 的界收敛速度?(扎根于“informative bounds”这一定性表述,缺乏定量率)。
- 动态选择的多期扩展:本文设定为短期-长期两期,若存在多期动态选择(\(S_1, S_2, \dots, S_T\)),Chesher-Rosen 框架下的凸分析维度将剧增。如何计算多期 ATETS 的 sharp bounds?(扎根于 dynamic selection 设定的一般化)。
四、最核心、最简单的例子 / 数学问题¶
最简特例:两期、二值设定下的 Impossibility-to-Possibility
剥掉所有连续分布与一般时间维度的外壳,考虑最小内核: - 时间点:短期 \(t=1\),长期 \(t=2\)。 - 处理:\(D \in \{0, 1\}\)。 - 存活:\(S \in \{0, 1\}\)(\(S=1\) 表示存活到 \(t=2\))。 - 结果:短期 \(Y_1 \in \{0, 1\}\),长期 \(Y_2 \in \{0, 1\}\)。 - 目标:\(ATETS = E[Y_2(1) - Y_2(0) | D=1, S=1]\)。
Impossibility(无辅助数据): 仅观测长期数据 \((D, S, Y_2)\)。对于 \(D=1, S=0\) 的个体,\(Y_2(1)\) 不可观测;对于 \(D=0, S=0\) 的个体,\(Y_2(0)\) 不可观测。由于 \(S\) 依赖潜在结果,可以构造反例:让未存活者的 \(Y_2(1)\) 全为 1,或全为 0,均与观测分布兼容。此时 \(ATETS\) 的可行范围覆盖 \([-1, 1]\),完全无信息。这就是定理 1 的退化形式。
Possibility(引入短期实验): 引入短期实验数据,观测 \((D, Y_1)\) 的联合分布。假设短期实验中 \(D\) 随机分配,可得 \(E[Y_1(1) - Y_1(0)]\)。 关键跳跃:假设 \(Y_1\) 与 \(S, Y_2\) 存在逻辑关联(如 \(Y_1=0\) 则 \(S=0\) 必成立,即短期失败者长期必退出)。此时,短期实验约束了 \(Y_1(1)\) 的分布,而 \(Y_1\) 的分布进一步约束了 \(S\) 的条件分布,从而收紧了未存活者 \(Y_2(1)\) 的可行取值范围。ATETS 的 bounds 从 \([-1, 1]\) 收缩为更窄的区间(如 \([0.1, 0.5]\)),即 informative。
核心数学困难:如何在一般分布下,将“短期实验约束 \(P(Y_1|D)\)”与“存活逻辑约束 \(P(S|Y_1, Y_2, D)\)”转化为对 \(P(Y_2(1), Y_2(0)|D=1, S=1)\) 的凸集约束,并求极值。Chesher-Rosen 框架的本质就是:把所有因果假设翻译成潜在结果支持集上的凸约束,然后求目标参数在这个凸集上的极值。本文干的事,就是在 Chesher-Rosen 的凸集里,加了一条由短期实验数据划出的新切面,这个切面把原本退化到整个空间的可行域,切成了一个有界的紧凸集。
Maintained by 陈星宇 · Homepage · Source on GitHub