Causal inference with cross-temporal design¶

作者: Yi Cao, Pedro L Gozalo, Roee Gutman
来源: Biometrics
主题: 因果推断
相关性: 8/10
机构绿灯: Brown University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujae163

一、领域脉络与小综述¶

这个方向是什么¶

本子方向聚焦于观察性研究中工具变量（IV）识别假设的替代与放松。经典IV依赖三个核心条件：(i) 相关性（instrument 与 treatment 相关）；(ii) 排除限制（instrument 仅通过 treatment 影响 outcome）；(iii) 无混杂（instrument 与 outcome 无未观测混杂因子）。在鼓励设计（encouragement design）中，若鼓励（encouragement）本身无法随机化，研究者需依赖观察数据，此时排除限制常因时间趋势或间接路径而违反。本文提出的"交叉时序设计"（cross-temporal design）采用时间维度模拟随机鼓励，并用共同趋势假设（common trends assumption）替代排除限制，从而区分时间混杂与干预效应。当前该子方向的成熟度处于方法拓展期——已有若干替代排除限制的识别策略（如单调性假设、近端IV、断点回归等），但以时间趋势结构替代排除限制的贝叶斯程序尚属新颖。

发展脉络（history）¶

由于论文未提供完整的introduction引用列表，以下基于领域已知文献和abstract中暗示的对比对象进行合理重构（注：此处引用的具体语句为根据文献常态推断，非从本文原文摘录）：

奠基工作：Angrist, Imbens & Rubin (1996) 形式化随机鼓励设计的因果框架——将IV与潜在结果结合，证明在单调性条件下可识别局部平均处理效应（LATE）。本文引用句中提到"the randomized encouragement design is a possible solution"，表明其作为基准参照。
主要进展——放松排除限制：已有多项工作试图在IV设计中放松排除限制：(a) 近端因果推断（Proximal causal inference, Tchetgen Tchetgen et al., 2020）用代理变量替代未观测混杂；(b) 断点回归（RD）利用门槛附近的局部随机化；(c) 工具变量加入时间结构的识别策略（如交互IV，交互项作为工具）。本文明确"replace the commonly used exclusion restrictions with temporal assumptions"，这是其核心创新口子。
当前frontier：在panel数据或纵向结构下，利用时间趋势的差异变化来识别因果效应是活跃方向，如双重差分（DID）的平行趋势假设。本文的交叉时序设计可视为一种"时间上的安慰剂试验"，但将DID的平行趋势思想嵌入到鼓励设计中，同时保持IV的相关性。
本文的位置：提出一种在非随机鼓励场景下，通过共同趋势假设实现识别的贝叶斯方法，并在模拟中与IV（两阶段最小二乘？）和匹配法对比，显示贝叶斯估计精度更高且对共同趋势违反稳健。

⚠️ 作者的framing（基于abstract与领域理解推断）：作者将缺口frame为"鼓励无法随机化时，常用IV因排除限制不可信，而cross-temporal设计用时间替代随机化，并用共同趋势假设替代排除限制，因此是显然的下一步"。竞争路线（如近端IV、GMM估计器）被淡化：可能因为他们需要额外的代理变量假设（近端IV）或局部性假设（RD）。明显该被引但未出现在intro中？ 根据abstract，本文对比了IV和匹配法，但未提及近端IV、交互IV、二维断点等更近期的识别替代策略——这是值得研究者去查的问题：作者是否故意回避了这些竞争路线？是否在引言中讨论了它们？需要获取全文核查。

子线索聚类¶

本文所涉文献大致落在两条子线索：

线索A：鼓励设计与LATE的扩展（Angrist et al. 1996, Imbens 2014等）。关注在非完全依从条件下如何定义和识别因果效应。本文的交叉时序设计是对LATE框架在时间维度上的再包装。
线索B：时间趋势的因果建模（双重差分、事件研究、合成控制等）。共同趋势假设是该分支的核心。本文将其与IV识别结合，形成"时间充当工具"的变体。

这个方向在追问的核心问题（2-4个）¶

识别问题：在缺乏随机化、排除限制可能违反时，如何用时间结构替代？共同趋势假设是否可检验？替代排除限制后，识别集是否收缩或扩大？
估计问题：贝叶斯程序与频繁学派估计器（GMM、两阶段最小二乘）在有限样本下的偏差-方差权衡如何？是否可推导渐近分布？
可检验性：共同趋势假设是否可基于观测数据部分检验？若违反，偏倚方向如何？
外部有效性：交叉时序设计估计的效应是局部平均处理效应（LATE）还是平均处理效应（ATE）？如何处理异质性？

张力¶

未见明显对立引用（因信息不足）。但理论上，共同趋势假设要求无残余的时间相关混杂——这与DID的平行趋势假设一致，但若存在时变混杂（如政策、经济周期），则共同趋势可能被违反，导致估计偏倚。这种偏倚方向与排除限制违反的偏倚方向可能不同，需比较两者敏感性。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号（基于abstract和IV框架的合理推断，本文未提供完整记号的名单）： - \(Z\)：时间指标（如2011、2012、…2017）。可观测。 - \(D\)：接受干预的指示变量（如是否参加Medicare Advantage）。可观测。 - \(Y\)：结果变量（如30天内再住院风险）。可观测。 - \(C\)：是否依从（compliance）？在鼓励设计中，\(D\)受鼓励\(G\)影响。但本文中\(G\)不是随机化变量，而是被时间\(Z\)所"模拟"。记\(G_z\)为在时间\(z\)的鼓励状态（如政策扩张力度），但本文直接将时间作为"鼓励"的代理。 - \(Y(d)\)：潜在结果，如果\(D=d\)。不可观测（仅观察一个）。 - \(D(z)\)：潜在干预状态，如果时间\(=z\)。不可观测。 - 共同趋势假设（本文核心）：存在某个基期（如2011年前），认为\(Y(0)\)（未干预时的结果）在时间上的趋势在不同组别间平行。具体涉及"cross-temporal design"——将时间划分为"pre-expansion"和"post-expansion"区域，比较同一时间段内早期与晚期的变化。

模型（推断）：数据生成机制：对于每个个体\(i\)，在时间\(t\)观测到\((Z_{it}, D_{it}, Y_{it})\)。假设\(Z_{it}\)仅在时间维度变化（如年度）。作者构造了一个"cross-temporal"对比：类似DID，但将时间作为鼓励的近似随机分配。类比：若MA扩张在2011-2017年间逐步扩散，不同区域/个体在不同时间点加入MA，则可利用"加入时间"的异质性识别效应。

可观测数据： - 实际中，研究者观测到每个个体的时间\(t\)、干预状态\(D_{it}\)、结果\(Y_{it}\)，可能还有协变量\(X_{it}\)。 - 不可观测：个体在未发生政策改变时的潜在结果\(Y_{it}(0)\)；个体在所有时间点的潜在依从类型（always-taker, never-taker, complier, defier）。

第二步：最小内核¶

将本文的核心简化为二维情形（只有两个时期：\(t=0\)（对照期）和\(t=1\)（处理期）），且假设在\(t=1\)时，有一个群体子集受到了鼓励（encouragement），而另一群体未受鼓励。但鼓励未随机化，因此可能存在选择偏倚。

最简特例： - 假设只有两个时间点：\(t=0\)（基线）和\(t=1\)（政策实施后）。 - 在\(t=1\)，一部分个体被"鼓励"参加MA（例如居住在MA扩张力度大的区域），另一部分未被鼓励。 - 关键：鼓励状态\(G\)（0/1）不是随机分配的，但作者认为\(G\)与时间有关（\(t=1\)时的G by region）。然而时间本身可能与结果趋势相关：\(Y\)可能随时间自然下降（比如医疗进步）。 - 识别目标：个体在\(t=1\)被鼓励后参加MA的因果效应（类似于局部平均处理效应）。

本文的核心想法：用共同趋势假设替代排除限制。具体地，假设在\(t=0\)（无鼓励时），\(Y\)在不同区域（未来受鼓励 vs 未来不受鼓励）之间的差异随时间保持恒定（即平行趋势）。那么，\(t=1\)时观测到的差异变化就可以归因于鼓励效果（加上依从者效应）。这本质上是DID应用于IV的设定：\(E[Y_{t=1}|G=1] - E[Y_{t=1}|G=0] - (E[Y_{t=0}|G=1] - E[Y_{t=0}|G=0])\) 识别的是"接受干预"%的某些局部效应，前提是排除限制被替换为共同趋势。

最小内核（数学上）：定义 \(\tau = E[Y_{t=1} - Y_{t=0} | D=1] - E[Y_{t=1} - Y_{t=0} | D=0]\)（简单粗暴）。但需要工具变量调整。本文的交叉时序设计本质上是在做：用\(G\)作为工具，但\(G\)可能与\(Y_{t=1}\)直接相关（排除限制违反）。此时，共同趋势假设说：在没有干预的情况下，\(Y\)在\(G=1\)和\(G=0\)之间的差异不随时间改变。于是，\(G\)对\(Y\)的间接影响（通过时间趋势）可在DID框架下减去。所以识别等式变为：

\[\text{ITT} = (E[Y|G=1, t=1] - E[Y|G=1, t=0]) - (E[Y|G=0, t=1] - E[Y|G=0, t=0])\]

然后除以\((\pi_1 - \pi_0)\)，其中\(\pi_g = E[D|G=g, t=1]\)（假设\(D\)在\(t=0\)时全为0），得到LATE（依从者平均处理效应）。这就是该最小内核的数学本质。本文的关键想法是：在时间趋势调整后，\(G\)的排他性约束可以放松为"对结果没有直接的时间-组别交互效应"。

三、这篇论文做了什么¶

三句话¶

研究了在鼓励无法随机化、工具变量排除限制可能违反的观察性研究中，如何利用时间维度模拟随机鼓励并识别因果效应。
提出了交叉时序设计（cross-temporal design），用共同趋势假设替代排除限制，并开发了贝叶斯程序进行估计。
通过模拟对比IV和匹配法，贝叶斯方法在估计精度上更优且对共同趋势违反稳健，并应用于2011-2017年Medicare Advantage扩张数据，估计MA参保对出院后30天再住院风险的影响。

关键设定与假设（基于abstract推断，待全文验证）¶

交叉时序设计假设：
(C1) 相关性：时间（或时间相关的鼓励变量\(Z\)）与干预\(D\)相关。
(C2) 共同趋势假设（代替排除限制）：在没有干预效应的情况下，对比组（被鼓励 vs 未被鼓励）的结果均值之差在时间上恒定。即
\[E[Y_{t}(0)|Z=1] - E[Y_{t}(0)|Z=0]\]
对\(t\)是常数。此处\(Y_t(0)\)是未接受干预时的潜在结果。
(C3) 单调性：时间上的鼓励不会使任何人减少干预（传统单调性假设）。
贝叶斯估计设定：假设结果模型和干预模型为线性或广义线性，参数先验为正态或均匀分布，MCMC采样后验。未提及非参数或半参。
相比已有文献的放宽/强化：放宽了排除限制（不再要求工具变量仅通过干预影响结果），但加强了共同趋势假设（在双重差分中常见，但在IV设定中尚属新引入）。相比传统IV，这是以时间趋势假设换排除限制。

主要结果（基于abstract和推测，需全文核实）¶

模拟结果：贝叶斯方法相比IV（可能是2SLS）和匹配法在均方根误差（RMSE）方面更优；当共同趋势假设轻微违反时，贝叶斯方法的偏倚增加幅度小于IV方法（IV在违反排除限制时偏倚可能很大）。
实证应用：2011-2017年Medicare Advantage扩张数据。结果：MA参保（相对于传统Medicare）使SNF后30天再住院风险降低（具体效应大小未给出）。该结论与部分先前文献（如MA可能降低再住院率）一致。

证明路线与技术技巧¶

本文为方法型+贝叶斯，非纯理论，故无严格定理证明。但识别部分有论证。 - 识别论证：在共同趋势假设下，ITT（intention-to-treat）效应等于DID估计量\(\Delta_{DID}\)。然后使用Wald估计量（\(\Delta_{DID}\)除以接受鼓励的依从者比例之差）恢复LATE。 - 估计路线： 1. 构建似然：\(Y_{it}\)和\(D_{it}\)的联合分布，给定时间\(t\)和组别（根据\(Z_{it}\)划分）； 2. 设置先验； 3. MCMC采样后验； 4. 从后验计算ATT或LATE的均值与区间。 - 技术技巧：贝叶斯框架自然处理参数不确定性；对共同趋势违反的稳健性源于贝叶斯收缩（先验对时间趋势差异施加了缩减）。对比IV方法要求排除限制精确成立，贝叶斯方法允许趋势差略有偏移。

真实例子与应用¶

数据：2011-2017年Medicare Advantage扩张数据（来自CMS），研究对象为住院后转入专业护理设施（SNF）的老年人。变量：是否参加MA（binary）、30天内再住院（binary）、时间（年份）、地区（可能是区域或县）。
方法应用：将年份\(t\)作为时间维度。交叉时序设计：选择在2011年尚未参加MA的个体，随后一部分人在后续年份因MA扩张而转为MA（鼓励=\(G\)，定义为政策力度大的区域的早期年份）。实际上，\(G\)可能是某个根据政策时间/区域构造的"距离扩展水平"等。具体定义需看全文。
结果：MA参保显著降低再住院风险（假设）。论文用这个例子展示方法可行，且结果与现实趋势一致。

🔎 结论是否比证明窄¶

推测：abstract声称贝叶斯方法"outperforms the other two approaches in terms of estimation accuracy"——但模拟可能基于特定生成模型（如线性可加趋势、正态误差）。如果真实数据违反这些参数假设（如非线性趋势、二元结果），贝叶斯方法的优越性可能不普遍。结论"relatively robust to various violations of the common trends assumption"——这个"various"是哪几种？是否包含双向违反（加入交互效应）？需要看文章的敏感性分析。这是值得研究者核查的具体语句：Figure中展示的违反模式是否覆盖了常见的时变混杂（如每年增长率差异）？

四、开放问题¶

共同趋势假设的可检验性与测试：本文是否在实证部分提供了共同趋势假设的验证（如平衡检验或假想结果分析）？开放问题：能否构造一个正式的统计检验（类似DID中的平行趋势检验）用于交叉时序设计？扎根于：本文共同趋势假设为识别关键，但abstract未提检验。
用时间替代随机鼓励的充分条件：时间本身可能受其他同时政策影响（如医疗补助扩张），导致共同趋势违反。开放问题：在多项式时间趋势或已知结构性断点下，能否引入多个时间点或假想安慰剂检验来识别？扎根于：应用中使用2011-2017，其中可能有联邦政策变化（如ACA医疗改革），但这未被控制。
贝叶斯估计的有限样本性质：本文提出贝叶斯程序，但未给出收敛率或相合性。开放问题：在非参数共同趋势模型下，贝叶斯后验的收缩率是否存在？与半参效率界的差距是多少？扎根于：结果声称"Bayesian approach outperforms"——但有限样本性能是否可被理论解释？
排除限制与共同趋势之间的交换：作者用共同趋势强假设换掉了排除限制这个弱假设？实际上，排除限制强度因语境而异：有时排除限制更合理（如抽签作为工具），本文框架是否可推广到排除限制部分成立的情况（如两者结合识别）？扎根于：本文对竞争路线（如近端IV）的讨论缺失，这是一个可能更广泛的识别框架的缺口。

Maintained by 陈星宇 · Homepage · Source on GitHub