Semiparametric Difference-in-Differences Estimation With Missing Not at Random Data: A Shadow Variable Approach¶
作者: Junjie Li, Dongyuan Mu
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.08474
一、领域脉络与小综述¶
这个方向是什么:本方向处理的是面板数据因果推断中一个具体的联合难题:当使用双重差分(DID)估计处理组平均处理效应(ATT)时,如果后测结局变量存在缺失非随机(MNAR,即缺失概率取决于未观测到的结局本身),如何在无需额外外部工具变量的情况下,仅利用内部协变量的结构假设完成非参数识别与半参数估计。当前该子方向的识别理论刚从截面数据推广至面板DID设定,估计理论尚停留在IPW与GMM阶段,效率理论(如半参数有效界)尚未建立。
发展脉络: - 奠基工作:半参数DID的基石由 Abadie (2005) 奠定,其提出了条件平行趋势假设(PTA)下的半参数估计;Sant’Anna and Zhao (2020) 与 Chang (2020) 进一步发展了双重稳健(DR)DID估计量。在缺失数据领域,Tsiatis (2006) 系统总结了基于缺失随机(MAR)的半参数理论。 - 主要进展(MNAR截面识别):处理MNAR的早期尝试依赖“非响应工具”,如 d’Haultfoeuille (2010) 与 Wang, Shao, Kim (2014) 利用完备性条件进行识别。Miao and Tchetgen Tchetgen (2016) 引入 odds ratio 模型与 shadow variable 概念,Zhao and Ma (2022) 发展了去相关投影技术,Miao et al. (2024) 则建立了截面数据下 shadow variable 的半参数效率理论。 - 当前 frontier(MNAR面板/DID):Shin (2024) 将 Dukes et al. (2022) 的截面 bespoke IV 推广至DID设定,要求寻找一个外部辅助变量 \(\tilde{R}\) 满足对缺失的相关性、对结局演化的独立性及偏差同质性。作者明确指出此路线的瓶颈:“in small-scale observational datasets, it is often difficult to find an additional variable that satisfies these validity conditions”。 - 本文的位置:本文避开 bespoke IV 路线,将截面 shadow variable 识别框架(Miao et al., 2024)首次移植到两期DID设定中,利用内部协变量子集 \(Z\) 作为 shadow variable,通过 odds ratio 与完备性条件(或参数化 odds ratio)实现识别,并构建了基于 GMM 的 \(\sqrt{n}\)-一致估计量。
子线索聚类: 1. 半参数DID估计:从 Abadie (2005) 的 IPW 到 Sant’Anna and Zhao (2020) 的 DR,再到 Li and Matsushita (2025) 的协变量平衡倾向得分。这一簇关注无缺失下DID估计的稳健性与效率。 2. MNAR识别:Bespoke IV / Proxy 路线:Dukes et al. (2022) 与 Shin (2024)。依赖外部辅助变量 \(\tilde{R}\),要求其与缺失相关且与结局演化独立(类似 negative control exposure)。 3. MNAR识别:Shadow Variable 路线:Miao and Tchetgen Tchetgen (2016) 与 Miao et al. (2024)。依赖内部协变量子集 \(Z\),要求其与结局演化相关但条件独立于缺失(给定结局演化与基线协变量)。本文属于此簇的DID拓展。
核心追问与瓶颈: 1. MNAR下DID的ATT能否非参数识别? 瓶颈在于 \(E[\Delta Y | D, R=0, X]\) 与 \(Pr(R=1|\Delta Y, D, X)\) 均无法从观测数据直接恢复。 2. 如何绕过完备性条件的支撑集限制? 非参数识别要求 shadow variable \(Z\) 的支撑集不小于缺失变量 \(\Delta Y\) 的支撑集(Newey and Powell, 2003;Zhao and Ma, 2022),这在连续结局+二值 shadow(如户口)时必然失效。当前瓶颈是寻找参数化 odds ratio 的最小约束。 3. 估计量的稳健性与效率界在哪? 当前估计量依赖缺失机制的正确设定,缺乏真正的双重稳健性(对缺失机制与倾向得分/结局模型同时稳健),且效率界未知。
⚠️ 作者的 framing: - 作者的说法:作者将缺口 frame 为“no study has investigated DID estimation with a shadow variable”,并将 bespoke IV 路线刻画为“difficult to find an additional variable... particularly in survey datasets with only a limited number of questions”,从而将 shadow variable(作为协变量子集)呈现为更易获取的“显然下一步”。 - 淡化或回避的竞争路线:作者未提及 Proximal Causal Inference(Tchetgen Tchetgen et al.)的统一框架。Shadow variable 假设 \(Z \perp R | \Delta Y, D, U\) 实质上是 Proximal CI 中 Negative Control Exposure 的特例,但作者仅引用了 Miao 等人的 MNAR 统计文献,未将其与因果图视角下的 proximal 识别理论对接,这可能掩盖了假设的因果可解释性争议。 - 缺失的引用:Intro 中缺乏对 MNAR 因果图结构的系统性讨论(如 Pearl 的 missing data DAG),也缺乏对 MNAR 下敏感性分析的引用(如 Scharfstein et al. 的 work),尽管作者在结论中将其列为 future work。
张力:未见明显对立引用。Shin (2024) 与本文对 MNAR-DID 的解决方案基于不同的排除限制(外部 \(\tilde{R}\) vs. 内部 \(Z\)),二者在假设强度上不可比,不存在同一设定下的相反结论,而是互补的识别策略。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代 - 参数/Estimand:\(\tau = E[Y_1(1) - Y_1(0) | D=1]\),即处理组平均处理效应(ATT)。 - 潜在量:\(Y_{it}(d)\) 为个体 \(i\) 在时间 \(t\) 接受处理 \(d \in \{0,1\}\) 下的潜在结局。 - 随机变量/样本: - \(Y_{it}\):可观测结局,\(t=0\)(前测),\(t=1\)(后测)。 - \(\Delta Y = Y_1 - Y_0\):结局演化(核心缺失变量)。 - \(R_i\):后测结局缺失指示器(\(R=1\) 观测,\(R=0\) 缺失)。前测 \(Y_0\) 假定无缺失。 - \(D_i\):二值处理指示器。 - \(X_i = (U_i, Z_i)\):基线协变量。\(U_i\) 为普通协变量,\(Z_i\) 为 shadow variable。 - 维数/指标:\(n\) 为样本量,\(\gamma\) 为 odds ratio 模型参数。 - 模型(数据生成机制): - 处理分配:\(Pr(D=1|U,Z)\) 未知。 - 缺失机制(MNAR):\(Pr(R=1|\Delta Y, D, U)\),缺失概率取决于未观测的 \(\Delta Y\)。 - Shadow variable 机制:\(Z \perp R | \Delta Y, D, U\) 且 \(Z \not\perp \Delta Y | D, R, U\)。 - 可观测数据:\(\{R_i Y_{i1}, Y_{i0}, R_i, D_i, U_i, Z_i\}_{i=1}^n\)。注意:当 \(R_i=0\) 时,\(Y_{i1}\) 与 \(\Delta Y_i\) 不可观测;\(Z_i\) 始终完全观测。
第二步:最小内核(参数化 odds ratio + 二值 shadow 的识别) 剥掉非参数完备性条件与一般协变量设定,考虑最简特例:\(X=Z\)(无 \(U\)),\(Z\) 为二值,\(\Delta Y\) 为连续,odds ratio 为参数化指数形式。
- 定义 odds ratio:\(OR(\Delta Y, D=d; \gamma) = \exp(-\gamma \Delta Y)\)。此函数编码了结局演化 \(\Delta Y\) 与缺失 \(R\) 的关联,\(\gamma=0\) 退化为 MAR。
- 核心数学困难:识别 \(\gamma\)。由于 \(\Delta Y\) 在 \(R=0\) 时不可测,无法直接对比 \(R=1\) 与 \(R=0\) 组的 \(\Delta Y\) 分布来估计 \(\gamma\)。
- Shadow variable 破局:利用 \(Z \perp R | \Delta Y, D\),推导出观测数据下的 Fredholm 积分方程(文中 Eq 5)的退化形式:
\[E\left[ \frac{OR(\Delta Y, D=d; \gamma)}{E[OR(\Delta Y, D=d; \gamma) | D=d, R=1, Z]} \Big| D=d, R=1, Z=z \right] = \frac{p(Z=z | D=d, R=0)}{p(Z=z | D=d, R=1)}\]
- 代入正态分布特例求解:假定 \(\Delta Y | D=d, R=1 \sim N(\mu_d, \sigma^2_d)\),\(\Delta Y | D=d, R=1, Z=1 \sim N(\mu_{dz}, \sigma^2_d)\)。将 \(\exp(-\gamma \Delta Y)\) 代入左式积分,解析计算得:
\[\exp(-\gamma(\mu_{dz} - \mu_d)) = \frac{p(Z=1 | D=d, R=0)}{p(Z=1 | D=d, R=1)}\]
- 识别成立的关键:右式 \(p(Z=1|D=d, R=r)\) 完全由观测数据确定。左式关于 \(\gamma\) 是严格单调函数(只要 \(\mu_{dz} \neq \mu_d\),即 \(Z\) 预测 \(\Delta Y\),对应 shadow 假设 \(Z \not\perp \Delta Y\))。因此,\(\gamma\) 存在唯一解,odds ratio 被识别。
- ATT 恢复:一旦 \(\gamma\) 识别,\(OR\) 已知,利用 Eq 6 恢复缺失机制 \(Pr(R=1|\Delta Y, D, U)\),进而代入 IPW-DID 公式(Eq 9)恢复 \(\tau\)。
内核总结:论文在数学上干的事,就是利用 shadow variable 的排除限制,将包含不可测 \(\Delta Y\) 的 odds ratio 参数 \(\gamma\),映射到一个仅含可测分布 \(p(Z|D,R)\) 的方程中,并通过分布漂移(\(\mu_{dz} \neq \mu_d\))保证映射的可逆性,从而在 MNAR 下解开了缺失机制与结局演化的纠缠。
三、这篇论文做了什么¶
三句话:① 研究了后测结局 MNAR 下半参数 DID 的 ATT 识别与估计问题;② 核心工具是 shadow variable 排除限制与 odds ratio 参数化;③ 主要结论是证明了 odds ratio 在完备性或参数化下的非参数/参数识别,给出了 \(\sqrt{n}\)-一致的 GMM 估计量,并证明了在缺失机制正确设定下的条件双重稳健性。
关键设定与假设: - Assumption 1 (Basic DID):一致性、无预期、条件平行趋势(PTA)、重叠。与标准半参数 DID (Abadie 2005) 相同。 - Assumption 2(ii) (MNAR):\(R \not\perp \Delta Y | D, X\)。强化了标准 MAR,引入了不可观测的依赖性。 - Assumption 3 (Shadow Variable):\(Z \perp R | \Delta Y, D, U\) 且 \(Z \not\perp \Delta Y | D, R, U\)。统计含义:\(Z\) 是 \(\Delta Y\) 的代理变量,但不是缺失 \(R\) 的代理变量。相比 bespoke IV (Shin 2024 要求外部 \(\tilde{R}\) 独立于 \(\Delta Y\)),shadow 假设要求内部 \(Z\) 与 \(\Delta Y\) 相关但与 \(R\) 条件独立,逻辑同构于 Proximal CI 的 negative control exposure。 - Assumption 4 (Identification):(i) 缺失机制正概率;(ii) 完备性:\(E[h(\Delta Y, D, U) | D, R=1, U, Z] = 0 \iff h=0\) a.s.。这是 Newey and Powell (2003) 型的秩条件,保证 Fredholm 积分方程有唯一解。在参数化 OR 下可放宽此条件。
主要结果: 1. Proposition 1 (Odds Ratio 识别与恢复):在 Assumption 3-4 下,证明了 \(OR(\Delta Y, D, U, Z)\) 退化为仅依赖不可测变量的 \(OR(\Delta Y, D, U)\)(Eq 4),且可通过观测分布 \(p(Z|D,R,U)\) 的比值识别(Eq 5,Type I Fredholm 方程)。进一步恢复了缺失机制 \(Pr(R=1|\Delta Y, D, U)\)(Eq 6)与缺失分布 \(p(\Delta Y|D,R=0,U,Z)\)(Eq 7)。 2. Proposition 2 (ATT 识别):ATT 可通过 IPW 形式识别(Eq 9):\(\tau_{MNAR} = E\left[ \frac{R(D-\pi(U,Z))}{Pr(D=1) q(\Delta Y, D, U) (1-\pi(U,Z))} \Delta Y \right]\),其中 \(q\) 为恢复出的缺失机制。此公式在 MAR 兼容子模型下退化为标准 MAR-IPW-DID。 3. Theorem 1 (渐近正态性):在所有工作模型(倾向得分 \(\pi\)、基线缺失概率、OR 参数 \(\gamma\))正确设定下,\(\sqrt{n}(\hat{\tau}_{MNAR} - \tau) \xrightarrow{d} N(0, V_\tau)\),方差由 GMM sandwich variance 给出。
证明路线与技术技巧: - 整体路线:1. 定义 OR 分离缺失机制的结构;2. 利用 shadow 排除限制消去 OR 中的 \(Z\);3. 利用 Bayes 法则与 tower property 将 OR 的期望映射为观测分布 \(p(Z|D,R,U)\) 的比值;4. 利用完备性/参数单调性求解该映射方程得到 OR;5. 用 OR 恢复缺失机制 \(q\);6. 将 \(q\) 代入 IPW-DID 公式;7. 构建 GMM 估计方程求解参数,用 M-估计理论推导渐近性。 - 关键跳跃点:Eq 5 的推导。从 \(E[OR/OR_{mean} | D,R=1,U,Z]\) 跳到 \(p(Z|D,R=0,U)/p(Z|D,R=1,U)\)。这里利用了 \(R \perp Z | \Delta Y, D, U\) 将条件期望中的 \(p(\Delta Y|D,R=1,U,Z)\) 转化为 \(p(\Delta Y|D,U,Z)\),再结合 Bayes 公式消去 \(\Delta Y\) 的不可测部分,是整篇识别的核心枢纽。 - 技术技巧: - Odds Ratio 参数化:将非参数的 OR 限制为 \(\exp(-\gamma \Delta Y)\),绕过了连续 \(\Delta Y\) + 二值 \(Z\) 下的完备性条件失效问题(Newey and Powell 2003 的支撑集要求)。 - Type I Fredholm Integral Equation:用于建立非参数 OR 的识别方程(Eq 5),完备性条件保证了核函数的满秩,从而解唯一。 - GMM 估计:Step 3 使用两组矩条件 \(H(D,Z,U)\) 与 \(G(U,Z)\) 分别估计 \((\alpha, \gamma)\) 与 \(\beta\)。通过选择 \(G(U,Z) = (1,Z,U)^\top\),构造了条件双重稳健性。 - M-estimation Sandwich Variance:标准的 M-估计渐近理论,依赖导数矩阵非奇异与矩函数有限二阶矩。
真实例子与应用: - 数据/场景:中国家庭金融调查(CHFS)2015与2017波,研究二孩政策对家庭债务的影响(Deng and Yu 2021)。结局 \(Y\) 为 \(\log(\text{debt}+1)\),处理 \(D\) 为是否有新生儿,缺失率 8.2%,处理率仅 2.1%。 - Shadow variable 选择:户口(Hukou)\(Z\)。作者论证:户口预测债务变化(城乡信贷市场差异),但给定债务变化与基线特征后,户口不直接影响是否响应调查。 - 结果:估计得 \(\hat{\gamma} = -0.458\)(偏离0,证实 MNAR 存在,债务增加者更易缺失)。MAR 估计为 0.584,MNAR 估计降至 0.234。Bootstrap SE 从 0.384 增至 0.454(弱 shadow 变量带来的精度代价)。 - 说明什么:展示了 MNAR 校正的方向与幅度,并揭示了弱 shadow 变量(受访者子样本中 Corr(Z, \(\Delta Y\)) 仅 -0.037)在识别上的可行性(依赖条件均值漂移而非边际相关)与代价(方差增大)。
🔎 结论是否比证明窄: - 条件双重稳健性(Remark 2):作者声称估计量具有“doubly robust-type property”,即若缺失机制 \(q\) 正确,倾向得分 \(\pi\) 或结局模型 \(E[\Delta Y|D=0,U,Z]\) 任一正确即可一致。然而,证明(Theorem 1)仅覆盖了所有模型均正确设定的渐近正态性。所谓的 DR 性质依赖于特定的 \(G(U,Z)\) 选择使得矩条件隐含了结局模型的投影,这在理论上是一个 claim,缺乏严格的偏差-方差渐近分析证明(如推导 misspecification 下的一致性)。研究者需注意:此处的 DR 是“条件 DR”(必须 \(q\) 正确),与标准 DR(缺失机制与结局模型任一正确即可)有本质差距。
四、开放问题(点到为止)¶
- 半参数效率界与 EIF:MNAR-DID 参数 \(\tau_{MNAR}\) 的 efficient influence function 是什么?当前估计量是否达到该界?扎根于 Conclusion:“derive the efficient influence function for the MNAR DID parameter, paralleling... Miao et al. (2024)”。
- Shadow variable 假设的敏感性分析:若 \(Z\) 与 \(R\) 存在微小条件依赖(\(Z \not\perp R | \Delta Y, D, U\)),\(\tau\) 的识别偏差如何随依赖强度变化?扎根于 Conclusion:“developing sensitivity analysis for possible violations of the shadow variable restriction”。
- 前测结局缺失:当前设定假定 \(Y_0\) 无缺失。若前测也存在 MNAR,shadow variable 框架是否仍能识别 ATT?扎根于 Conclusion:“allowing missingness in both pre- and post-treatment outcomes”。
- 弱 shadow 变量的渐近行为:实证中 Corr(Z, \(\Delta Y\)) 极小(-0.037),此时 \(\mu_{dz} - \mu_d \to 0\),参数化 OR 识别方程的解 \(\gamma\) 的渐近方差如何爆炸?扎根于 Example 1 的单调性条件 \(\mu_d \neq \mu_{dz}\) 与实证中宽置信区间的现象。要确认此 gap 是否为真,需查阅 Miao et al. (2024) 对弱 shadow 的渐近理论处理。
Maintained by 陈星宇 · Homepage · Source on GitHub