Semiparametric Difference-in-Differences Estimation With Missing Not at Random Data: A Shadow Variable Approach¶

作者: Junjie Li, Dongyuan Mu
主题: 因果推断
相关性: 9/10
链接: https://arxiv.org/abs/2606.08474

一、领域脉络与小综述¶

这个方向是什么：本方向处理的是面板数据因果推断中一个具体的联合难题：当使用双重差分（DID）估计处理组平均处理效应（ATT）时，如果后测结局变量存在缺失非随机（MNAR，即缺失概率取决于未观测到的结局本身），如何在无需额外外部工具变量的情况下，仅利用内部协变量的结构假设完成非参数识别与半参数估计。当前该子方向的识别理论刚从截面数据推广至面板DID设定，估计理论尚停留在IPW与GMM阶段，效率理论（如半参数有效界）尚未建立。

发展脉络： - 奠基工作：半参数DID的基石由 Abadie (2005) 奠定，其提出了条件平行趋势假设（PTA）下的半参数估计；Sant’Anna and Zhao (2020) 与 Chang (2020) 进一步发展了双重稳健（DR）DID估计量。在缺失数据领域，Tsiatis (2006) 系统总结了基于缺失随机（MAR）的半参数理论。 - 主要进展（MNAR截面识别）：处理MNAR的早期尝试依赖“非响应工具”，如 d’Haultfoeuille (2010) 与 Wang, Shao, Kim (2014) 利用完备性条件进行识别。Miao and Tchetgen Tchetgen (2016) 引入 odds ratio 模型与 shadow variable 概念，Zhao and Ma (2022) 发展了去相关投影技术，Miao et al. (2024) 则建立了截面数据下 shadow variable 的半参数效率理论。 - 当前 frontier（MNAR面板/DID）：Shin (2024) 将 Dukes et al. (2022) 的截面 bespoke IV 推广至DID设定，要求寻找一个外部辅助变量 \(\tilde{R}\) 满足对缺失的相关性、对结局演化的独立性及偏差同质性。作者明确指出此路线的瓶颈：“in small-scale observational datasets, it is often difficult to find an additional variable that satisfies these validity conditions”。 - 本文的位置：本文避开 bespoke IV 路线，将截面 shadow variable 识别框架（Miao et al., 2024）首次移植到两期DID设定中，利用内部协变量子集 \(Z\) 作为 shadow variable，通过 odds ratio 与完备性条件（或参数化 odds ratio）实现识别，并构建了基于 GMM 的 \(\sqrt{n}\)-一致估计量。

子线索聚类： 1. 半参数DID估计：从 Abadie (2005) 的 IPW 到 Sant’Anna and Zhao (2020) 的 DR，再到 Li and Matsushita (2025) 的协变量平衡倾向得分。这一簇关注无缺失下DID估计的稳健性与效率。 2. MNAR识别：Bespoke IV / Proxy 路线：Dukes et al. (2022) 与 Shin (2024)。依赖外部辅助变量 \(\tilde{R}\)，要求其与缺失相关且与结局演化独立（类似 negative control exposure）。 3. MNAR识别：Shadow Variable 路线：Miao and Tchetgen Tchetgen (2016) 与 Miao et al. (2024)。依赖内部协变量子集 \(Z\)，要求其与结局演化相关但条件独立于缺失（给定结局演化与基线协变量）。本文属于此簇的DID拓展。

核心追问与瓶颈： 1. MNAR下DID的ATT能否非参数识别？ 瓶颈在于 \(E[\Delta Y | D, R=0, X]\) 与 \(Pr(R=1|\Delta Y, D, X)\) 均无法从观测数据直接恢复。 2. 如何绕过完备性条件的支撑集限制？ 非参数识别要求 shadow variable \(Z\) 的支撑集不小于缺失变量 \(\Delta Y\) 的支撑集（Newey and Powell, 2003；Zhao and Ma, 2022），这在连续结局+二值 shadow（如户口）时必然失效。当前瓶颈是寻找参数化 odds ratio 的最小约束。 3. 估计量的稳健性与效率界在哪？ 当前估计量依赖缺失机制的正确设定，缺乏真正的双重稳健性（对缺失机制与倾向得分/结局模型同时稳健），且效率界未知。

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为“no study has investigated DID estimation with a shadow variable”，并将 bespoke IV 路线刻画为“difficult to find an additional variable... particularly in survey datasets with only a limited number of questions”，从而将 shadow variable（作为协变量子集）呈现为更易获取的“显然下一步”。 - 淡化或回避的竞争路线：作者未提及 Proximal Causal Inference（Tchetgen Tchetgen et al.）的统一框架。Shadow variable 假设 \(Z \perp R | \Delta Y, D, U\) 实质上是 Proximal CI 中 Negative Control Exposure 的特例，但作者仅引用了 Miao 等人的 MNAR 统计文献，未将其与因果图视角下的 proximal 识别理论对接，这可能掩盖了假设的因果可解释性争议。 - 缺失的引用：Intro 中缺乏对 MNAR 因果图结构的系统性讨论（如 Pearl 的 missing data DAG），也缺乏对 MNAR 下敏感性分析的引用（如 Scharfstein et al. 的 work），尽管作者在结论中将其列为 future work。

张力：未见明显对立引用。Shin (2024) 与本文对 MNAR-DID 的解决方案基于不同的排除限制（外部 \(\tilde{R}\) vs. 内部 \(Z\)），二者在假设强度上不可比，不存在同一设定下的相反结论，而是互补的识别策略。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代 - 参数/Estimand：\(\tau = E[Y_1(1) - Y_1(0) | D=1]\)，即处理组平均处理效应（ATT）。 - 潜在量：\(Y_{it}(d)\) 为个体 \(i\) 在时间 \(t\) 接受处理 \(d \in \{0,1\}\) 下的潜在结局。 - 随机变量/样本： - \(Y_{it}\)：可观测结局，\(t=0\)（前测），\(t=1\)（后测）。 - \(\Delta Y = Y_1 - Y_0\)：结局演化（核心缺失变量）。 - \(R_i\)：后测结局缺失指示器（\(R=1\) 观测，\(R=0\) 缺失）。前测 \(Y_0\) 假定无缺失。 - \(D_i\)：二值处理指示器。 - \(X_i = (U_i, Z_i)\)：基线协变量。\(U_i\) 为普通协变量，\(Z_i\) 为 shadow variable。 - 维数/指标：\(n\) 为样本量，\(\gamma\) 为 odds ratio 模型参数。 - 模型（数据生成机制）： - 处理分配：\(Pr(D=1|U,Z)\) 未知。 - 缺失机制（MNAR）：\(Pr(R=1|\Delta Y, D, U)\)，缺失概率取决于未观测的 \(\Delta Y\)。 - Shadow variable 机制：\(Z \perp R | \Delta Y, D, U\) 且 \(Z \not\perp \Delta Y | D, R, U\)。 - 可观测数据：\(\{R_i Y_{i1}, Y_{i0}, R_i, D_i, U_i, Z_i\}_{i=1}^n\)。注意：当 \(R_i=0\) 时，\(Y_{i1}\) 与 \(\Delta Y_i\) 不可观测；\(Z_i\) 始终完全观测。

第二步：最小内核（参数化 odds ratio + 二值 shadow 的识别） 剥掉非参数完备性条件与一般协变量设定，考虑最简特例：\(X=Z\)（无 \(U\)），\(Z\) 为二值，\(\Delta Y\) 为连续，odds ratio 为参数化指数形式。

定义 odds ratio：\(OR(\Delta Y, D=d; \gamma) = \exp(-\gamma \Delta Y)\)。此函数编码了结局演化 \(\Delta Y\) 与缺失 \(R\) 的关联，\(\gamma=0\) 退化为 MAR。
核心数学困难：识别 \(\gamma\)。由于 \(\Delta Y\) 在 \(R=0\) 时不可测，无法直接对比 \(R=1\) 与 \(R=0\) 组的 \(\Delta Y\) 分布来估计 \(\gamma\)。
Shadow variable 破局：利用 \(Z \perp R | \Delta Y, D\)，推导出观测数据下的 Fredholm 积分方程（文中 Eq 5）的退化形式：
\[E\left[ \frac{OR(\Delta Y, D=d; \gamma)}{E[OR(\Delta Y, D=d; \gamma) | D=d, R=1, Z]} \Big| D=d, R=1, Z=z \right] = \frac{p(Z=z | D=d, R=0)}{p(Z=z | D=d, R=1)}\]
代入正态分布特例求解：假定 \(\Delta Y | D=d, R=1 \sim N(\mu_d, \sigma^2_d)\)，\(\Delta Y | D=d, R=1, Z=1 \sim N(\mu_{dz}, \sigma^2_d)\)。将 \(\exp(-\gamma \Delta Y)\) 代入左式积分，解析计算得：
\[\exp(-\gamma(\mu_{dz} - \mu_d)) = \frac{p(Z=1 | D=d, R=0)}{p(Z=1 | D=d, R=1)}\]
识别成立的关键：右式 \(p(Z=1|D=d, R=r)\) 完全由观测数据确定。左式关于 \(\gamma\) 是严格单调函数（只要 \(\mu_{dz} \neq \mu_d\)，即 \(Z\) 预测 \(\Delta Y\)，对应 shadow 假设 \(Z \not\perp \Delta Y\)）。因此，\(\gamma\) 存在唯一解，odds ratio 被识别。
ATT 恢复：一旦 \(\gamma\) 识别，\(OR\) 已知，利用 Eq 6 恢复缺失机制 \(Pr(R=1|\Delta Y, D, U)\)，进而代入 IPW-DID 公式（Eq 9）恢复 \(\tau\)。

内核总结：论文在数学上干的事，就是利用 shadow variable 的排除限制，将包含不可测 \(\Delta Y\) 的 odds ratio 参数 \(\gamma\)，映射到一个仅含可测分布 \(p(Z|D,R)\) 的方程中，并通过分布漂移（\(\mu_{dz} \neq \mu_d\)）保证映射的可逆性，从而在 MNAR 下解开了缺失机制与结局演化的纠缠。

三、这篇论文做了什么¶

三句话：① 研究了后测结局 MNAR 下半参数 DID 的 ATT 识别与估计问题；② 核心工具是 shadow variable 排除限制与 odds ratio 参数化；③ 主要结论是证明了 odds ratio 在完备性或参数化下的非参数/参数识别，给出了 \(\sqrt{n}\)-一致的 GMM 估计量，并证明了在缺失机制正确设定下的条件双重稳健性。

关键设定与假设： - Assumption 1 (Basic DID)：一致性、无预期、条件平行趋势（PTA）、重叠。与标准半参数 DID (Abadie 2005) 相同。 - Assumption 2(ii) (MNAR)：\(R \not\perp \Delta Y | D, X\)。强化了标准 MAR，引入了不可观测的依赖性。 - Assumption 3 (Shadow Variable)：\(Z \perp R | \Delta Y, D, U\) 且 \(Z \not\perp \Delta Y | D, R, U\)。统计含义：\(Z\) 是 \(\Delta Y\) 的代理变量，但不是缺失 \(R\) 的代理变量。相比 bespoke IV (Shin 2024 要求外部 \(\tilde{R}\) 独立于 \(\Delta Y\))，shadow 假设要求内部 \(Z\) 与 \(\Delta Y\) 相关但与 \(R\) 条件独立，逻辑同构于 Proximal CI 的 negative control exposure。 - Assumption 4 (Identification)：(i) 缺失机制正概率；(ii) 完备性：\(E[h(\Delta Y, D, U) | D, R=1, U, Z] = 0 \iff h=0\) a.s.。这是 Newey and Powell (2003) 型的秩条件，保证 Fredholm 积分方程有唯一解。在参数化 OR 下可放宽此条件。

主要结果： 1. Proposition 1 (Odds Ratio 识别与恢复)：在 Assumption 3-4 下，证明了 \(OR(\Delta Y, D, U, Z)\) 退化为仅依赖不可测变量的 \(OR(\Delta Y, D, U)\)（Eq 4），且可通过观测分布 \(p(Z|D,R,U)\) 的比值识别（Eq 5，Type I Fredholm 方程）。进一步恢复了缺失机制 \(Pr(R=1|\Delta Y, D, U)\)（Eq 6）与缺失分布 \(p(\Delta Y|D,R=0,U,Z)\)（Eq 7）。 2. Proposition 2 (ATT 识别)：ATT 可通过 IPW 形式识别（Eq 9）：\(\tau_{MNAR} = E\left[ \frac{R(D-\pi(U,Z))}{Pr(D=1) q(\Delta Y, D, U) (1-\pi(U,Z))} \Delta Y \right]\)，其中 \(q\) 为恢复出的缺失机制。此公式在 MAR 兼容子模型下退化为标准 MAR-IPW-DID。 3. Theorem 1 (渐近正态性)：在所有工作模型（倾向得分 \(\pi\)、基线缺失概率、OR 参数 \(\gamma\)）正确设定下，\(\sqrt{n}(\hat{\tau}_{MNAR} - \tau) \xrightarrow{d} N(0, V_\tau)\)，方差由 GMM sandwich variance 给出。

证明路线与技术技巧： - 整体路线：1. 定义 OR 分离缺失机制的结构；2. 利用 shadow 排除限制消去 OR 中的 \(Z\)；3. 利用 Bayes 法则与 tower property 将 OR 的期望映射为观测分布 \(p(Z|D,R,U)\) 的比值；4. 利用完备性/参数单调性求解该映射方程得到 OR；5. 用 OR 恢复缺失机制 \(q\)；6. 将 \(q\) 代入 IPW-DID 公式；7. 构建 GMM 估计方程求解参数，用 M-估计理论推导渐近性。 - 关键跳跃点：Eq 5 的推导。从 \(E[OR/OR_{mean} | D,R=1,U,Z]\) 跳到 \(p(Z|D,R=0,U)/p(Z|D,R=1,U)\)。这里利用了 \(R \perp Z | \Delta Y, D, U\) 将条件期望中的 \(p(\Delta Y|D,R=1,U,Z)\) 转化为 \(p(\Delta Y|D,U,Z)\)，再结合 Bayes 公式消去 \(\Delta Y\) 的不可测部分，是整篇识别的核心枢纽。 - 技术技巧： - Odds Ratio 参数化：将非参数的 OR 限制为 \(\exp(-\gamma \Delta Y)\)，绕过了连续 \(\Delta Y\) + 二值 \(Z\) 下的完备性条件失效问题（Newey and Powell 2003 的支撑集要求）。 - Type I Fredholm Integral Equation：用于建立非参数 OR 的识别方程（Eq 5），完备性条件保证了核函数的满秩，从而解唯一。 - GMM 估计：Step 3 使用两组矩条件 \(H(D,Z,U)\) 与 \(G(U,Z)\) 分别估计 \((\alpha, \gamma)\) 与 \(\beta\)。通过选择 \(G(U,Z) = (1,Z,U)^\top\)，构造了条件双重稳健性。 - M-estimation Sandwich Variance：标准的 M-估计渐近理论，依赖导数矩阵非奇异与矩函数有限二阶矩。

真实例子与应用： - 数据/场景：中国家庭金融调查（CHFS）2015与2017波，研究二孩政策对家庭债务的影响（Deng and Yu 2021）。结局 \(Y\) 为 \(\log(\text{debt}+1)\)，处理 \(D\) 为是否有新生儿，缺失率 8.2%，处理率仅 2.1%。 - Shadow variable 选择：户口（Hukou）\(Z\)。作者论证：户口预测债务变化（城乡信贷市场差异），但给定债务变化与基线特征后，户口不直接影响是否响应调查。 - 结果：估计得 \(\hat{\gamma} = -0.458\)（偏离0，证实 MNAR 存在，债务增加者更易缺失）。MAR 估计为 0.584，MNAR 估计降至 0.234。Bootstrap SE 从 0.384 增至 0.454（弱 shadow 变量带来的精度代价）。 - 说明什么：展示了 MNAR 校正的方向与幅度，并揭示了弱 shadow 变量（受访者子样本中 Corr(Z, \(\Delta Y\)) 仅 -0.037）在识别上的可行性（依赖条件均值漂移而非边际相关）与代价（方差增大）。

🔎 结论是否比证明窄： - 条件双重稳健性（Remark 2）：作者声称估计量具有“doubly robust-type property”，即若缺失机制 \(q\) 正确，倾向得分 \(\pi\) 或结局模型 \(E[\Delta Y|D=0,U,Z]\) 任一正确即可一致。然而，证明（Theorem 1）仅覆盖了所有模型均正确设定的渐近正态性。所谓的 DR 性质依赖于特定的 \(G(U,Z)\) 选择使得矩条件隐含了结局模型的投影，这在理论上是一个 claim，缺乏严格的偏差-方差渐近分析证明（如推导 misspecification 下的一致性）。研究者需注意：此处的 DR 是“条件 DR”（必须 \(q\) 正确），与标准 DR（缺失机制与结局模型任一正确即可）有本质差距。

四、开放问题（点到为止）¶

半参数效率界与 EIF：MNAR-DID 参数 \(\tau_{MNAR}\) 的 efficient influence function 是什么？当前估计量是否达到该界？扎根于 Conclusion：“derive the efficient influence function for the MNAR DID parameter, paralleling... Miao et al. (2024)”。
Shadow variable 假设的敏感性分析：若 \(Z\) 与 \(R\) 存在微小条件依赖（\(Z \not\perp R | \Delta Y, D, U\)），\(\tau\) 的识别偏差如何随依赖强度变化？扎根于 Conclusion：“developing sensitivity analysis for possible violations of the shadow variable restriction”。
前测结局缺失：当前设定假定 \(Y_0\) 无缺失。若前测也存在 MNAR，shadow variable 框架是否仍能识别 ATT？扎根于 Conclusion：“allowing missingness in both pre- and post-treatment outcomes”。
弱 shadow 变量的渐近行为：实证中 Corr(Z, \(\Delta Y\)) 极小（-0.037），此时 \(\mu_{dz} - \mu_d \to 0\)，参数化 OR 识别方程的解 \(\gamma\) 的渐近方差如何爆炸？扎根于 Example 1 的单调性条件 \(\mu_d \neq \mu_{dz}\) 与实证中宽置信区间的现象。要确认此 gap 是否为真，需查阅 Miao et al. (2024) 对弱 shadow 的渐近理论处理。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric Difference-in-Differences Estimation With Missing Not at Random Data: A Shadow Variable Approach¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止）¶

评论