Optimal Treatment Policy Estimation for Recurrent Events with a Competing Terminal Event: An Instrumented Difference-in-Differences Approach¶

作者: Ritoban Kundu, James Flory, Sean Hennessy, Ashkan Ertefaie
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.04134

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在存在未测量混杂的观察性数据（特别是行政健康数据）中，如何学习个体化的最优治疗策略，且目标结局是复发事件，同时存在竞争性终止事件（如死亡）。当前该方向的成熟度处于“框架初建期”：传统 IV 或 DiD 方法已有成熟理论，但将其结合并推广到带有竞争风险的复发事件策略学习，刚刚起步。

发展脉络： 1. 奠基工作：Angrist & Imbens (1995) 与 Angrist et al. (1996) 引入反事实框架下的 IV，在单调性下识别 complier 平均因果效应（LATE）。留下口子：策略学习通常需要总体平均因果效应（ATE），而非 LATE。 2. 主要进展（IV 路线）：Wang & Tchetgen Tchetgen (2018) 实现了 IV 下总体 ATE 的点识别，为 IV 路线的策略学习奠基；Cui & Tchetgen Tchetgen (2021) 基于此开发了 IV 下最优策略的半参数方法。留下口子：标准 IV 排斥约束假设过强（不允许工具变量对结局有直接效应）。 3. 主要进展（DiD 路线）：Abadie (2005) 等建立 DiD 的半参数估计；Sant'Anna & Zhao (2020) 发展 doubly robust DiD。留下口子：平行趋势假设常因时变未测量混杂被违反，且 DiD 通常只识别受处理者平均效应（ATT），难以推广到全人群策略学习。 4. 当前 frontier（iDID 路线）：Ye et al. (2023) 提出 Instrumented Difference-in-Differences (iDID)，结合 IV 与 DiD，允许工具变量有直接效应（只要不改变结局趋势），放宽了平行趋势；Vo et al. (2024) 发展了 iDID 的结构均值模型；Zhao & Cui (2025) 将 iDID 推广到连续结局的策略学习。留下口子：尚未处理复发事件与竞争风险。 5. 本文的位置：将 iDID 推广到复发事件+竞争终止事件设定，提出约束优化避免“靠增加死亡率来降低复发率”的退化策略，并构建 multiply robust 估计量。

子线索聚类： - 簇 1：未测量混杂下的策略学习：核心是绕过 ignorability。包括 IV 路线（Wang & Tchetgen Tchetgen 2018, Cui & Tchetgen Tchetgen 2021）、proximal/double negative control 路线（Miao et al. 2018, 2024）、iDID 路线（Ye et al. 2023, Zhao & Cui 2025）。本文属于 iDID 路线。 - 簇 2：复发事件与竞争风险的因果推断：核心是处理死亡导致的截断。包括建模期望复发次数（Cook & Lawless 2007, Ghosh & Lin 2000）、估计复发事件的平均因果效应（Schaubel & Zhang 2010, Janvin et al. 2024, Baer et al. 2023）。本文将此设定引入策略学习。 - 簇 3：策略学习的约束优化与稳健估计：核心是避免退化策略与模型误设。包括 Q-learning/A-learning（Murphy 2003, Qian & Murphy 2011）、分类视角的策略搜索（Zhang et al. 2012）、multiply robust 估计（基于 von Mises 展开）。

这个方向在追问的核心问题： 1. 在未测量混杂下，如何识别全人群的 ATE 或 CATE，而非仅 LATE 或 ATT？（iDID 通过“无未测量共同效应修饰因子”假设实现） 2. 在有竞争终止事件时，如何定义并识别一个非退化的最优策略？（本文通过约束优化：要求最优策略下的生存概率不低于基线行为策略） 3. 在涉及复发事件、竞争风险、删失及未测量混杂的复杂设定下，如何构建对多个 nuisance model 误设稳健的估计量？（本文通过 von Mises 展开构造 multiply robust 估计量）

⚠️ 作者的 framing： - 作者把缺口 frame 成：现有策略学习要么忽略未测量混杂，要么忽略复发事件与竞争风险，要么两者皆忽略；而 iDID 是“显然的下一步”，因为它比标准 IV 排斥约束更弱，比 DiD 平行趋势更弱，且 Zhao & Cui (2025) 已为连续结局铺路，本文只需将其“自然推广”到复发事件。 - 被淡化或回避的竞争路线：Proximal causal inference（Miao et al. 2018, 2024）同样处理未测量混杂，且不需要时间维度或工具变量，但 intro 仅一笔带过，未比较 iDID 与 proximal 的假设优劣。 - 明显该被引却未出现的文献：关于约束策略学习的其他形式化（如处理资源约束的策略学习、或带 safety constraint 的 bandit 文献），intro 未引用；关于复发事件策略学习的 C-learning (Zhan et al. 2025) 虽被引，但作者指出其假设无删失与终止事件，却未讨论若放宽该假设 C-learning 是否可改造。

张力：未见明显对立引用。iDID 路线内部（Ye et al. 2023 vs Zhao & Cui 2025）是递进关系，而非矛盾。IV 路线与 DiD 路线在假设上互补（IV 需排斥约束，DiD 需平行趋势），iDID 将两者融合，未产生对立结论。

二、这篇论文做了什么¶

三句话： ①研究了在未测量混杂、复发事件结局与竞争性终止事件（死亡）并存下，如何估计最优治疗策略以最小化复发事件次数，同时避免增加死亡率的退化策略。 ②核心工具是 Instrumented Difference-in-Differences (iDID) 框架，结合约束优化与基于 von Mises 展开的 multiply robust 估计。 ③主要结论是：在 iDID 假设下，通过两种 IPW 识别公式与一个 multiply robust 识别公式可点识别约束最优策略；multiply robust 估计量在 6 个 nuisance model 子集的任一组合正确时保持一致，且达到 \(\sqrt{n}\)-一致性与渐近正态性；模拟与 Medicare 数据实证显示 AIPW 优于 IPW 与非 IV 方法。

关键设定与假设： - 记号：\(A \in \{0,1\}\) 处理，\(Z \in \{0,1\}\) 工具变量，\(L \in \{0,1\}\) 时期指示，\(W\) 测量协变量，\(D\) 死亡时间，\(N^*(t)\) 潜在复发事件过程（\(N^*(t) = N^*(t \wedge D)\)），\(C\) 删失时间，\(U\) 未测量混杂。观测数据 \(O = (W, A, Z, L, X, \{N(t)\}, \Delta)\)。 - 约束优化问题 (公式 1)：\(\min_{d_t} E[N^*_{d_t(W)}(t)]\) subject to \(E[Y^*_{d_t(W)}(t) - Y^*_{\bar{e}_d(W)}(t)] > 0\)。其中 \(\bar{e}_d(W) = I\{\bar{\pi}(W) > c\}\) 是基于 pseudo-propensity score 的基线行为策略。统计含义：避免“靠杀人来减少住院”的退化策略，要求最优策略下的生存概率不低于标准治疗。 - Assumption 1 (Consistency/SUTVA)：标准 SUTVA，无干扰。 - Assumption 2 (Positivity)：\(0 < P(L=l, Z=z|W) < 1\)，确保 \((L,Z)\) 组合在 \(W\) 各水平均有正概率。 - Assumption 3 (Random Sampling)：\(L \perp \{A(z)_l, N^*(a)_l(t), Y^*(a)_l(t)\} | Z, W\)。适用于重复横截面数据。 - Assumption 4 (Trend Relevance)：\(E[A(1)_1 - A(1)_0 | Z=1, W] \neq E[A(0)_1 - A(0)_0 | Z=0, W]\)。工具变量 \(Z\) 改变了处理的时间趋势。 - Assumption 5 (Independence & Exclusion Restriction for iDID)：\(Z \perp \{A(0)_l, A(1)_l, N^*(0)_1(t) - N^*(0)_0(t), N^*(1)_l(t) - N^*(0)_l(t), Y^*(0)_1(t) - Y^*(0)_0(t), Y^*(1)_l(t) - Y^*(0)_l(t)\} | W\)。核心放宽：允许 \(Z\) 对结局水平有直接效应，只要 \(Z\) 不改变结局的时间趋势（\(N^*(0)_1(t) - N^*(0)_0(t)\) 与 \(Y^*(0)_1(t) - Y^*(0)_0(t)\) 不依赖 \(Z\)），这比标准 IV 排斥约束更弱。 - Assumption 6 (No unmeasured common effect modifier)：\(\text{Cov}(N^*(1)_l(t) - N^*(0)_l(t), A(1)_l - A(0)_l | W) = 0\) 且对 \(Y\) 同理。核心假设：处理效应与工具变量对处理的效应之间，没有由 \(U\) 驱动的共同修饰因子。这使得 iDID 能识别总体 ATE 而非 LATE。相比标准 IV（只需单调性），这是一个关于效应异质性的强假设。 - Assumption 7 (Stable Treatment Effect)：CATE 不随时期变化。保证策略跨时期稳定。 - Assumption 8 (Non-informative Censoring)：\(C \perp \{N^*(t), Y^*(t)\} | A, L, Z, W\)。 - Assumption 9 (Margin Condition etc.)：\(P(0 < |\theta' f_W| < \delta) = O(\delta)\)，控制决策边界的行为，是策略学习文献的标准假设。

主要结果： - Theorem 1 (IPW1 识别)：在 Assumptions 1-8 下，约束最优策略可通过仅使用未删失子样本（\(\Delta=1\)）的 IPW 公式点识别。核心公式涉及 \((2Z-1)(2L-1)(2A-1)\) 的交互项除以 \(\pi(L,Z,W)\delta_A(W)K(X^-, A,L,Z,W)\)。直觉：iDID 通过双重差分（\(2L-1\)）与工具变量差分（\(2Z-1\)）消除了未测量混杂 \(U\) 与工具变量直接效应的影响，\(K\) 校正删失。必要条件：需 \(\Delta=1\) 的子样本，损失信息。 - Theorem 2 (IPW2 识别)：使用累积事件信息 \(\int_0^t dN(s)\)，允许在时间 \(t\) 后删失的个体仍贡献估计。比 Theorem 1 更高效。 - Theorem 3 (Wald-type 识别)：\(\beta(t) = E[\tau_N(t,W)] = E[\delta_{\tilde{N}(t)}(W) / \delta_A(W)]\)，\(\eta(t) = E[\tau_Y(t,W)] = E[\delta_{\tilde{Y}(t)}(W) / \delta_A(W)]\)。提供了类似 Wald 估计的识别，为 multiply robust 奠基。 - Theorem 4 (von Mises 展开)：给出了 \(\beta(t)\) 与 \(\eta(t)\) 的 von Mises 展开，一阶项 \(D_\beta(t, O, P)\) 与 \(D_\eta(t, O, P)\) 即为 influence function，二阶余项 \(R_\beta\) 与 \(R_\eta\) 证明为二阶（依赖 nuisance 参数误差的乘积）。解决的技术难点：在 iDID 结构下，将删失过程的 martingale 积分 \(\int F/H \, dM_C / K\) 嵌入 influence function，并证明余项的二阶性质。 - Theorem 5 (Multiply Robust 识别)：定义 6 个子模型 \(M_1, \ldots, M_6\)（例如 \(M_1\) 要求 \(\pi, \mu_A, F, H\) 正确；\(M_6\) 要求 \(\mu_{\tilde{N}}, \mu_{\tilde{Y}}, \mu_A, K\) 正确）。在 \(M_{\text{union}} = \bigcup_{j=1}^6 M_j\) 下，约束最优策略可通过 \(W_N^t I(A=d_t(W))\) 与 \(W_Y^t (I(A=d_t(W)) - I(A=\bar{e}_d(W)))\) 识别。直觉：只要 6 个子集中任一成立，influence function 的期望即恢复真实 CATE，从而策略识别成立。

证明路线与技术技巧： - 整体路线： 1. IPW 识别推导：从期望出发，利用一致性代入潜在结局；利用条件期望与 Assumption 8 消除删失；利用 Assumption 3 (Random Sampling) 分离时期；利用 Assumption 5 消除 \(Z\) 的直接效应与时间趋势；利用 Assumption 6 分离处理效应与 IV 效应的协方差；利用 Assumption 7 合并时期，最终得到 \(E[\tau_N(t,W) d_t(W)] + f_N\)。 2. Multiply Robust 构造：先通过 Theorem 3 建立 Wald-type 识别；然后猜想 influence function（包含主效应项、iDID 交互项、删失 martingale 项）；通过 von Mises 展开验证猜想（证明一阶项期望为 0，余项为二阶）；最后通过代数变换将 influence function 形式转化为 \(W_N^t I(A=d_t(W))\) 的分类权重形式。 3. 大样本理论：通过 cross-fitting 分离 nuisance 估计与策略估计；利用 empirical process 理论证明 \(\hat{G}_t(\theta) - G_t(\theta) = o_p(1)\)；利用 Argmax 定理与 margin condition 证明 \(\hat{\theta}\) 的 \(n^{-1/3}\) 收敛率；利用 Taylor 展开与 nuisance 的 \(o_p(n^{-1/4})\) 速率证明 \(\sqrt{n}(\hat{G}_t(\hat{\theta}) - G_t(\theta^*))\) 的渐近正态性。 - 关键跳跃点： - Theorem 1 中从条件期望到 CATE 的分离：难点在于 \(E[N^*(1)_l(t) | Z, W, U] P(A=1|Z, L, W, U)\) 等项的展开，如何通过 Assumption 5 消除 \(Z\) 对趋势的依赖，再通过 Assumption 6 将 \(\tau_l(t, W, U) \delta_{A,l}(W, U)\) 分解为 \(\tau_l(t, W) \delta_{A,l}(W)\)。这是 iDID 识别的核心卡点，作者通过“无未测量共同效应修饰因子”假设绕过。 - Theorem 4 中 von Mises 余项的二阶证明：难点在于涉及删失过程 \(K\) 与 \(\bar{K}\) 的比率项 \(\int H(u) K(u) / \bar{K}(u) [F/H - \bar{F}/\bar{H}] d[K/\bar{K}]\) 的化简。作者通过微分恒等式（\(d[K/\bar{K}] = [K/\bar{K}](d\bar{\Lambda}_C - d\Lambda_C)\)）与分部积分，将比率项转化为 nuisance 误差的乘积项，证明其二阶性质。 - 技术技巧点名： - Martingale integration (dM_C)：用于在 influence function 中校正删失，\(M_C(t) = N_C(t) - \int_0^t Y^\dagger(u) d\Lambda_C(u)\) 是删失过程的 martingale，其条件期望为 0，保证了一阶项的无偏性。 - von Mises expansion：用于构造并验证 multiply robust 估计量，是 semiparametric efficiency 理论的标准工具，本文将其适配到 iDID 的交互结构与删失 martingale 项。 - Cross-fitting (Klaassen 1987; Zheng & van der Laan 2011)：用于在 ML 估计 nuisance 时保持 \(\sqrt{n}\)-一致性，避免过拟合。 - Argmax theorem & Margin condition (Tsybakov 2004)：用于证明非光滑目标函数下策略参数的收敛率（\(n^{-1/3}\)）与渐近分布。 - Empirical process / VC class：用于控制分类权重函数 \(\Delta_N^t(O) [d_\theta(W) - d_{\theta^*}(W)]\) 的 bracketing entropy，证明 \(\sup\) 类的收敛。

真实例子与应用： - 数据/场景：全国 Medicare 数据（2016-2023），219,286 名 2 型糖尿病患者，比较一线治疗 Metformin (\(A=1\)) vs GLP-1 RA (\(A=0\))。结局为复发复合事件（心梗、卒中、心衰住院等），竞争风险为死亡。工具变量 \(Z\) 为医生处方偏好（2016-2023 间 Metformin 处方比例的纵向变化二值化），时期 \(L\) 分为 pre (2017-2021) vs post (2022)。 - 怎么用上去：用 F-statistic (Ye et al. 2023) 确定时期分割（F>10，支持工具变量强度）。估计 pseudo-propensity score \(\bar{\pi}(W)\) 定义基线策略 \(\bar{e}_d(W)\)。用 cross-fitted ML 估计 nuisance，用遗传算法优化 AIPW 目标函数。 - 得到什么结果：非 IV IPW 推荐 4.78% 用 Metformin（极端重分配）；iDID IPW1 推荐 7.41%；iDID AIPW 推荐 21.16%（更保守、临床更合理：高 frailty、男性、NHW 患者被导向 GLP-1 RA）。AIPW 策略的 Value Gain 为 -0.034 (95% CI [-0.068, 0.001])，即每人减少 0.034 次复合事件，且约束保证生存概率不低于基线。 - 想说明什么：展示忽略未测量混杂（非 IV 方法）会导致极端且混杂的策略重分配；iDID AIPW 通过约束优化与未测量混杂校正，产生临床可解释的保守重分配，且保证不增加死亡率。

🔎 结论是否比证明窄： - Theorem 6(iii) 的渐近正态性：严格证明在 \(\theta^*\) 处成立，但 claim 覆盖了 \(\hat{\theta}\) 处的 \(\hat{G}_t(\hat{\theta})\)。证明中通过 \(n^{-1/3}\) 收敛率与 empirical process 控制将 \(\hat{\theta}\) 处的偏移吸收为 \(o_p(1)\)，这是标准技术，但隐含假设了 nuisance 估计在 \(\theta^*\) 邻域的一致性，未显式陈述。 - Multiply robust 的 claim：Theorem 5 证明在 \(M_{\text{union}}\) 下识别成立，但 Theorem 6 的一致性与渐近正态性证明要求所有 nuisance 模型均满足 \(o_p(n^{-1/4})\) 速率（Assumption 10），即使某些模型误设。这是一个常见的“gap”：robustness 保证识别，但大样本理论通常仍要求所有 nuisance 估计收敛（误设的需收敛到错限值），Assumption 10 的表述“product of convergence rates... is \(o_p(n^{-1/2})\)”隐含了这一点，但未显式区分“正确指定模型收敛到真值”与“误设模型收敛到错限值”的速率要求。

三、开放问题¶

iDID 假设的敏感性分析：Assumption 6 (No unmeasured common effect modifier) 是识别总体 ATE 的关键，但不可检验。如何量化对该假设的违反程度对策略估计的影响？扎根点：Discussion 明确提出 "developing formal sensitivity analyses for these assumptions would strengthen the practical utility"。
动态治疗策略的 iDID 推广：当前框架为静态策略（单时间点决策），如何将 iDID 推广到时间依赖的处理、混杂与工具变量？扎根点：Discussion 提出 "Extending iDID policy learning to accommodate time-varying treatments and confounders... would naturally connect to the dynamic treatment policy literature"。
非线性策略类与效率界：当前策略类限定为线性决策边界 \(I(\theta' f_W > 0)\)，如何推广到非参数策略类（如 RKHS），并推导该设定下的 semiparametric efficiency bound？扎根点：Discussion 提出 "extending the framework to more flexible policy classes is a natural next step"；Remark 2 提到识别结果不限于线性类，但大样本理论依赖线性类的参数化结构。

四、最核心、最简单的例子 / 数学问题¶

最简特例：无删失（\(C=\infty\)）、无竞争风险（\(D=\infty\)）、两时期（\(L \in \{0,1\}\)）、两工具变量水平（\(Z \in \{0,1\}\)）、两处理（\(A \in \{0,1\}\)）下的连续结局 \(Y\)（此时 \(Y\) 退化为非复发单次结局）。

在这个特例下，要证的命题退化为：iDID 交互项的期望等于总体 ATE 乘以策略指示，即

\[E\left[\frac{(2Z-1)(2L-1)(2A-1) Y I(A=d(W))}{\pi(L,Z,W) \delta_A(W)}\right] = E[\tau_Y(W) d(W)] + f_Y\]

其中 \(\tau_Y(W) = E[Y(1) - Y(0) | W]\) 是 CATE，\(\delta_A(W) = E[A(1)_1 - A(1)_0 - A(0)_1 + A(0)_0 | W]\) 是 IV 对处理趋势的效应。

证明怎么走（为什么成立）： 1. 代入潜在结局：利用一致性 \(Y = Y(A)_L\)，展开为 \(E[Y(1)_1 A I(d=1) + Y(0)_1 (1-A) I(d=1) + Y(1)_0 A I(d=0) + Y(0)_0 (1-A) I(d=0)]\) 的加权形式。 2. 条件期望与 Random Sampling：对 \(A\) 取条件期望，分离出 \(E[Y(1)_1 | Z=1, W] P(A=1|Z=1, L=1, W)\) 等四项，利用 Assumption 3 消除 \(L\) 对潜在结局的依赖。 3. 消除 IV 直接效应与趋势：利用 Assumption 5，\(E[Y(0)_1 - Y(0)_0 | Z, W]\) 不依赖 \(Z\)，故 \(Z\) 对 \(Y\) 水平的直接效应在 \((2Z-1)(2L-1)\) 差分中被消去；剩余项变为 \(\tau_Y(W, U) \delta_{A,l}(W, U)\) 的加权。 4. 分离 ATE：利用 Assumption 6（无共同修饰因子），\(\text{Cov}(\tau_Y, \delta_A | W) = 0\)，故 \(E[\tau_Y(W,U) \delta_A(W,U) | W] = E[\tau_Y(W,U) | W] E[\delta_A(W,U) | W] = \tau_Y(W) \delta_A(W)\)。最终分母 \(\delta_A(W)\) 与分子 \(\delta_A(W)\) 抵消，留下 \(E[\tau_Y(W) d(W)] + f_Y\)。

核心数学困难与破法：困难在于未测量 \(U\) 同时影响处理效应 \(\tau\) 与 IV 效应 \(\delta_A\)，导致 \(E[\tau \delta_A | W]\) 无法分解。破法是 Assumption 6 强制 \(\tau\) 与 \(\delta_A\) 在 \(U\) 上条件独立（协方差为 0），从而将 LATE-like 的乘积分解为 ATE \(\times\) IV 效应，实现总体 ATE 的点识别。这是 iDID 识别的数学内核，一般情形（复发事件+删失+竞争风险）只是在此内核上“加壳”：用 \(N(t)\) 替换 \(Y\)，用 \(K\) 校正删失，用 martingale 积分构造 influence function。

Maintained by 陈星宇 · Homepage · Source on GitHub

Optimal Treatment Policy Estimation for Recurrent Events with a Competing Terminal Event: An Instrumented Difference-in-Differences Approach¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、开放问题¶

四、最核心、最简单的例子 / 数学问题¶

评论