跳转至

Optimal Treatment Policy Estimation for Recurrent Events with a Competing Terminal Event: An Instrumented Difference-in-Differences Approach

作者: Ritoban Kundu, James Flory, Sean Hennessy, Ashkan Ertefaie
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.04134


一、领域脉络与小综述

这个方向是什么: 这个子方向要解决的根本统计问题是:在存在未测量混杂的观察性数据(特别是行政健康数据)中,如何学习个体化的最优治疗策略,且目标结局是复发事件,同时存在竞争性终止事件(如死亡)。当前该方向的成熟度处于“框架初建期”:传统 IV 或 DiD 方法已有成熟理论,但将其结合并推广到带有竞争风险的复发事件策略学习,刚刚起步。

发展脉络: 1. 奠基工作:Angrist & Imbens (1995) 与 Angrist et al. (1996) 引入反事实框架下的 IV,在单调性下识别 complier 平均因果效应(LATE)。留下口子:策略学习通常需要总体平均因果效应(ATE),而非 LATE。 2. 主要进展(IV 路线):Wang & Tchetgen Tchetgen (2018) 实现了 IV 下总体 ATE 的点识别,为 IV 路线的策略学习奠基;Cui & Tchetgen Tchetgen (2021) 基于此开发了 IV 下最优策略的半参数方法。留下口子:标准 IV 排斥约束假设过强(不允许工具变量对结局有直接效应)。 3. 主要进展(DiD 路线):Abadie (2005) 等建立 DiD 的半参数估计;Sant'Anna & Zhao (2020) 发展 doubly robust DiD。留下口子:平行趋势假设常因时变未测量混杂被违反,且 DiD 通常只识别受处理者平均效应(ATT),难以推广到全人群策略学习。 4. 当前 frontier(iDID 路线):Ye et al. (2023) 提出 Instrumented Difference-in-Differences (iDID),结合 IV 与 DiD,允许工具变量有直接效应(只要不改变结局趋势),放宽了平行趋势;Vo et al. (2024) 发展了 iDID 的结构均值模型;Zhao & Cui (2025) 将 iDID 推广到连续结局的策略学习。留下口子:尚未处理复发事件与竞争风险。 5. 本文的位置:将 iDID 推广到复发事件+竞争终止事件设定,提出约束优化避免“靠增加死亡率来降低复发率”的退化策略,并构建 multiply robust 估计量。

子线索聚类: - 簇 1:未测量混杂下的策略学习:核心是绕过 ignorability。包括 IV 路线(Wang & Tchetgen Tchetgen 2018, Cui & Tchetgen Tchetgen 2021)、proximal/double negative control 路线(Miao et al. 2018, 2024)、iDID 路线(Ye et al. 2023, Zhao & Cui 2025)。本文属于 iDID 路线。 - 簇 2:复发事件与竞争风险的因果推断:核心是处理死亡导致的截断。包括建模期望复发次数(Cook & Lawless 2007, Ghosh & Lin 2000)、估计复发事件的平均因果效应(Schaubel & Zhang 2010, Janvin et al. 2024, Baer et al. 2023)。本文将此设定引入策略学习。 - 簇 3:策略学习的约束优化与稳健估计:核心是避免退化策略与模型误设。包括 Q-learning/A-learning(Murphy 2003, Qian & Murphy 2011)、分类视角的策略搜索(Zhang et al. 2012)、multiply robust 估计(基于 von Mises 展开)。

这个方向在追问的核心问题: 1. 在未测量混杂下,如何识别全人群的 ATE 或 CATE,而非仅 LATE 或 ATT?(iDID 通过“无未测量共同效应修饰因子”假设实现) 2. 在有竞争终止事件时,如何定义并识别一个非退化的最优策略?(本文通过约束优化:要求最优策略下的生存概率不低于基线行为策略) 3. 在涉及复发事件、竞争风险、删失及未测量混杂的复杂设定下,如何构建对多个 nuisance model 误设稳健的估计量?(本文通过 von Mises 展开构造 multiply robust 估计量)

⚠️ 作者的 framing: - 作者把缺口 frame 成:现有策略学习要么忽略未测量混杂,要么忽略复发事件与竞争风险,要么两者皆忽略;而 iDID 是“显然的下一步”,因为它比标准 IV 排斥约束更弱,比 DiD 平行趋势更弱,且 Zhao & Cui (2025) 已为连续结局铺路,本文只需将其“自然推广”到复发事件。 - 被淡化或回避的竞争路线:Proximal causal inference(Miao et al. 2018, 2024)同样处理未测量混杂,且不需要时间维度或工具变量,但 intro 仅一笔带过,未比较 iDID 与 proximal 的假设优劣。 - 明显该被引却未出现的文献:关于约束策略学习的其他形式化(如处理资源约束的策略学习、或带 safety constraint 的 bandit 文献),intro 未引用;关于复发事件策略学习的 C-learning (Zhan et al. 2025) 虽被引,但作者指出其假设无删失与终止事件,却未讨论若放宽该假设 C-learning 是否可改造。

张力: 未见明显对立引用。iDID 路线内部(Ye et al. 2023 vs Zhao & Cui 2025)是递进关系,而非矛盾。IV 路线与 DiD 路线在假设上互补(IV 需排斥约束,DiD 需平行趋势),iDID 将两者融合,未产生对立结论。


二、这篇论文做了什么

三句话: ①研究了在未测量混杂、复发事件结局与竞争性终止事件(死亡)并存下,如何估计最优治疗策略以最小化复发事件次数,同时避免增加死亡率的退化策略。 ②核心工具是 Instrumented Difference-in-Differences (iDID) 框架,结合约束优化与基于 von Mises 展开的 multiply robust 估计。 ③主要结论是:在 iDID 假设下,通过两种 IPW 识别公式与一个 multiply robust 识别公式可点识别约束最优策略;multiply robust 估计量在 6 个 nuisance model 子集的任一组合正确时保持一致,且达到 \(\sqrt{n}\)-一致性与渐近正态性;模拟与 Medicare 数据实证显示 AIPW 优于 IPW 与非 IV 方法。

关键设定与假设: - 记号\(A \in \{0,1\}\) 处理,\(Z \in \{0,1\}\) 工具变量,\(L \in \{0,1\}\) 时期指示,\(W\) 测量协变量,\(D\) 死亡时间,\(N^*(t)\) 潜在复发事件过程(\(N^*(t) = N^*(t \wedge D)\)),\(C\) 删失时间,\(U\) 未测量混杂。观测数据 \(O = (W, A, Z, L, X, \{N(t)\}, \Delta)\)。 - 约束优化问题 (公式 1)\(\min_{d_t} E[N^*_{d_t(W)}(t)]\) subject to \(E[Y^*_{d_t(W)}(t) - Y^*_{\bar{e}_d(W)}(t)] > 0\)。其中 \(\bar{e}_d(W) = I\{\bar{\pi}(W) > c\}\) 是基于 pseudo-propensity score 的基线行为策略。统计含义:避免“靠杀人来减少住院”的退化策略,要求最优策略下的生存概率不低于标准治疗。 - Assumption 1 (Consistency/SUTVA):标准 SUTVA,无干扰。 - Assumption 2 (Positivity)\(0 < P(L=l, Z=z|W) < 1\),确保 \((L,Z)\) 组合在 \(W\) 各水平均有正概率。 - Assumption 3 (Random Sampling)\(L \perp \{A(z)_l, N^*(a)_l(t), Y^*(a)_l(t)\} | Z, W\)。适用于重复横截面数据。 - Assumption 4 (Trend Relevance)\(E[A(1)_1 - A(1)_0 | Z=1, W] \neq E[A(0)_1 - A(0)_0 | Z=0, W]\)。工具变量 \(Z\) 改变了处理的时间趋势。 - Assumption 5 (Independence & Exclusion Restriction for iDID)\(Z \perp \{A(0)_l, A(1)_l, N^*(0)_1(t) - N^*(0)_0(t), N^*(1)_l(t) - N^*(0)_l(t), Y^*(0)_1(t) - Y^*(0)_0(t), Y^*(1)_l(t) - Y^*(0)_l(t)\} | W\)核心放宽:允许 \(Z\) 对结局水平有直接效应,只要 \(Z\) 不改变结局的时间趋势(\(N^*(0)_1(t) - N^*(0)_0(t)\)\(Y^*(0)_1(t) - Y^*(0)_0(t)\) 不依赖 \(Z\)),这比标准 IV 排斥约束更弱。 - Assumption 6 (No unmeasured common effect modifier)\(\text{Cov}(N^*(1)_l(t) - N^*(0)_l(t), A(1)_l - A(0)_l | W) = 0\) 且对 \(Y\) 同理。核心假设:处理效应与工具变量对处理的效应之间,没有由 \(U\) 驱动的共同修饰因子。这使得 iDID 能识别总体 ATE 而非 LATE。相比标准 IV(只需单调性),这是一个关于效应异质性的强假设。 - Assumption 7 (Stable Treatment Effect):CATE 不随时期变化。保证策略跨时期稳定。 - Assumption 8 (Non-informative Censoring)\(C \perp \{N^*(t), Y^*(t)\} | A, L, Z, W\)。 - Assumption 9 (Margin Condition etc.)\(P(0 < |\theta' f_W| < \delta) = O(\delta)\),控制决策边界的行为,是策略学习文献的标准假设。

主要结果: - Theorem 1 (IPW1 识别):在 Assumptions 1-8 下,约束最优策略可通过仅使用未删失子样本(\(\Delta=1\))的 IPW 公式点识别。核心公式涉及 \((2Z-1)(2L-1)(2A-1)\) 的交互项除以 \(\pi(L,Z,W)\delta_A(W)K(X^-, A,L,Z,W)\)。直觉:iDID 通过双重差分(\(2L-1\))与工具变量差分(\(2Z-1\))消除了未测量混杂 \(U\) 与工具变量直接效应的影响,\(K\) 校正删失。必要条件:需 \(\Delta=1\) 的子样本,损失信息。 - Theorem 2 (IPW2 识别):使用累积事件信息 \(\int_0^t dN(s)\),允许在时间 \(t\) 后删失的个体仍贡献估计。比 Theorem 1 更高效。 - Theorem 3 (Wald-type 识别)\(\beta(t) = E[\tau_N(t,W)] = E[\delta_{\tilde{N}(t)}(W) / \delta_A(W)]\)\(\eta(t) = E[\tau_Y(t,W)] = E[\delta_{\tilde{Y}(t)}(W) / \delta_A(W)]\)。提供了类似 Wald 估计的识别,为 multiply robust 奠基。 - Theorem 4 (von Mises 展开):给出了 \(\beta(t)\)\(\eta(t)\) 的 von Mises 展开,一阶项 \(D_\beta(t, O, P)\)\(D_\eta(t, O, P)\) 即为 influence function,二阶余项 \(R_\beta\)\(R_\eta\) 证明为二阶(依赖 nuisance 参数误差的乘积)。解决的技术难点:在 iDID 结构下,将删失过程的 martingale 积分 \(\int F/H \, dM_C / K\) 嵌入 influence function,并证明余项的二阶性质。 - Theorem 5 (Multiply Robust 识别):定义 6 个子模型 \(M_1, \ldots, M_6\)(例如 \(M_1\) 要求 \(\pi, \mu_A, F, H\) 正确;\(M_6\) 要求 \(\mu_{\tilde{N}}, \mu_{\tilde{Y}}, \mu_A, K\) 正确)。在 \(M_{\text{union}} = \bigcup_{j=1}^6 M_j\) 下,约束最优策略可通过 \(W_N^t I(A=d_t(W))\)\(W_Y^t (I(A=d_t(W)) - I(A=\bar{e}_d(W)))\) 识别。直觉:只要 6 个子集中任一成立,influence function 的期望即恢复真实 CATE,从而策略识别成立。

证明路线与技术技巧: - 整体路线: 1. IPW 识别推导:从期望出发,利用一致性代入潜在结局;利用条件期望与 Assumption 8 消除删失;利用 Assumption 3 (Random Sampling) 分离时期;利用 Assumption 5 消除 \(Z\) 的直接效应与时间趋势;利用 Assumption 6 分离处理效应与 IV 效应的协方差;利用 Assumption 7 合并时期,最终得到 \(E[\tau_N(t,W) d_t(W)] + f_N\)。 2. Multiply Robust 构造:先通过 Theorem 3 建立 Wald-type 识别;然后猜想 influence function(包含主效应项、iDID 交互项、删失 martingale 项);通过 von Mises 展开验证猜想(证明一阶项期望为 0,余项为二阶);最后通过代数变换将 influence function 形式转化为 \(W_N^t I(A=d_t(W))\) 的分类权重形式。 3. 大样本理论:通过 cross-fitting 分离 nuisance 估计与策略估计;利用 empirical process 理论证明 \(\hat{G}_t(\theta) - G_t(\theta) = o_p(1)\);利用 Argmax 定理与 margin condition 证明 \(\hat{\theta}\)\(n^{-1/3}\) 收敛率;利用 Taylor 展开与 nuisance 的 \(o_p(n^{-1/4})\) 速率证明 \(\sqrt{n}(\hat{G}_t(\hat{\theta}) - G_t(\theta^*))\) 的渐近正态性。 - 关键跳跃点: - Theorem 1 中从条件期望到 CATE 的分离:难点在于 \(E[N^*(1)_l(t) | Z, W, U] P(A=1|Z, L, W, U)\) 等项的展开,如何通过 Assumption 5 消除 \(Z\) 对趋势的依赖,再通过 Assumption 6 将 \(\tau_l(t, W, U) \delta_{A,l}(W, U)\) 分解为 \(\tau_l(t, W) \delta_{A,l}(W)\)。这是 iDID 识别的核心卡点,作者通过“无未测量共同效应修饰因子”假设绕过。 - Theorem 4 中 von Mises 余项的二阶证明:难点在于涉及删失过程 \(K\)\(\bar{K}\) 的比率项 \(\int H(u) K(u) / \bar{K}(u) [F/H - \bar{F}/\bar{H}] d[K/\bar{K}]\) 的化简。作者通过微分恒等式(\(d[K/\bar{K}] = [K/\bar{K}](d\bar{\Lambda}_C - d\Lambda_C)\))与分部积分,将比率项转化为 nuisance 误差的乘积项,证明其二阶性质。 - 技术技巧点名: - Martingale integration (dM_C):用于在 influence function 中校正删失,\(M_C(t) = N_C(t) - \int_0^t Y^\dagger(u) d\Lambda_C(u)\) 是删失过程的 martingale,其条件期望为 0,保证了一阶项的无偏性。 - von Mises expansion:用于构造并验证 multiply robust 估计量,是 semiparametric efficiency 理论的标准工具,本文将其适配到 iDID 的交互结构与删失 martingale 项。 - Cross-fitting (Klaassen 1987; Zheng & van der Laan 2011):用于在 ML 估计 nuisance 时保持 \(\sqrt{n}\)-一致性,避免过拟合。 - Argmax theorem & Margin condition (Tsybakov 2004):用于证明非光滑目标函数下策略参数的收敛率(\(n^{-1/3}\))与渐近分布。 - Empirical process / VC class:用于控制分类权重函数 \(\Delta_N^t(O) [d_\theta(W) - d_{\theta^*}(W)]\) 的 bracketing entropy,证明 \(\sup\) 类的收敛。

真实例子与应用: - 数据/场景:全国 Medicare 数据(2016-2023),219,286 名 2 型糖尿病患者,比较一线治疗 Metformin (\(A=1\)) vs GLP-1 RA (\(A=0\))。结局为复发复合事件(心梗、卒中、心衰住院等),竞争风险为死亡。工具变量 \(Z\) 为医生处方偏好(2016-2023 间 Metformin 处方比例的纵向变化二值化),时期 \(L\) 分为 pre (2017-2021) vs post (2022)。 - 怎么用上去:用 F-statistic (Ye et al. 2023) 确定时期分割(F>10,支持工具变量强度)。估计 pseudo-propensity score \(\bar{\pi}(W)\) 定义基线策略 \(\bar{e}_d(W)\)。用 cross-fitted ML 估计 nuisance,用遗传算法优化 AIPW 目标函数。 - 得到什么结果:非 IV IPW 推荐 4.78% 用 Metformin(极端重分配);iDID IPW1 推荐 7.41%;iDID AIPW 推荐 21.16%(更保守、临床更合理:高 frailty、男性、NHW 患者被导向 GLP-1 RA)。AIPW 策略的 Value Gain 为 -0.034 (95% CI [-0.068, 0.001]),即每人减少 0.034 次复合事件,且约束保证生存概率不低于基线。 - 想说明什么:展示忽略未测量混杂(非 IV 方法)会导致极端且混杂的策略重分配;iDID AIPW 通过约束优化与未测量混杂校正,产生临床可解释的保守重分配,且保证不增加死亡率。

🔎 结论是否比证明窄: - Theorem 6(iii) 的渐近正态性:严格证明在 \(\theta^*\) 处成立,但 claim 覆盖了 \(\hat{\theta}\) 处的 \(\hat{G}_t(\hat{\theta})\)。证明中通过 \(n^{-1/3}\) 收敛率与 empirical process 控制将 \(\hat{\theta}\) 处的偏移吸收为 \(o_p(1)\),这是标准技术,但隐含假设了 nuisance 估计在 \(\theta^*\) 邻域的一致性,未显式陈述。 - Multiply robust 的 claim:Theorem 5 证明在 \(M_{\text{union}}\) 下识别成立,但 Theorem 6 的一致性与渐近正态性证明要求所有 nuisance 模型均满足 \(o_p(n^{-1/4})\) 速率(Assumption 10),即使某些模型误设。这是一个常见的“gap”:robustness 保证识别,但大样本理论通常仍要求所有 nuisance 估计收敛(误设的需收敛到错限值),Assumption 10 的表述“product of convergence rates... is \(o_p(n^{-1/2})\)”隐含了这一点,但未显式区分“正确指定模型收敛到真值”与“误设模型收敛到错限值”的速率要求。


三、开放问题

  1. iDID 假设的敏感性分析:Assumption 6 (No unmeasured common effect modifier) 是识别总体 ATE 的关键,但不可检验。如何量化对该假设的违反程度对策略估计的影响?扎根点:Discussion 明确提出 "developing formal sensitivity analyses for these assumptions would strengthen the practical utility"。
  2. 动态治疗策略的 iDID 推广:当前框架为静态策略(单时间点决策),如何将 iDID 推广到时间依赖的处理、混杂与工具变量?扎根点:Discussion 提出 "Extending iDID policy learning to accommodate time-varying treatments and confounders... would naturally connect to the dynamic treatment policy literature"。
  3. 非线性策略类与效率界:当前策略类限定为线性决策边界 \(I(\theta' f_W > 0)\),如何推广到非参数策略类(如 RKHS),并推导该设定下的 semiparametric efficiency bound?扎根点:Discussion 提出 "extending the framework to more flexible policy classes is a natural next step";Remark 2 提到识别结果不限于线性类,但大样本理论依赖线性类的参数化结构。

四、最核心、最简单的例子 / 数学问题

最简特例:无删失(\(C=\infty\))、无竞争风险(\(D=\infty\))、两时期(\(L \in \{0,1\}\))、两工具变量水平(\(Z \in \{0,1\}\))、两处理(\(A \in \{0,1\}\))下的连续结局 \(Y\)(此时 \(Y\) 退化为非复发单次结局)。

在这个特例下,要证的命题退化为:iDID 交互项的期望等于总体 ATE 乘以策略指示,即

\[E\left[\frac{(2Z-1)(2L-1)(2A-1) Y I(A=d(W))}{\pi(L,Z,W) \delta_A(W)}\right] = E[\tau_Y(W) d(W)] + f_Y\]
其中 \(\tau_Y(W) = E[Y(1) - Y(0) | W]\) 是 CATE,\(\delta_A(W) = E[A(1)_1 - A(1)_0 - A(0)_1 + A(0)_0 | W]\) 是 IV 对处理趋势的效应。

证明怎么走(为什么成立): 1. 代入潜在结局:利用一致性 \(Y = Y(A)_L\),展开为 \(E[Y(1)_1 A I(d=1) + Y(0)_1 (1-A) I(d=1) + Y(1)_0 A I(d=0) + Y(0)_0 (1-A) I(d=0)]\) 的加权形式。 2. 条件期望与 Random Sampling:对 \(A\) 取条件期望,分离出 \(E[Y(1)_1 | Z=1, W] P(A=1|Z=1, L=1, W)\) 等四项,利用 Assumption 3 消除 \(L\) 对潜在结局的依赖。 3. 消除 IV 直接效应与趋势:利用 Assumption 5,\(E[Y(0)_1 - Y(0)_0 | Z, W]\) 不依赖 \(Z\),故 \(Z\)\(Y\) 水平的直接效应在 \((2Z-1)(2L-1)\) 差分中被消去;剩余项变为 \(\tau_Y(W, U) \delta_{A,l}(W, U)\) 的加权。 4. 分离 ATE:利用 Assumption 6(无共同修饰因子),\(\text{Cov}(\tau_Y, \delta_A | W) = 0\),故 \(E[\tau_Y(W,U) \delta_A(W,U) | W] = E[\tau_Y(W,U) | W] E[\delta_A(W,U) | W] = \tau_Y(W) \delta_A(W)\)。最终分母 \(\delta_A(W)\) 与分子 \(\delta_A(W)\) 抵消,留下 \(E[\tau_Y(W) d(W)] + f_Y\)

核心数学困难与破法:困难在于未测量 \(U\) 同时影响处理效应 \(\tau\) 与 IV 效应 \(\delta_A\),导致 \(E[\tau \delta_A | W]\) 无法分解。破法是 Assumption 6 强制 \(\tau\)\(\delta_A\)\(U\) 上条件独立(协方差为 0),从而将 LATE-like 的乘积分解为 ATE \(\times\) IV 效应,实现总体 ATE 的点识别。这是 iDID 识别的数学内核,一般情形(复发事件+删失+竞争风险)只是在此内核上“加壳”:用 \(N(t)\) 替换 \(Y\),用 \(K\) 校正删失,用 martingale 积分构造 influence function。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论