Scalable Counterfactual Risk Estimation for Rare Events in Longitudinal Data¶

作者: Xiaohui Yin, Avijit Mitra, Ying Zhou, Kun Chen, Hong Yu
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.01539

一、领域脉络与小综述¶

这个方向是什么：纵向观测数据中时变处理对生存结局的因果效应估计，是因果推断与生物统计的经典交叉子方向。其根本统计问题在于：如何在存在时变混杂、删失及稀有结局的条件下，无偏、稳定且计算可行地识别与估计反事实风险 \(E(Y^g_t)\)。当前该方向在识别理论（g-formula, MSM, SNM）上已高度成熟，但在稀有结局下的计算-统计权衡（类别不平衡导致模型不稳定 + 大样本下 bootstrap 方差估计的计算瓶颈）这一工程与理论交界处，仍处于从"启发式调参"向"有理论保证的算法设计"过渡的阶段。

发展脉络： - 奠基工作：Robins (1986) [16] 提出参数 g-formula，为时变处理的反事实风险提供了非迭代（NICE）与迭代（ICE）两种代数等价识别形式，奠定了纵向因果推断的基石。 - 主要进展（估计框架分流）： - IPW 路线：Robins, Hernán & Brumback (2000) [17] 发展了边际结构模型（MSM），通过逆概率加权构造伪总体。作者在 intro 中明确指出其瓶颈："performance can be compromised by highly variable or extreme weights... leading to unstable or biased estimates"。 - G-估计路线：Vansteelandt & Joffe (2014) [20] 总结了结构嵌套模型（SNM）与 g-估计。作者对其的判断是："rely on computationally demanding, sometimes unstable iterative equations, are highly sensitive to mis-specification... limited direct clinical interpretability"。 - G-formula 路线：Wen et al. (2021) [24] 与 Young et al. (2011) [25] 推动了参数 g-formula 在生存数据中的实现与 bootstrap 推断。作者认为 g-formula 避开了 MSM 的权重不稳定与 SNM 的计算负担，是更稳定的选择。 - 当前 frontier（稀有结局 + 计算瓶颈）： - King & Zeng (2001) [10] 指出了稀有事件下 logistic 回归的分离与偏差问题。 - Wang (2020) [22] 与 Wang et al. (2021) [23] 在横截面设定下，为稀有结局的子抽样与重加权提供了渐近方差等于全样本 MLE 方差的理论保证，并提出了非均匀负采样与 log odds 校正。作者在 intro 中引用此作为其子抽样策略的理论前驱："retaining all cases while subsampling a sufficiently large number of controls... yields estimators that are consistent and, under suitable asymptotic regimes, can achieve the same asymptotic variance as the corresponding full-sample maximum likelihood estimator"。 - Fithian & Hastie (2014) [5] 提出了局部 case-control 抽样，作者在 Discussion 中将其列为优化抽样策略的理论指引。 - 本文的位置：将横截面稀有结局的 case-control 子抽样思想（Wang 2020），推广到纵向生存数据的 g-formula（特别是 ICE）实现中，解决跨时间点的结构性依赖与计算瓶颈。

子线索聚类： 1. 纵向因果识别与估计：g-formula [16, 24, 25] vs. MSM [17] vs. SNM [20]。本文选定了 g-formula（特别是 ICE）作为基底估计量。 2. 稀有事件的统计修正：Logistic 回归的偏差校正 [10]；子抽样下的渐近效率保持 [22, 23]；局部 case-control [5]。本文借用了此线索的子抽样思想，但未采用其偏差校正（log odds correction）。 3. 计算可扩展性：大规模数据下的算法加速。本文通过子抽样降低每次 bootstrap 拟合的样本量，属于数据层面的计算优化。

核心追问与已知瓶颈： - 核心追问 1：在纵向设定下，如何构造一个跨时间点一致的子抽样方案，使得局部（每个时间点）的 case-control 抽样不破坏全局（ICE 迭代）的估计一致性？（本文通过平衡方程组 (4) 给了一种回答） - 核心追问 2：稀有结局下，g-formula 依赖的 logistic 回归等 nuisance 模型面临分离与不收敛，如何稳定拟合？（本文通过子抽样缓解类别不平衡，但未从模型修正角度解决） - 已知瓶颈：全样本 ICE + Bootstrap 的计算代价随 \(N\) 与 \(T\) 线性甚至超线性增长；稀有结局下后期时间点的有效样本量极小（如本文应用中最后时间点仅 20 个 case）。

⚠️ 作者的 framing： - 作者如何 frame 缺口：作者将缺口 frame 为"横截面的 case-control 抽样无法直接应用于纵向数据，因为抽样决策在时间点间存在结构约束"，从而让本文的"纵向 case-control 平衡方程"成为"显然的下一步"。 - 被淡化或回避的竞争路线： 1. 双稳健 / TMLE 路线：作者在 Discussion 中仅一句提及 "doubly robust extensions, such as longitudinal TMLE [19] or AIPTW [1]"，并承认 "a formal study of such extensions is left for future work"。这实际上回避了当前纵向因果推断最活跃的半参数效率路线——如果 nuisance 模型可能错配，仅依赖 g-formula 的单稳健性是严重缺陷。 2. 模型修正路线：对于稀有结局导致的 logistic 回归偏差，King & Zeng (2001) 的校正方法、Wang et al. (2021) 的 log odds correction，本文完全未纳入其估计流程，仅靠子抽样缓解不平衡，这在理论上留下了偏差缺口。 - 该引却未引的潜在工作： 1. 纵向 TMLE / AIPTW 的近期进展：如 Petersen et al. 或 van der Laan 团队在 longitudinal TMLE 上的系统工作，若要讨论"灵活机器学习 nuisance 估计器"与"双稳健"，这些是必须对标的。 2. 高维纵向因果推断：当协变量维度高时，g-formula 的参数模型假设极强，debiased ML 或 DML 在纵向设定下的工作（如 Chernozhukov 团队）未被提及。 3. Subsampling 的最优设计理论：除了 Fithian & Hastie，最优子抽样权重的设计（如基于 influence function 的最优子抽样概率）在近年有系统进展，作者仅引用了较早期的 Wang (2020)。

张力： - 未见明显对立引用。但存在隐性张力：作者声称其方法"preserves consistency"，但这一一致性严格依赖于所有时间点的所有 nuisance 模型（logistic 回归）均正确指定（Theorem 1 的前提）。而在稀有结局下，logistic 回归的偏差与分离问题（King & Zeng 2001 [10]）恰恰使得"正确指定"这一前提极难成立。作者用子抽样缓解了不平衡，但未消除参数模型的偏差风险，这与他们回避双稳健路线形成了张力——如果模型可能错，单稳健的子抽样估计量的一致性便不复存在。

二、这篇论文做了什么¶

类型：方法型（算法设计 + 模拟 + 应用 + 初步一致性证明）。

三句话： ① 研究了纵向观测数据中时变处理对稀有生存结局的因果效应估计，面临全样本 ICE + Bootstrap 计算瓶颈与类别不平衡问题； ② 核心工具是提出一种纵向 case-control 子抽样与重加权策略，通过构造跨时间点的平衡方程组 (4) 保证加权估计方程的期望等价于全样本估计方程； ③ 主要结论是：在所有 nuisance 模型正确指定的前提下，子抽样 ICE 估计量保持一致性（Theorem 1），模拟与 VHA 队列应用显示计算时间降至约 1/4，而标准误仅轻微增加。

关键设定与假设： - 数据结构：离散时间点 \(j=0,\dots,T\)，观测序列 \((L_j, A_j, C_{j+1}, Y_{j+1})\)，\(Y_j\) 为事件指示，\(C_j\) 为删失指示。 - 因果假设：一致性、条件可交换性 \((Y^g_{j+1},\dots,Y^g_T) \perp (A_j, C_{j+1}) | \bar{L}_j, \bar{A}_{j-1}, C_j=Y_j=0\)、正值性。与标准 g-formula 文献 [16, 24] 相同，未放宽。 - 子抽样设计假设： - 每个时间点保留所有 case，对 control 与 censored 个体以比例 \(J_t, K_t\) 进行有放回抽样。 - 权重 \(w_t, m_t, \ell_t\) 满足平衡方程组 (4)，使得每个互斥组 \(G_0,\dots,G_{2k}\) 的期望加权贡献相等。 - 关键简化：作者采用了 \(\ell_t=w_t=m_t=0\) for \(t \ge 1\) 的特定权重方案，即仅使用当前全局时间点（局部重标为 \(t=0\)）的抽样个体拟合模型。这意味着跨时间点的信息在模型拟合时被完全丢弃，仅通过 ICE 的迭代预测结构在算法层面传递。 - 模型假设：所有时间点的 outcome 模型与 covariate 模型（若用 NICE）需正确指定。本文模拟中采用 logistic 回归，应用中提及可用 SuperLearner，但理论仅保证参数模型下的一致性。

主要结果： - Theorem 1（一致性）：在因果假设与模型正确指定下，Algorithm 2 的子抽样 ICE 估计量与 Algorithm 1 的全样本 ICE 估计量具有相同的概率极限（一致估计 \(E(Y^g_T)\)）。 - 直觉：通过平衡方程 (4)，加权估计方程 \(S(O)\) 的期望 \(E\{S(O)\}\) 被证明等于 \(w_0 N E^*_0\{S_0(O^*)\}\)（见 Appendix B, C 的推导）。因此，解 \(E\{S(O)\}=0\) 等价于解全样本方程 \(E^*_0\{S_0(O^*)\}=0\)。 - 技术难点：纵向设定下，同一个体可在不同时间点以不同角色（case / control / censored）被抽样，需保证其跨时间的期望加权总贡献与全样本下相等。作者通过互斥分组 \(G_0,\dots,G_{2k}\) 与平衡方程解决了这一依赖结构。 - 必要条件：模型正确指定；权重满足 (4)；抽样概率已知且用于权重构造。 - 模拟与应用量化结论： - 模拟（\(N=30k\), 6 时间点，1% 发生率）：ICE + Logistic 的全样本拟合约 4.5 秒，子抽样（\(J=5\)）总运行约 1.5 秒；ICE + SuperLearner 全样本约 63 分钟，子抽样（\(J=10\)）约 3 分钟。标准误从 0.14（全样本）增至 0.19（\(J=5\)），0.15（\(J=20\)）。 - 应用（\(N=125k\), 5 时间点，331 cases）：全样本 ICE 约 24.7 秒，子抽样约 5.7 秒；1000 次 bootstrap 从 6.9 小时降至 1.6 小时。最后时间点标准误从 0.02 增至 0.06。

方法 / 证明骨架： 1. 将总体划分为 \(2k+1\) 个互斥组 \(G_i\)（基于首次事件或删失发生的时间点）。 2. 在每个时间点 \(t\)，对 alive 个体以概率 \(J_t c_t / (N - \sum c_j - \sum s_j)\) 抽样为 control，对 censored 个体以概率 \(K_t c_t / s_t\) 抽样。 3. 构造加权估计方程 \(S(O) = \sum_t (c_t w_t S(O_{t,c}) + J_t c_t m_t S(O_{t,m}) + K_t c_t \ell_t S(O_{t,s}))\)。 4. 通过条件期望的代数展开（Appendix B, C），证明 \(E\{S(O)\} = w_0 N E^*_0\{S_0(O^*)\}\)，核心技巧是将抽样概率的倒数转化为条件密度的重加权，并利用互斥分组将条件期望拼接为全样本边缘期望。 5. 选择 \(\ell_t=w_t=m_t=0\) for \(t \ge 1\) 的权重，使得 Algorithm 2 在每个时间点仅使用局部子样本拟合，无需跨时间点存储或加权，实现计算简化。

🔎 结论是否比证明窄： - 窄结论 1：Theorem 1 仅证明了一致性，但作者在 Abstract 与 Discussion 中泛泛声称 "preserving consistency and improving estimation stability in rare-outcome settings"。"improving estimation stability" 在定理中完全没有证明——稳定性（如有限样本方差、分离问题的缓解）仅通过模拟展示，缺乏理论界。 - 窄结论 2：Discussion 提及 "the same subsampling weights could be incorporated into the corresponding influence-function-based estimating equations"（指 TMLE / AIPTW），但这是未证明的 conjecture。双稳健估计量的 influence function 包含 treatment 与 outcome 两个 nuisance 模型的乘积结构，子抽样如何同时保证两个加权估计方程的等价性，且在模型错配下保持双稳健性，是一个未触及的开放问题。 - 窄结论 3：作者选择的权重方案（仅用局部 \(t=0\) 的子样本）在证明中是合法的，但在效率上显然不是最优的（丢弃了跨时间点的 control 信息）。作者承认 "different choices of weights and sampling ratios can influence efficiency"，但未给出任何效率界或最优权重的设计准则，仅建议"跑几个 pilot bootstrap 选比例"——这是纯启发式的。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料： - 社区真在乎的开放问题： 1. 纵向稀有结局的半参数效率界与双稳健估计：从被引文献看，MSM [17] 与 SNM [20] 的瓶颈是公认的，g-formula [24] 的单稳健性也是公认缺陷。近期纵向因果推断社区（如 van der Laan 团队、Robins 团队）的核心推进方向是 longitudinal TMLE / AIPTW 的双稳健性与效率。如何将子抽样与双稳健估计结合，是社区在计算-统计权衡上的真 gap——作者在 Discussion 末尾自己点出了这一点，但未做。 2. 稀有结局下 nuisance 模型的偏差校正：King & Zeng [10] 与 Wang et al. [23] 的 log odds correction 是横截面稀有事件文献的共识修正步骤。本文在纵向设定下完全未采用任何偏差校正，这在统计上是可疑的——纵向 g-formula 的迭代结构是否会放大稀有事件的偏差？如何将 log odds correction 嵌入 ICE 的迭代拟合？ 这是被本文回避但很可能值得做的真问题。 - 作者一家之言的 gap："横截面 case-control 无法直接用于纵向数据"——这确实是本文的切入点，但解决方案（平衡方程组 + 仅用局部子样本）更像是一个工程 patch，而非理论突破。社区是否认为这是核心瓶颈，需自查同子领域近期 5 篇 intro（如 Wen 2021, Young 2020 的后续工作）是否都指向"纵向子抽样设计"。

问题种子清单：

(A) 立即可做（用 very_familiar 就能动手）：

问题表述：推导纵向 ICE 估计量在稀有结局下的有限样本偏差界，并量化子抽样（仅用局部 \(t=0\) 子样本）引入的额外偏差（若存在）。
扎根在本文哪里：Discussion 承认 "We do not derive closed-form variance expressions or formally characterize efficiency"，且完全未讨论偏差；Theorem 1 仅在 \(N \to \infty\) 且模型正确指定下保证一致性，但稀有结局下 \(N\) 虽大、case 数 \(c_t\) 极小（如应用中最后时间点仅 20 case），渐近近似可能失效。
攻它需要什么：高维渐近 / 非参数统计工具（very_familiar）；需构造一个 \(c_t / N \to 0\) 的渐近序列，分析 logistic 回归在此设定下的偏差（可借用 King & Zeng 的框架推广到纵向迭代）。
谁已经在附近做：Wang (2020) 在横截面下给出了偏差校正；纵向迭代设定下未见。需自查拥挤度。
武器库匹配 + 独特角度：very_familiar 的高维渐近与 inverse problems with random noise 可用于分析迭代期望算子在小 case 数下的偏差传播——这是本文作者（偏算法与应用）完全不具备的角度。
问题表述：为本文的子抽样 ICE 估计量构造一个基于 influence function 的解析方差估计公式，替代计算昂贵的 bootstrap。
扎根在本文哪里：Section 3 明确说 "closed-form expressions for standard errors are difficult to derive in this setting, inference typically relies on bootstrap procedures, further increasing the computational burden"；Section 4 所有 SE 均靠 100-1000 次 bootstrap 计算。
攻它需要什么：因果推断中的 estimation theory (very_familiar) + M-estimation 理论 (moderately_familiar)。需推导子抽样加权估计方程的 sandwich variance，关键在于处理有放回抽样导致的依赖结构。
谁已经在附近做：横截面 case-control 的方差估计有 Breslow (1996) [4] 与 Wang (2020) [22]；纵向迭代设定下未见。
武器库匹配 + 独特角度：very_familiar 的 estimation theory in causal inference 可直接用于推导 ICE 的 influence function（已知全样本 ICE 的 IF 是迭代嵌套结构），关键新步骤是加入子抽样权重的方差贡献——这可转化为一个条件期望的方差分解问题。

(B) 中期可做（需补 moderately_familiar 的特定块）：

问题表述：将本文的子抽样策略与纵向 TMLE / AIPTW 结合，构造一个在 nuisance 模型部分错配下仍保持双稳健性与一致性的子抽样估计量。
扎根在本文哪里：Discussion 末句："doubly robust extensions, such as longitudinal TMLE [19] or AIPTW [1]... the same subsampling weights could be incorporated into the corresponding influence-function-based estimating equations, although a formal study of such extensions is left for future work."
攻它需要什么：需补 HOIF / 半参数理论（moderately_familiar）中的 longitudinal TMLE 更新步骤（需读 van der Laan & Gruber 2012 [19] 的 targeted 更新算法）；补完后，核心问题是：子抽样加权如何同时作用于 treatment 与 outcome 的 estimating equations，且在错配下保证双稳健？需证明子抽样不破坏 TMLE 的双稳健结构。
谁已经在附近做：van der Laan 团队近期有横截面的子抽样 TMLE 工作（需自查）；纵向设定下未见。
武器库匹配 + 独特角度：moderately_familiar 的 HOIF 与 semiparametric theory 是理解 TMLE 更新步骤的必要工具；very_familiar 的 estimation theory 可用于推导双稳健 influence function。研究者从估计理论出发，比本文作者（偏算法）更有条件触及半参数效率核心。

(C) 暂不建议：

问题表述：寻找满足平衡方程 (4) 且最小化渐近方差的最优权重 \(w_t, m_t, \ell_t\) 与最优抽样比例 \(J_t, K_t\)。
扎根在本文哪里：Discussion："how to select weighting and subsampling strategies to improve efficiency... Prior work on optimal sampling strategies (e.g., 5, 23) provides useful theoretical guidance"。
攻它需要什么：需推导纵向 ICE 估计量的完整渐近方差表达式（作为权重与抽样比例的函数），然后在一个约束优化问题（满足 (4) + 计算预算约束）下求解最优设计。这需要极精细的半参数效率界计算 + 复杂的约束优化。
核心机器缺什么：缺一个纵向迭代估计量的渐近方差对子抽样设计的显式依赖表达式——目前连全样本 ICE 的解析方差都未推导（本文靠 bootstrap），子抽样下的方差更涉及抽样概率的高阶矩。从武器库内不易绕过，因为这不是单纯的 minimax bound 问题，而是特定估计量在特定设计下的精确方差计算。
为何不易绕过：即使有 HOIF 理论，纵向迭代嵌套的 influence function 计算已极复杂（涉及跨时间点的条件期望链），加入子抽样设计的方差贡献后，解析表达可能不可行，需依赖数值或模拟优化——这失去了理论新颖性。

迁移视角： - 方法 T：纵向 case-control 子抽样 + 平衡方程组（保证加权估计方程期望等价于全样本）。 - 目标领域 1：高维纵向因果推断中的 Debiased ML / DML。当前 DML 在纵向设定下的实现（如 Chernozhukov 团队的 dynamic DML）面临类似计算瓶颈：需在每个时间点拟合高维 nuisance 模型，且若结局稀有，cross-fitting 的每个 fold 内类别不平衡极严重。本文的子抽样 + 重加权策略可直接迁移到 DML 的 cross-fitting 步骤中，缓解不平衡并加速计算。研究者凭借 very_familiar 的高维渐近与 estimation theory，可评估子抽样 DML 的偏差与方差界，这是高维因果推断社区尚未系统解决的问题。 - 目标领域 2：高阶 U-统计量的计算加速。研究者 very_familiar 的高阶 U-统计量计算（treewidth / tensor contraction / einsum）面临类似的计算瓶颈：当阶数高或样本量大时，einsum 的计算代价极高。本文的"保留稀有事件（高阶交互项的非零贡献）+ 子抽样零贡献项"的思想，可迁移为：在 U-统计量的 tensor contraction 中，仅保留核函数值非零或显著的索引组合，对其余组合进行子抽样与重加权。这需要研究者用 tensor network 的图论表征重新定义"稀有事件"（即稀疏张量条目），并构造保证 U-统计量期望无偏的加权 contraction 方案——这命中了研究者独特的 einsum 复杂度角度，且在 U-统计量文献中未见。

四、延伸与下一步¶

沿引用链的阅读路线： - 地基（先读）： 1. Robins (1986) [16]：理解 g-formula 的两种识别形式（NICE vs. ICE）与迭代期望的数学结构。 2. Hernán & Robins (2020) [7]（Causal Inference: What If 第 IV 部分）：快速掌握纵向因果假设（exchangeability, positivity）与 MSM / SNM / g-formula 的全景对比。 - Frontier（再读）： 3. Wen et al. (2021) [24]：理解参数 g-formula 在生存数据中的实现细节（Algorithm 1 的直接来源）与 bootstrap 推断的实操问题。 4. Wang (2020) [22] 与 Wang et al. (2021) [23]：掌握横截面稀有结局子抽样的渐近效率保持理论与 log odds 校正——这是本文的理论前驱，也是评估本文是否遗漏偏差校正的关键对标。 5. van der Laan & Gruber (2012) [19]：理解 longitudinal TMLE 的 targeted 更新步骤与双稳健性——这是本文 Discussion 点出的未来方向，也是研究者切入半参数扩展的必读。 6. Fithian & Hastie (2014) [5]：理解局部 case-control 抽样的最优设计理论——本文在 Discussion 提及但未采用，若研究者要攻最优权重问题，需从此入手。

假设扰动： - 改动假设：放宽"所有 nuisance 模型正确指定"，允许 outcome 模型或 treatment 模型错配。 - 结论变化：Theorem 1 的一致性立即失效（单稳健估计量在错配下有偏）。若要恢复一致性，必须引入双稳健结构（TMLE / AIPTW），使得仅需 outcome 或 treatment 模型之一正确。 - 需要的新工具：半参数双稳健估计理论（longitudinal TMLE 的 targeted 更新需在子抽样加权数据上执行，需证明更新步骤在加权估计方程下仍收敛至半参数效率界）。 - 落入哪一档：B 档（需补 longitudinal TMLE 的 moderately_familiar 理论，补完后可攻"子抽样纵向 TMLE 的双稳健性与一致性证明"）。

理解检测题： - 练习题：考虑一个简化纵向设定：2 个时间点，无删失，\(N=10000\)，时间 1 有 50 个 case，时间 2 有 30 个 case。假设你采用本文的子抽样策略，在时间 1 抽取 \(J_1=5\) 倍 control（250 个），在时间 2 抽取 \(J_2=10\) 倍 control（300 个）。 1. 写出互斥分组 \(G_0, G_1, G_2\) 的定义与规模。 2. 写出平衡方程组 (4) 在此设定下的具体形式（2 个方程，3 个未知权重 \(w_0, w_1, m_0\)，注意 \(m_1\) 仅在时间 2 出现）。 3. 若你选择本文推荐的 \(\ell_t=w_t=m_t=0\) for \(t \ge 1\) 方案（即仅用当前时间点的局部子样本），计算时间 1 与时间 2 拟合模型时，每个 case 与 control 的具体权重值。 4. 核心思路应用：验证在此权重下，加权估计方程 \(E\{S(O)\}\) 是否等于 \(w_0 N E^*_0\{S_0(O^*)\}\)（即全样本方程的常数倍），并解释为何这一等价性保证了局部子样本拟合的参数仍收敛至全样本参数。 5. 进一步思考：若你在时间 2 拟合时，不仅用时间 2 的子样本，还想纳入时间 1 的部分 control（因其仍 alive 且有历史信息），你该如何修改权重方案以保持平衡方程？这会带来什么计算与效率影响？

Maintained by 陈星宇 · Homepage · Source on GitHub

Scalable Counterfactual Risk Estimation for Rare Events in Longitudinal Data¶

一、领域脉络与小综述¶

二、这篇论文做了什么¶

三、值不值得做 / 研究者能做什么¶

四、延伸与下一步¶

评论