Asymptotic properties of resampling‐based processes for the average treatment effect in observational studies with competing risks¶

作者: Jasmin Rühl, Sarah Friedrich
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向处理的是：在观察性研究中，时间-事件终点受竞争风险影响时，如何利用 g-formula 估计平均处理效应（ATE），并为其构造有效的逐点置信区间和时间同步置信带。核心困难在于：g-formula 估计量作为随机过程（累积发生率函数的函数）的渐近分布复杂，无法直接获得显式协方差结构，因此需要依赖重抽样方法逼近其分布。成熟度处于“方法已被广泛应用，但关键渐近理论仍不完整”的状态——特别是竞争风险设定下三种主流重抽样（非参数 bootstrap、影响函数+重抽样、wild bootstrap）的大样本性质此前未被系统证明。

发展脉络（根据本文引言及引用语境整理）¶

奠基工作：Benichou & Gail (1990) 奠定了基于原因特异性风险模型预测绝对风险的方法；Efron (1981) 将非参数 bootstrap 引入删失数据。Ozenne et al. (2020, 2017) 进一步发展了双重稳健的 g-formula 估计量及其影响函数，基于风险回归包 (riskRegression) 实现了点估计与置信区间，但其渐近论证依赖于 functional delta method，且只给出了 pointwise 推断。
主要进展——重抽样在竞争风险中的应用：Beyersmann et al. (2013)、Dobler & Pauly (2014) 以及 Dobler et al. (2017) 系统研究了 Aalen-Johansen 过程的重抽样性质，指出加权 bootstrap（包括经典 bootstrap 的变体）在竞争风险下可能具有错误的极限协方差结构（Dobler & Pauly, 2014），但针对特定零假设仍可构造一致检验。Dobler et al. (2015) 引入了“非奇怪奇怪重抽样”（non-strange weird resampling）框架，证明了 multiplier bootstrap（含 wild bootstrap）在生存数据（含竞争风险）下的一致渐近正确性。这些工作主要针对 Aalen-Johansen 估计量，而非因果 g-formula 估计量。
竞争风险下的因果效应估计：Young et al. (2018, 2020) 用反事实框架澄清经典竞争风险统计 estimand 的因果含义：累积发生率的风险差对应“总效应”，而若将竞争事件视为删失则可能得到“直接效应”。Martinussen & Stensrud (2023) 指出风险差 estimand 只能捕捉总效应，无法区分直接/间接途径，随后提出可分离效应（Martinussen & Stensrud, 2020; Stensrud et al., 2019）。这些工作推动了因果 estimand 的定义，但估计方法上仍依赖 g-formula 或 IPW，重抽样的渐近理论仍基于 Aalen-Johansen。
当前 frontier 与本文位置：Rühl & Friedrich (2024) 通过仿真比较了多种重抽样在竞争风险 g-formula 中的有限样本表现，发现 wild bootstrap 优于非参数 bootstrap。本文（Rühl & Friedrich, 2025）在此基础上提供严格的大样本渐近证明，证明非参数 bootstrap、影响函数+重抽样、wild bootstrap 三种方法在竞争风险 g-formula 设定下的弱收敛性，并利用实际数据（身体活动对膝关节置换的影响）展示应用。这是首次针对因果 g-formula 估计量（而非 Aalen-Johansen）的重抽样过程给出完整渐近理论。

子线索聚类¶

竞争风险下的因果定义与识别（Young, Stensrud, Martinussen, Rubin）：用反事实定义竞争事件下的因果效应，讨论总效应、直接效应、可分离效应。核心挑战在于 estimand 的因果解释与识别假设（如主分层、可分离效应假设）。这些工作为本文提供了 estimand 的理论基础（总效应对应的风险差）。
g-formula 与双重稳健估计（Ozenne, Scheike, Gerds）：基于原因特异性 Cox 模型估计绝对风险，并给出影响函数、双重稳健性和 pointwise 置信区间。本文直接采用其 g-formula 估计量作为目标过程。
重抽样方法在生存/竞争风险数据中的渐近理论（Dobler, Beyersmann, Pauly, Rühl）：非参数 bootstrap、wild bootstrap、multiplier bootstrap 在 Aalen-Johansen 过程和 Kaplan-Meier 下的性质，包括协方差结构正确性、有限样本问题（如删失机制）。本文将此理论延伸至 g-formula 过程。
具体应用（Master et al.）：膝骨关节炎患者每日步行量与膝关节置换风险的关联。本文用此数据演示方法。

本方向在追问的核心问题¶

如何为竞争风险下的因果 g-formula 估计量构造时间同步置信带（而非仅逐点区间）？
在有限样本下，当事件稀疏或删失严重时，不同重抽样方法的实际覆盖精度差异的根源是什么？
能否将重抽样渐近理论推广到更复杂的因果 estimand（如可分离效应、受诅咒的生存效应）？
非参数 bootstrap 在竞争风险 g-formula 下是否具有与 Aalen-Johansen 不同的协方差性质？——这正是 Dobler & Pauly (2014) 发现的“加权 bootstrap 可能错”与本文证明“非参数 bootstrap 有效”之间的关键张力。

⚠️ 作者的 framing（必须明确标注为作者说法）¶

作者将缺口 frame 为：“已有重抽样渐近理论针对 Aalen-Johansen 过程，但 g-formula 估计量的随机过程更复杂（包含协变量调整），其重抽样性质尚未被严格证明”[引自摘要+引用语境中对 Dobler et al. 的定位]。
作者淡化/回避的竞争路线：① 未讨论贝叶斯 bootstrap 或置换检验作为替代方案；② 未深入比较的可分离效应估计量（Martinussen & Stensrud, 2020）的渐近重抽样性质——该估计量基于不同的影响函数结构；③ 未提及非参数 bootstrap 在删失机制违反“随机删失”假设时可能失效（Rühl et al., 2022 曾证明这点，但本文设定满足随机删失，故可回避）。
什么明显该被引/该存在却没出现：本文未引用 Neumann & Billionnet (2016) 或 Lin (1997) 关于生存数据 bootstrap 的早期理论，尽管 Lin (1997) 的 multiplier resampling 是竞争的源头之一；另外，Efron (1981) 被引用时只提了“bootstrap for censored data”，但未讨论其与 wild bootstrap 的替换关系。这些可作为研究者自查点。

张力¶

Dobler & Pauly (2014) 明确指出非参数 bootstrap 的加权版本对 Aalen-Johansen 过程可能产生错误的极限协方差结构（仅对特定零假设有效），而本文声称非参数 bootstrap 对 g-formula 过程是渐近有效的。这一矛盾可能源于 g-formula 过程的协方差结构不同（它基于模型化的原因特异性风险，而非经验化的 Aalen-Johansen），但作者未直接讨论此点。这是一个高价值张力：是否意味着作者绕过了一个潜在的协方差问题？
未见其他明显对立引用。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( T \)：事件时间（连续；可能为竞争事件，记 \( \epsilon \in \{1,2,\dots,K\} \) 为事件类型，其中 1 为感兴趣事件，其余为竞争事件）。
\( C \)：删失时间（独立随机删失假设下）。
\( Y = \min(T, C) \)：观测到的随访时间。
\( \Delta = I(T \leq C) \)：观测到事件的指示符；若 \( \Delta = 1 \)，则 \( \epsilon \) 可观测。
\( A \)：二值处理变量（0/1）。
\( X \)：基线协变量向量（可能高维，但本文假设维数固定且有限）。
\( \tilde{F}_1^{(a)}(t) = P(T \leq t, \epsilon = 1 \mid A=a) \)：在实际赋值 \( A=a \) 下的累计发生率函数（风险函数）。注意这不是因果量，而是条件于 \( A \) 的观测关联。
\( F_1^{(a)}(t) = P(T(a) \leq t, \epsilon(a) = 1) \)：因果量——若将全体对象赋值到处理 \( a \) 时的潜在事件时间与类型对应的累计发生率。这里 \( T(a), \epsilon(a) \) 是潜在变量。
可观测数据：对每个独立同分布的单位 \( i=1,\dots,n \)，观测到 \( (Y_i, \Delta_i, \Delta_i \epsilon_i, A_i, X_i) \)。潜在变量 \( T(a), \epsilon(a) \) 不可观测，只能通过假设识别。
estimand（目标）：\( \text{ATE}(t) = F_1^{(1)}(t) - F_1^{(0)}(t) \)，即 \( t \) 时刻的因果风险差。
假设：无未测量混杂（\( A \perp (T(a), \epsilon(a)) \mid X \)），positivity（\( 0 < P(A=1 \mid X) < 1 \)），一致性（观测到的 \( T, \epsilon \) 等于对应 \( A \) 的潜在值），删失独立于事件时间给定 \( A, X \)。
模型：
原因特异性 hazard 模型：\( \lambda_k(t; A, X) = \lambda_{0k}(t) \exp(A\beta_k + X^\top\gamma_k) \)，其中 \( k=1,\dots,K \)。\( \lambda_{0k}(t) \) 为非参数基准危险函数。
g-formula 估计量：首先拟合 Cox 模型估计 \( \hat{\lambda}_k(t; A, X) \) 及基准累积危险 \( \hat{\Lambda}_{0k}(t) \)，然后对每个 \( a \in \{0,1\} \) 估计 \( \hat{F}_1^{(a)}(t) = n^{-1} \sum_{i=1}^n \hat{P}(T \leq t, \epsilon = 1 \mid A = a, X = x_i) \)，其中后者通过原因特异性危险整合得到（即基于估计的累积发生率函数在全体协变量分布上取平均）。这就是“标准 g-formula”估计量。
潜在变量 vs 可观测：混杂调整通过模型 \( \lambda_k(t; A, X) \) 和平均在观测协变量分布上实现。\( \hat{F}_1^{(a)}(t) \) 是随机过程（随 \( t \) 变化）。不可观测的是对每个 \( X=x_i \) 在 \( A=a \) 下的真实潜在风险，但假设 + 模型使其识别。

第二步：最小内核¶

最简特例：假设只有一个竞争事件（\( K=2 \)），且原因特异性 Cox 模型基准危险均为常值（指数失效时间），且协变量 \( X \) 仅一个二值变量（如性别）。此时 g-formula 估计可完全解析：先拟合两个 Cox 模型（可简化为泊松回归），得到 \( \hat{\beta}_k, \hat{\gamma}_k, \hat{\lambda}_{0k} \) 常数。然后对于每个 \( a \)，计算

\[\hat{F}_1^{(a)}(t) = \frac{1}{n} \sum_{i=1}^n \frac{\hat{\lambda}_{01} e^{a\hat{\beta}_1 + X_i\hat{\gamma}_1}}{\hat{\lambda}_{01} e^{a\hat{\beta}_1 + X_i\hat{\gamma}_1} + \hat{\lambda}_{02} e^{a\hat{\beta}_2 + X_i\hat{\gamma}_2}} \left(1 - e^{-(\hat{\lambda}_{01} e^{a\hat{\beta}_1 + X_i\hat{\gamma}_1} + \hat{\lambda}_{02} e^{a\hat{\beta}_2 + X_i\hat{\gamma}_2}) t} \right).\]

这个表达式是 \( t \) 的确定性（给定估计）函数，但 \( \hat{\beta}_k, \hat{\gamma}_k, \hat{\lambda}_{0k} \) 是随机估计量，因此 \( \hat{F}_1^{(a)}(t) \) 作为 \( t \) 的函数是一个随机过程。

拆解：假设只有两个协变量取值（\( X=0 \) 或 1），且已知基准危险（不再估计，仅 \( \beta_k, \gamma_k \) 未知），问题退化：\( \hat{F}_1^{(a)}(t) \) 仅依赖于从 Cox 偏似然得到的有限维参数 \( (\hat{\beta}_k, \hat{\gamma}_k) \)，因此 \( \hat{F}_1^{(a)}(\cdot) \) 的弱收敛等价于有限维参数的联合正态性导出的 delta 方法——这是平凡情形。真正的核心困难来自基准危险的估计（无限维 nuisance）。即使基准危险是常数，仍需同时估计其值，使得 g-formula 过程无法简化为有限维参数的可变函数。

因此最小内核是：仅有一个协变量（二值），但基准危险非参数（或常值但需要在桥接过程中处理其估计的不确定性）。论文的核心思路：证明 \( \hat{F}_1^{(a)}(t) \) 可以表达为关于累积基准危险的函数，后者可以由 Breslow 估计量一致估计，且 Breslow 过程在竞争风险下是弱收敛的（Aalen-Johansen 型）。然后重抽样过程（非参数 bootstrap、wild bootstrap）能复制该弱收敛的协方差结构。关键跳跃：Dobler et al. (2015) 已经证明 multiplier bootstrap 对 Aalen-Johansen 过程有效，而 g-formula 过程是 Aalen-Johansen 积分后的线性泛函（在协变量上平均）。本文需确认该线性泛函的连续性与渐近可交换性能由重抽样保持。

三、这篇论文做了什么（重心，讲透）¶

三句话¶

研究问题：在具有竞争风险的观察性时间-事件数据中使用 g-formula 估计 ATE 时，非参数 bootstrap、影响函数+重抽样、及 wild bootstrap（含三种乘子分布）三种重抽样方法能否为因果风险差过程 \( \widehat{\text{ATE}}(t) \) 构造渐近有效的点wise置信区间和时间同步置信带？
核心方法：基于原因特异性 Wald 型 Cox 回归的 g-formula 估计量，将其随机过程表达为累加过程，证明其在 Skorokhod 空间上的弱收敛性；然后证明三种重抽样方案能在条件概率（给定原始数据）下同样弱收敛到同一极限过程，从而提供分布逼近。
主要结论：在正则条件下，所有三种重抽样方法均渐近有效——非参数 bootstrap、影响函数+重抽样、wild bootstrap（使用标准正态或泊松乘子）均产生正确覆盖率的置信区间与置信带。仿真和实际数据（膝骨关节炎）给出了有限样本支持。

关键设定与假设¶

设定：独立同分布样本 \( (Y_i, \Delta_i, \Delta_i\epsilon_i, A_i, X_i) \)，其中 \( X_i \) 为有限维基线协变量（本文假定维数固定）。事件类型 \( \epsilon \in \{1,2\} \)（仅两个，本文推广到有限 K 但论证以两个为例）。
假设清单：
(A1) 无未测量混杂：\( A \perp (T(a), \epsilon(a)) \mid X \)。
(A2) Positivity：\( \eta < P(A=1 \mid X) < 1-\eta \) 几乎处处，\(\eta>0\)。
(A3) 一致性：观测 \( T = T(A), \epsilon = \epsilon(A) \)。
(A4) 删失独立于事件时间给定 \( A, X \)：\( C \perp (T, \epsilon) \mid A, X \)（独立随机删失）。
(A5) 原因特异性 Cox 模型正确设定：真实条件危险 \( \lambda_k(t \mid A, X) = \lambda_{0k}(t) \exp(A\beta_k + X^\top\gamma_k) \)。注意此假设很强（模型正确），但作者未放松；引用 Ozenne et al. (2020) 的双重稳健性在仿真中有涉及但本文理论不包含模型误设。
(A6) 常规正则性条件：设计矩阵满秩、有限 Fisher 信息、\( \Lambda_{0k}(t) \) 连续且正则化条件确保 Breslow 估计量的一致性与弱收敛性（类似于 Andersen & Gill, 1982）。
相比已有文献：相较于 Dobler et al. (2015) 对 Aalen-Johansen 的论证，本文增加了协变量调整的 g-formula 结构，其估计量的渐近线性展开需要联合处理 Cox 参数与 Breslow 过程的不确定性。但理论上仍属“模型驱动”情形（模型正确），而非半参数上的渐近线性展开（他们并未使用 efficient influence function 去处理模型误设）。

主要结果¶

定理 1（g-formula 过程弱收敛）：在 (A1)-(A6) 下，过程 \( \sqrt{n}\{\widehat{\text{ATE}}(t) - \text{ATE}(t)\} \) 在 Skorokhod 空间 \( D[0,\tau] \) 上弱收敛到一个均值为零的高斯过程，协方差函数 \( \Sigma(s,t) \) 可显式表达（通过影响函数展开）。
定理 2（非参数 bootstrap 一致性）：在同样条件下，基于非参数 bootstrap 的重抽样过程 \( \sqrt{n}\{\widehat{\text{ATE}}^*(t) - \widehat{\text{ATE}}(t)\} \)（给定原始数据，\( \widehat{\text{ATE}}^* \) 是 bootstrap 样本的估计）与原始过程的极限分布相同（以条件概率弱收敛到同一高斯过程）。
定理 3（wild bootstrap 一致性）：若使用键尾乘子（如标准正态或泊松）构造 martingale-based wild bootstrap（类似 Beyersmann et al., 2013），则重抽样过程同样弱收敛到同一极限。关键细微之处：需验证 wild bootstrap 的重抽样估计量通过对计数过程个体的协变量加权能否复制正确的协方差结构——本文证明这成立，因为 g-formula 估计量可写为关于累积 hazard 估计的线性泛函，而 wild bootstrap 对累积 hazard 过程本身是有效的（Dobler et al., 2015）。
定理 4（影响函数+重抽样一致性）：基于 Ozenne et al. (2020) 的影响函数展开，用置换重抽样（multiplier 对影响函数）也能得到同一极限。该结果基本是已有 Ozenne 方法在竞争风险下的延伸，主要贡献是严格证明了竞争风险设定下的适用性。
技术难点解决：主要难点在于 g-formula 过程的弱收敛性在 Breslow 估计与参数估计联合下需要证明其可表示为紧算子的连续泛函；重抽样的一致效性需要 proof of consistency of the bootstrap for functionals of the Nelson-Aalen estimator 且协变量平均不破坏紧性。作者使用 Skorokhod-Donsker 类论证和 multiplier central limit theorem 完成。

证明路线与技术技巧（理论型）¶

整体路线（5步）：

过程分解：将 \( \widehat{\text{ATE}}(t) \) 表为 \( n^{-1}\sum_i \{\hat{F}_1^{(1)}(t; X_i) - \hat{F}_1^{(0)}(t; X_i)\} \)。对每个个体 \( i \)，\( \hat{F}_1^{(a)}(t; X_i) \) 是因果推导公式的解，它们仅依赖于估计的累积基准危险 \( \hat{\Lambda}_{01}, \hat{\Lambda}_{02} \) 和参数 \( \hat{\beta}_1, \hat{\gamma}_1, \hat{\beta}_2, \hat{\gamma}_2 \)。因此过程可写成这些估计量的复合函数。
联合弱收敛：证明 \( \sqrt{n}(\hat{\beta}_k - \beta_k, \hat{\Lambda}_{0k}(\cdot) - \Lambda_{0k}(\cdot)) \) 联合弱收敛到高斯过程（参数部分有限维，Breslow部分无穷维），并且这个联合极限可分解为独立于每个事件类型的独立过程（因原因特异性 Cox 模型分别拟合）。该步借用 Andersen & Gill (1982) 与 van der Vaart (1998) 的 M-估计与 empirical process 理论。
紧性转移：证明函数 \( \phi(a, \beta_k, \gamma_k, \Lambda_{0k}) = \int_0^t \exp(\Lambda_{0k}(s) \exp(a\beta_k + X^\top\gamma_k)) d\Lambda_{0k}(s) \) 是 Hadamard 可微的（对 \( \Lambda_{0k}, \beta_k \)），因此 functional delta method 给出 \( \hat{F}_1^{(a)}(\cdot) \) 的弱收敛性。这是作者未明说但隐含的经典技巧。
Bootstrap 一致性论证：
对非参数 bootstrap：经验过程理论表明，bootstrap 版本的估计量等价于对原始多元经验分布的翻新样本重新计算同一泛函，由于该泛函是紧的（Hadamard 可微），bootstrap 一致（van der Vaart & Wellner, 1996）。
对 wild bootstrap：使用 Doob 的计数过程重抽样表示（Beyersmann et al., 2013）——将个体视为独立泊松过程，嵌入随机乘子。关键引理：wild bootstrap 版本的 Nelson-Aalen 估计条件弱收敛到原始极限。由于 g-formula 是这些估计量的连续泛函，延续性保持该条件弱收敛（作者引用 Dobler et al., 2015 的定理 5 作为基础）。
时间同步置信带：对极限高斯过程估计其协方差函数，通过重抽样多次计算该过程，提取分位数构造等尾带或 hall-wellner 带。由于弱收敛成立，带长渐近正确。

关键跳跃点：最吃功夫的引理是“g-formula 过程影响函数的一阶展开的余项在 Bootstrap 下 vanishing”，即证明 bootstrap 版本的估计量 \( \widehat{\text{ATE}}^* \) 与原始 \( \widehat{\text{ATE}} \) 的差异来源于影响函数的 bootstrap 且高阶项 \( o_P(1) \)。作者通过假设样本分裂（cross-fitting？本文未见提及，推测直接使用经典论证）和积分余项的有界性证明。

技术技巧点名： - martingale representation of Breslow estimator：将 \( \hat{\Lambda}_{0k}(t) \) 表示为计数过程的可积序列。 - weak convergence via tightness + fd convergence：在 Skorokhod 拓扑上用 Kallenberg 定理。 - Hadamard differentiability：对 g-formula 作为 hazard 函数的泛函。 - multiplier bootstrap for counting processes：使用独立泊松乘子产生 wild bootstrap 样本。 - empirical process bootstrap theorem（van der Vaart & Wellner, 1996 定理 3.6.1）用于非参数 bootstrap。

真实例子与应用¶

数据：Osteoarthritis Initiative (OAI) 研究，公共数据集。纳入 516 名晚期膝骨关节炎患者（Kellgren-Lawrence 3/4 级），基线用加速度计测量每日步行量（步数及强度）。终点为 5 年内首次膝关节置换，竞争事件为死亡或失去随访（被视为独立删失？实际为竞争，但竞争事件定义模糊）。处理变量：将步行量按中位数二分（活跃 vs 不活跃）。协变量：年龄、性别、BMI、K-L 分级、疼痛评分等。

方法用途：应用列出的三种重抽样方法计算各时间点（0-5 年）因果风险差 \( \widehat{\text{ATE}}(t) \) 及其置信带。结果：活跃组膝关节置换风险低于不活跃组，但 95% 置信带包含零（统计不显著）。作者用此例展示方法输出（置信带震荡、带宽随时间变化等）。

目的：验证理论在真实数据上的可操作性，并展示置信带相对于逐点区间的优势（避免多重比较问题）。但作者未与任何竞争方法（如 IPW 或双重稳健）比较，只展示自己方法的结果——主要用于演示而非验证。

本文实证部分较弱：没有仿真（仿真放在前期的 Rühl & Friedrich, 2024），没有覆盖率的真实数据验证（因为真值未知）。因此该例子主要是“结构化演示”，不算严格的实证验证。

🔎 结论是否比证明窄¶

定理假设原因特异性 Cox 模型正确设定 (A5)。但作者在引言和仿真讨论中提到“模型可能误设”，却未提供在模型误设下 bootstrap 一致性成立的证明。结论比证明窄：只有当模型正确时，重抽样才严格有效。实际应用中，用户若使用不正确的模型，置信带覆盖率可能偏差——作者未提供任何稳健性理论。
引文 Ozenne et al. (2020) 的双重稳健性在仿真中有提及，但本文并未在双重稳健设定下证明 bootstrap 一致性。结论声明“渐近有效”其实是针对单一模型设定，而非半参数意义上的有效（double robustness）。作者在摘要和定理陈述中未明确指明“模型正确”这一关键前提，可能造成误解。
另外，wild bootstrap 的协方差结构正确性：作者引用 Dobler et al. (2015) 的结论，但后者对 Aalen-Johansen 证明时要求竞争事件间独立？实际上 Dobler 的设定是“独立风险间隔或竞争事件可联合建模”，但 g-formula 中的原因特异性风险是条件独立的（给定 X），可能引入不同结构。这个问题值得研究者去验证——本文直接套用了 Dobler 的结论，未独立验证竞争风险下 g-formula 的特殊协方差是否仍满足条件。

四、开放问题（点到为止，扎根具体语句）¶

模型误设下的 bootstrap 一致性：定理条件要求原因特异性 Cox 模型正确（A5）。若模型误设（如 PH 假定不成立、遗漏关键协变量），重抽样方法是否仍能提供渐近正确覆盖？本文在仿真部分仅用了正确模型场景，未讨论此问题。[扎根：定理 2-4 假设 (A5)；Discussion 中可能提及（原文未提供，但理论上应作为 future work）]
双重稳健 g-formula 的重抽样：Ozenne et al. (2020) 的双重稳健估计量（用倾向得分加权+结果回归）在竞争风险下具有良好的稳健性。本文的 bootstrap 理论能否扩展到该双重稳健版本？影响函数结构更复杂（含倾向得分和两个回归模型），可能需要新的弱收敛论证。[扎根：本文只用了“标准 g-formula”（基于单一结果模型），未处理双重稳健]
非参数 bootstrap 在有限删失下的偏差：Rühl et al. (2022) 指出在 event-driven 试验（非随机删失）中非参数 bootstrap 失效，但本文假设独立随机删失 (A4)。若删失机制更复杂（如依赖未观测因素），本文的重抽样理论是否还能保持？[扎根：参考文献 [14] 的讨论；本文的假设 A4 将其边缘化]
更复杂因果 estimand的可推广性：可分离效应（Martinussen & Stensrud, 2020）、受诅咒效应等估计量的 bootstrap 性质尚未研究。本文的总效应框架能否直接推广？[扎根：引言中 Martinussen & Stensrud (2023) 的引用——区分了总效应与直接效应，但本文只处理总效应]

提醒：要确认这些是否真 gap，建议读近年（2022-2025）相关几篇论文的 intro——若多篇都指向同一问题（如“模型误设下的 bootstrap 是开放问题”），则共识=真 gap；若互相打架（有人声称已有结果，有人质疑），则可能是争议点，值得细究。

Maintained by 陈星宇 · Homepage · Source on GitHub