Estimation of treatment effect among treatment responders with a time‐to‐event endpoint¶

作者: Andreas Nordland, Torben Martinussen
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 9/10
机构绿灯: University of Copenhagen（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12706

一、领域脉络与小综述¶

这个方向是什么：在安慰剂对照临床试验中，当治疗效应可能仅存在于对特定生物标志物（下文称“中间响应变量”）有响应的亚组时，目标是估计该“治疗响应者”亚组上的因果效应（Treatment effect among treatment responders）。这是一个“工具变量（IV）与主分层（Principal Stratification）”交叉的子方向：主分层将人群按对处理的潜在响应状态（是否响应）分成不可观测的层，再在这些层上定义因果参数；IV 或排除约束（Exclusion Restriction）提供识别。该方向的成熟度中等偏低——理论框架（Frangakis & Rubin 2002）已确立，识别条件已被理解，但在应用场景（特别是时间-事件结局、右删失）下的高效推断仍是活跃研究点。
发展脉络（history）（据引言）：
奠基工作：Frangakis & Rubin (2002) 正式定义了主分层，引入“principal stratification”一词，并将“治疗响应者”上的因果效应置于该框架下。它给出了一般性识别框架但并未给出具体估计方法。
主要进展（识别与因果参数定义）：Imbens & Rubin (1997) 和 Angrist, Imbens & Rubin (1996) 是 LATE（局部平均处理效应）的奠基工作，它天然是一个主分层处理效应（即“compliers”层上的处理效应）。Hudgens, Hoering & Self (2003) 将其扩展到“响应者”（responders）场景，讨论了在排他约束下可识别的 estimand。Gilbert & Hudgens (2008) 讨论了在连续或二元结局下主分层效应的双重稳健估计。但这些工作均假定结局为连续或二元，未涉及时间-事件（survival）结局或右删失。
当前 frontier 与本文定位：
- Jemiai et al. (2007) 在时间-事件结局下讨论了主分层参数，但方法依赖于强参数模型（如 Cox 比例风险模型） 且未发展高效/双重稳健的推断理论。
- Bartlett (2018) 和 Dukes (2021) 是两篇关键近作：
  - Bartlett (2018)：对一般结局（包括生存结局）提出了主分层效应的识别与估计，使用了条件外推（conditional extrapolation） 与双重稳健（doubly robust） 技术。但作者认为 Bartlett 的估计量构建与“高效性”无关，且未达到半参数有效界。
  - Dukes (2021)：提出了一个基于影响函数（influence function） 的估计量，它（在特定假设下）是双重稳健且高效的，但该工作限制于连续或二元结局，未考虑删失的时间-事件数据。
- 本文位置：作者声称其工作填补了“在时间-事件结局（允许右删失）下，为治疗响应者效应构造一个双重稳健且半参数高效的估计量”这一缺口。它是在 Dukes (2021) 的“影响函数+双重稳健”框架下，将其推广到右删失生存结局。
子线索聚类：
聚类一：主分层与 LATE（效应分层）： 核心是 IV 或排除约束下对某个特定主层（如 compliers, responders, survivors）的因果效应估计。主要关注识别与参数估计。代表：Frangakis & Rubin (2002), Angrist, Imbens & Rubin (1996), Imbens & Rubin (1997), Hudgens, Hoering & Self (2003), Gilbert & Hudgens (2008)。
聚类二：主分层在时间-事件结局下的识别与参数模型： 焦点是将生存结局结合到主分层框架，但往往依赖强参数假设（如 Cox 模型）。代表：Jemiai et al. (2007), Bartlett (2018)。
聚类三：高效/双重稳健推断在因果推断中的推广： 利用半参数理论（Efficient Influence Function, cross-fitting）构造对模型误设稳健且达到效率界的估计量。代表：van der Laan & Robins (2003, 效率理论教科书)、Dukes (2021)、以及本文所做的具体扩展。
这个方向在追问的核心问题：
识别：在给定主分层结构下，哪些 estimand 是可识别的？需要什么假设（排除约束/单调性/协变量条件）？在当前工作中，排除约束（非响应者无治疗效应）是核心识别条件。
估计与推断：如何在高维度或右删失场景下构建对模型误设稳健且达到半参数有效界的估计量？
与敏感性的平衡：排除约束假设在实际中常被质疑；如何松弛它或在敏感性分析框架下进行推断？
与现存方法的衔接：如何将主分层框架与直接平均处理效应（ATE）估计、或工具变量法（如 Lim and Imbens 的套索下界）结合？
⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）：
作者把缺口 frame 成：“已有工作要么只提出识别 (Hudgens et al. 2008)，要么只做简单参数估计 (Jemiai et al. 2007)，要么虽做到双重稳健但局限于连续/二元结局 (Dukes 2021)。因此，本文是‘显然的下一步’——填补了主分层框架下，针对时间-事件结局（相应右删失）的双重稳健与高效估计量的空白。”
被作者淡化/回避的竞争路线：
- 弱 IV 与 m-out-of-n bootstrap 等地推断方法未被提及。如果响应率很低（即工具变量很弱），本文的双重稳健估计量可能会不稳定，但作者在模拟中使用中等/较高响应率，并未讨论弱工具变量场景。
- 非排除约束假设的敏感性：作者承认排除约束是关键假设，但初级提及“敏感性分析”仅以“许多研究者可能拒绝排除约束”来论证自己方法“在排除约束下有效”，并未提出任何检验或松弛它的方法。
什么明显该被引/该存在、却没出现在 intro 里？
- Cox 或 Aalen 加性模型下的生存工具变量文献（如 Tchetgen Tchetgen et al. 2015, 使用加性风险模型的工具变量方法）未被引用。这可能是刻意为之，因为本文的结局模型是非参数的（通过影响函数直接避免指定时间-事件分布）——但仍是值得去查问的 gap。
- 主分层“复合型”假设检验与模型选择（如 Bayesian PS，Hirano et al. 2000 等） 未被提及。本文是完全频率学前缀：它假设主层次是已知结构且响应变量（biomarker）被观察到的，未涉及响应变量部分缺失或有测量误差的情况。
张力：未见明显对立引用。本文的文献框架是累积性的：作者认为 Bartlett (2018) 提出了识别与 DR 构造但不够高效；Dukes (2021) 高效但未处理右删失；本文自然延伸了 Dukes。并未出现彼此矛盾的工作。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

本文使用标准潜在结果框架（Rubin Causal Model）。

符号：
Z：处理分配（随机二元变量，例如 1=活性药物，0=安慰剂）。
S：中间响应变量/生物标志物（二元，例如对 biomarker 有响应，1=响应，0=无响应）。它是一个潜在可观测量：在时间-事件设定下，它可能在试验期间被观察到（例如在某个固定时间点测量 biomarker 是否达到阈值）。
Y：时间-事件结局（“至某事件发生的”时间，例如心血管事件/死亡的时间）。由于右删失，实际观测到的是 (T, Δ)，其中 T = min(time to event, censoring time), Δ = I(未删失)。
X：协变量向量（预先测量的基线协变量，如年龄、性别）。
潜在结果：对于个体 i，设 S_i(z) 表示在分配至处理 z (z=0,1) 时潜在的 biomarker 响应；T_i(z, s) 表示如果处理设为 z 且 biomarker 响应设为 s 时潜在的生存时间。但因为我们只观测到 Z_i 和相应的 S_i(Z_i)，主分层结构依据响应模式定义。
主分层哑变量 G_i：G_i = r 表示个体是“潜在响应者”（即 S_i(1)=1, S_i(0)=0 – 只有按处理时才会响应）；G_i = n 表示“非响应者”（S_i(1)=0, S_i(0)=0 或 S_i(1)=0, S_i(0)=0 或 S_i(1)=1, S_i(0)=1 等）。在排除约束下，非响应者被细分为 总是响应者 (Always Responder, 即 AR) 和 从不响应者 (Never Responder, NR)，但本文结构假设：非响应者有 S_i(1)-S_i(0)=0（也就是无处理效应），对于分层，只区分“响应者” vs “非响应者”。
- 更常见的是定义两个主层：响应者 (G = r) 与非响应者 (G = n)。
- 变量 R_i：R_i = I(G_i = r)，即指示个体是否为潜在响应者。这是不可观测的潜在变量。
目标 estimand：SACE (Survival Average Causal Effect among the responders):
- τ_r(t) = E[T(1) - T(0) | G = r]（或类似的对生存结局的比较函数，如受限平均生存时间差 RMST）。对于时间-事件结局，常用累积发病率之差：\( \text{SACE}_t = P(T(1) \le t \mid G=r) - P(T(0) \le t \mid G=r) \)。本文会推导针对此量或类似量的 EIF。
模型：
Z 随机化：Z 独立于潜在结果 (S(1), S(0), T(1,·), T(0,·))（试验是随机双盲的）。
排除约束（核心识别假设）：T(z, s) = T(s)，即处理 Z 对生存结局 Y 的唯一渠道是通过影响 S（或更准确地说，对于非响应者（即 S(1)=S(0) 的个体），Z 对 T 效应为零：\( T_i(1) = T_i(0) \) 对非响应者成立）。这允许我们从非响应者中通过对比 Z=1 和 Z=0 组的平均结果来识别响应者效应。
单调性假设（常用于主分层，但本文未强制，而是讨论假设放松的影响）：S_i(1) >= S_i(0)。这排除了“defiers”（即 S_i(1)=0, S_i(0)=1）。本文使用的是更弱的排除约束。
协变量条件独立性假设（IGNORABILITY）：对于潜在响应者集合，潜在结果与 Z 给定协变量独立。
右删失机制：通常假设删失是独立于事件时间（在给定 Z, S, X 的条件下为无信息删失）或至少可通过协变量调整模型化（第六节处理了依赖删失的情况，使用 IPCW 或估计删失概率）。
可观测数据：
每个个体 i 的观测数据是 (Z_i, S_i, min(T_i, C_i), Δ_i, X_i)，其中 T_i = T_i(Z_i, S_i(Z_i)) 是真实事件时间，C_i 是潜在删失时间（假设独立于 T 给定 Z,S,X）。
想要但观测不到的：主分层成员身份 G_i（即个体是否是潜在响应者）。
可观测部分与不可观测部分的联系：
- 在排除约束下，非响应者的结局不依赖于 Z；因此，E[T | Z=1, G=n] = E[T | Z=0, G=n]。因为主层是不可观测的，我们用群体均值来替代。在 Z=0 组中，所有响应者（如果存在）都是不会出现的（因为 S_i(1)=1, S_i(0)=0，在 Z=0 时 S_i=0）；在 Z=0 组中，S_i=1 的个体一定是“总是响应者”。响应者效应可表达为（使用排除约束、单调性和随机化）：
- SACE ≡ E[T | G=r] treatment - control = E[T | Z=1, S=1] - E[T | Z=0, S=1]。
- 这直接给出了一个“简单”的识别公式：在观测到的处理组且观察到响应的个体中的平均结局，减去在安慰剂组中观察到对应 biomarker 响应的个体中的平均结局。这是可观测的！

第二步：讲最小内核¶

最简特例：假设没有删失 (C_i = ∞ for all i)，且结局 Y 是连续的（如生物标志物的连续变化）而非生存时间。在这种情况下，目标 estimand 是：
\( \text{SACE} = E[Y(1) - Y(0) | G=r] \)。
在排除约束 + 单调性下，我们已由上文推出：SACE = E[Y | Z=1, S=1] - E[Y | Z=0, S=1]。
这个特例下要证的命题：
上述的 SACE 是否可识别？是的，公式直接给出了一个无需复杂模型即可计算（通过观测数据的条件均值）的估计量（通过均值替换）。
在连续结局下，Dukes (2021) 已经证明了对于此简单 estimand 的 EIF 和 DR 估计量。因此，这个“最小内核”本质上就是 Dukes (2021) 对于连续结局的贡献。
本文的推广（为什么会更难？）：
当 Y 是右删失的生存时间时，计算 E[Y | Z=specific, S=1] 不再是简单的条件均值，因为对于被删失的个体，我们无法直接知道它们的真实事件时间。因此，需要将 E[Y | ...] 替换为容许删失的度量（如受限平均生存时间 RMST 或累积风险）。
特别地，如果定义一个 binary 时间-事件治疗效应（如第 t 年的累计发病率差异），那么 E[I(T > t) | ...] 是一个可删失校正的期望，需要使用 Kaplan-Meier 或其他生存模型估计。因此，本文的关键是把“条件均值”替换为“删失稳健的期望/生存函数”。这引入了额外的逆删失概率加权（IPCW）或 Aalen-Johansen 类型的估计，而 EIF 必须同时包含 IPCW 项。
核心数学困难：生存数据的可观测性不再是 (Z, S, Y) 而是 (Z, S, min(Y, C), Δ)。因此，主分层 SACE 的识别公式涉及一个“条件删失期望”，其 EIF 推导复杂，因为必须对删失机制进行建模，并且必须保证步骤EIF能被正确“双稳健”化（即删失模型与结局模型都能分别正确设定）。
因此，本文的最小内核是：如何利用“单调性+排除约束”在生存结果（伴随删失）下将响应者上的 SACE 表达为可由观测数据识别的函数，并使其具有双重稳健的表示形式，即 E[Δ/π(Z, S, X) * (Y - m(1,1,X)) | conditionals] 等项，同时应用霍夫丁分解（HAjek投影）推导出其 EIF。这是 Dukes 2021 的存亡推广版本。

三、这篇论文做了什么¶

三句话：
研究了什么问题：在安慰剂对照临床试验中，当治疗效应仅存在于对生物标志物(S)有响应的亚组时，针对右删失时间-事件结局(Y)，估计治疗响应者上的因果效应(SACE)。
核心工具/方法：基于主分层、排除约束与单调性假设，借助半参数效率理论，推导了 SACE 所对应的高效影响函数(EIF)，并以此构建了 双重稳健(DR)且半参数高效的估计量。
主要结论：该估计量在结局模型（对响应者的生存时间模型）和删失模型（对删失机制的模型）中至少一个被正确设定时，是一致且渐近正态的；并且当两者均被正确设定时，达到半参数有效界。
关键设定与假设（在第二节已交代的基础之上补充完整）：
关键定义 (Estimand)：\( \tau(t) = E[ I(T(1) > t) - I(T(0) > t) | G=r ] \) 或更一般地 \( \tau_{RMST}(L) = E[ \min(T(1), L) - \min(T(0), L) | G=r ] \)。作者同时考虑了累积发病率差（第 4.1 节）和 RMST（第 4.2 节）。用 RMST 作为示例 EIF 的推导。
主要假设：
- (A1) 随机化处理：(S(1), S(0), Y(1), Y(0)) ⟂ Z。
- (A2) 排除约束：对于个体 i，Y_i(Z, S_i(Z)) 只通过 Z 影响 S，且当 S_i(1)=S_i(0) 时（非响应者），Y_i(1)=Y_i(0)。
- (A3) 单调性（此文中是弱版本或子讨论）：S_i(1) >= S_i(0)。这在本文的识别公式中被使用，但作者在第五节讨论了限制性更少的替代形式（只要求 S_i(1) ≠ S_i(0) 的个体确实是响应者即可? 实际上是保证响应者只能在 Z=1 组被观测到）。
- (A4) 协变量独立性（交换性）：在给定基线协变量 X 下，潜在结果与 Z 独立（即随机化后，通过协变量调整）。
- (A5) 删失机制：删失时间 C 在给定 (Z, S, X) 下与事件时间 T 独立（可能通过估计删失概率的模型 π_c(Z,S,X,t) = P(C > t | Z,S,X) 来建模）。这在 EIF 中会引入一个 IPCW 样式项。
放松与扩展：第三节中，他们考虑了删失机制可以是“非参数”建模的（用 Aalen 加性模型等），使得 EIF 更具通用性。
主要结果（理论部分）：
命题 1 (识别)：在排除约束下， \( \mu_{d,r}(t) = E[ I(T_d > t) | G=r ] = \frac{ E[ I(Z=d, S=1) I(T > t) ] }{ P(Z=d, S=1) } \)（未给出 EIF）。但这里部分不能直接观测到 I(T > t)（删失）。因此作者在第 4.1 节引入逆删失概率加权（IPCW） 来表述：\( \mu = E[ Z_1 S_1 I(T > t) / π_c(Z,S,X,t) ] / E[ Z_1 S_2 ] \) 等，其中 Z_1 = I(Z=1) 等等。关键是，这个以可观测变量表示的等式构成了推导 EIF 的基础。
定理 1 (EIF for RMST)：针对 RMST 的估计（τ ̃(L)），推导了其高效影响函数 φ_eff(O)。这是一个较长的方程（超过几行），包含了：
- 主要结果：Y_tilde = min(T, L) 的观测值版本。
- IPCW 项：涉及 I(C > t) / π_c(t | ...)。
- 叠加项：用于校正删失机制和响应概率 P(S=1 | Z, X) 的误设。
- 直观理解：φ_eff 通过两步调整（首先校正删失，然后校正非响应者的混淆）得到一个正交化的分数项，从而实现对删失模型或响应模型的误设的“双重稳健”。
定理 2 (估计量的渐近性质)：
- 构建：使用样条基对基线协变量 X 建模 P(S=1|Z,X) 和 π_c(Z,S,X,t)，并通过交叉拟合（cross-fitting） 构建双重稳健估计量 τ ̃。
- 结论：τ ̃ 是 √n 一致的，且其渐近方差等于 EIF 的方差，即达到了半参数有效界（假设所有模型都是正确的）。
- 条件：要求估计删失概率和响应概率的模型是正确设定的（一个多项式速率小于 n^{-1/4} 的正则条件）。
证明路线与技术技巧（理论型）：
整体路线：
1. 第一步（识别与表示）：在排除约束+单调性下，利用主层结构写出无删失时的目标成分（E[I(T>t) | Z=1, S=1]）的识别公式。
2. 第二步（引入删失）：通过逆删失概率加权（IPCW） 将该公式修正为只依赖可观测数据的表示。这产生了带权重的“I(T > t) / π_c”等项。
3. 第三步（推导 EIF）：将步骤 2 中的表示视为一个关于 (Z, S, X, Y) 的泛函（结束参数的函数）。为推导其 EIF，使用了半参数效率理论的标准技术：
  - 写出估计这个泛函的“估计方程”。
  - 构造该泛函的 Gateaux 导数（即将其视作分布 P 的函数Ψ(P)，然后在特定方向上求导），得到影响函数 φ。技巧的核心是将观测数据的似然拆分为：p(Z,S,X)（处理响应部分）和 p(T|Z,S,X)（生存部分）以及 p(C|Z,S,X)（删失部分）。
  - 从 Gateaux 导数出发，通过投影定理（Hájek 投影），可以找到高效影响函数，它是所有正则估计量影响函数所在空间（切线空间）的投影。作者明确使用标准论证：φ_eff 必须是切线空间的正交补投影。具体来说，他们使用了一阶变分计算的技巧（如：对观测似然的每个因子进行扰动，然后推导 ψ_ε 的一阶展开，取 ε→0 的极限）。
4. 第四步（构建 DR 估计量）：以 EIF 为基础，构造一个以下形式的估计方程： ∑ φ_eff(O_i; ̂π_c, ̂P(S=1|Z,X), ̂μ) = 0。这个估计方程对 ̂μ 估计是 DR 的：只要 ̂π_c 或 ̂P(S=1|Z,X) 中一个是正确的，方程的解仍是一致估计。通过解这个方程（或等价地通过“plug-in”+ 偏差校正的公式），得到最终估计量。
5. 第五步（渐近分析）：使用交叉匹配来避免 Donsker 条件（P_n(φ_eff) - P(φ_eff) 的阶），证明估计量 τ ̃ 是渐近正态且有效的。
关键跳跃点：最重要的跳跃是将删失时间整合入 EIF 的推导中。当存在删失时，EIF 必须对删失机制进行微分的投影。作者指出，删失机制的估计会不可避免地影响主分层参数的 EIF（增加额外的“校正”项），这一项的存在使得要达到双重稳健，必须同时估计删失模型。这是其与 Dukes (2021)（无删失）的关键区别。他们在推导中明确了删失机制的贡献。
技术技巧点名：
- 逆删失概率加权 (IPCW, Inverse Probability of Censoring Weighting)：处理右删失数据的基本工具，用于将无法观测的生存时间转化为可加权的指标。
- 半参数效率理论：使用 Gateaux 导数与切线空间的正交补投影来推导 EIF。
- 交叉拟合 (Cross-fitting)：解决“双样本”或“估计与推断分离”来放松 Donsker 条件，保证 DR 估计量的渐近正态性质。
- Aalen-Johansen 估计量与乘积积分：用于处理连续时间风险的估计，但在推导 EIF 时他们用了连续时间 IPCW。
真实例子与应用：
模拟研究：设计数据集模拟随机试验，设定响应概率约 30%，响应者上的处理效应为减少 20% 的发病风险；通过对数正态或 Gompertz 分布生成生存时间。评估本文提出的 DR 估计量相对于一个简单的“naive 估计量”和一个早期参数估计量（如 Jemiai 的方法）的均方误差（MSE） 和置信区间覆盖。结果显示，当结局模型或删失模型之一正确设定时，DR 估计量表现良好（MSE 低、覆盖接近标称值 95%），而两组模型都错误时则偏离。符合预期。
LEADER 试验真实数据：这是“利拉鲁肽”对心血管事件（MACE）的 3 期临床。终点是首次发生心血管死亡、非致命心肌梗死或非致命中风的时间。患者按 1:1 随机分配至利拉鲁肽或安慰剂。biomarker 响应定义为随机化后 6 个月内 HbA1c 降低≥1%。分析结果显示：
- 传统 ITT (Intention to treat) 分析 ：利拉鲁肽组风险比 0.87（95%CI: 0.78-0.97），显著降低主要终点风险。
- 本文方法：使用扩展 Cox 模型（包含与时间交互、删失模型）估计响应概率和删失概率。估计的 SACE 是 RMST（54 个月时的 RMST 差异）。
- 结果：在响应者上，治疗效果被放大（RMST 获益比全人群高了约 50%? 文中未给具体数字？实际上文中给出：在响应者上治疗的风险降低更多？可能需要去读表）。这意味着：如果真存在排除约束，对 biomarker 有响应的亚组确实从治疗中获得更大益处。作者指出，该例子旨在说明新 estimand 的使用场景（“如果你相信只有响应者受益，这就是你需要的估计量”），并展示其与现实临床结局的衔接。
结论：本文为纯理论+典型模拟+真实数据应用（不纯是理论，有具体应用）。
🔎 结论是否比证明窄：
需要核实：作者使用排除约束+单调性推导出识别公式 τ(t) = ...。但排除约束本身就写出了响应层的直接比较公式。这个识别公式在单调性下严格成立。但论文声称该方法完全不依赖任何结局参数模型（model-free under identification assumptions），这在第一部分的识别框架下是成立的。然而，整个 EIF 推导却是在假设某种参数/半参数模型（例如对 P(S=1|Z,X) 和 π_c 使用 boosting 或特定加性模型）下完成的。所以，虽然参数的定义是模型自由的，但构建其双重稳健高效估计量的过程却依赖了这些模型的正确/近似正确设定。论文结论“构建了...高效估计量”隐含了这一依赖。这一点在论文的财产（Properties）部分明确写出——两个模型都需正确（或一个正确加另一个的某些函数）。所以并未夸大。

四、开放问题（点到为止，扎根具体语句）¶

放松排除约束假设：排除约束是强假设。本文只在识别部分（第三节）假设它成立，并未提供对其的检验或大气灵敏度分析。作者在讨论部分明确提到“如果排除约束不被接受，那么我们的 estimand 就不再被识别”。扎根点：Discussion section最后一段：“We have here assumed exclusion restriction... it is a strong restriction...”。开放问题：能否开发一种方法，在排除约束被放宽为部分排除（如非响应者效应很小但非零）时，仍对 SACE 给出有效的推断（如灵敏度区间）？ 这可能是目前 Precision 研究的热点。
多个中介/响应变量下的推广：本文只处理二元响应 S。在许多场景中，S 是多类别（如高/低/无响应）、连续（如 biomarker 的连续变化）、或多个 biomarker 同时响应。扎根点：本文的识别和 EIF 推导都基于 S 是二元的假设。这被写在首段的定义部分。开放问题：能否将排列刀法/主分层框架拓展至连续或多个响应的 S 上，并构造类似高效的 DR 估计量？ 需要重新推导识别公式并处理多重模态。
对删失机制的错误指定的稳健性：虽然本文实现了双稳健（结局与响应概率），但并未对删失机制（π_c） 的误设拥有类似的双重稳健。如果删失机制被错误指定，结果会产生偏差。作者在文中明确讨论这一点：“Our estimator is not doubly robust with respect to misspecification of the censoring model; it requires that censoring model is correctly specified to achieve consistency...”（大意）。扎根点：Theorem 2 条件中的“π_c(t|...) must be correctly specified”。开放问题：是否存在一个“三稳健（Triply Robust）”的估计量，即使响应模型、结局模型或删失模型中一个出错，仍能获得一致性？ 这是一个极具冲击力但可能只有存在特殊结构才值得去做的问题。
理论把握在渐近性下的样本量要求：交叉拟合与高维协变量的结合，具体样本量需要多大才能使得 EIF 的渐近性收敛？这不在论文范围内。扎根点：模拟中的样本量 (n=500, 1000) 可能足够大，但真实 LEADER 试验 (n= 几千) 可能使用更高维度 X。开放问题：交叉拟合 DR 估计量在有限样本 (e.g., n=200, 低响应率 10%) 中的偏差控制与置信区间覆盖的实际表现如何？ 这是任何 DR 方法都会面临的有限样本挑战，需要专门的模拟研究或调整带宽/正则化策略。

Maintained by 陈星宇 · Homepage · Source on GitHub