Causal machine learning for heterogeneous treatment effects in the presence of missing outcome data¶

作者: Matthew Pryce, Karla Diaz-Ordaz, Ruth H Keogh, Stijn Vansteelandt
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向处理的是在随机对照试验（RCT）或观测研究中，当结果变量（outcome）存在缺失时，如何估计异质性处理效应（CATE）。核心统计问题是：即使在随机化下，如果缺失不是完全随机（MCAR），某些子群（subgroup）的结果观测概率可能系统性地低于其他子群，导致标准CATE估计器（如DR-learner）在这些子群中有偏。因此，目标是在缺失机制假设下（通常是MAR/可忽略的删失），构造在目标子群上仍然无偏且高效的CATE估计器。当前这个子方向正从"假设完全数据"转向"融入缺失数据处理"的阶段。

发展脉络（history）¶

奠基工作：CATE估计的方法论基础（2017-2020）。Künzel等人（2019, 原2017工作）提出了S-learner、T-learner和X-learner的元学习框架，将基学习器（如RF、BART）应用于CATE估计。Nie & Wager（2021, 原2017工作）提出了R-learner，利用Neyman正交性实现了准oracle性质。这些方法均假设结果变量完全观测。
核心突破：正交与去偏CATE估计器（2020-2024）。Kennedy（2020, 即[1]）提出了DR-learner，利用双稳健伪结果构造CATE估计器，在一般非参模型下给出了oracle效率的条件，并证明了其误差界的通用不等式。van der Laan等人（2024, 即[2]）提出了EP-learner（Efficient Plug-in learner），规避DR-learner中非凸损失函数和逆概率加权的不稳定性，同时保持oracle效率。这两篇构成了本文方法的直接基座。
缺失数据处理的基础：从整体ATE到CATE（2014-2023）。Groenwold等人（2014, 即[8]）系统讨论了RCT中缺失数据的分析和报告。Berrevoets等人（2023, 即[13]）指出在治疗效应估计中的缺失有更复杂的混杂偏倚结构。Roberts等人（1994, 即引用中的IPCW先驱）提出了逆概率删失加权（IPCW）。Gonzalez Ginestet等人（2021, 即[15]）展示了IPCW与ML在实际医学数据中的结合。但这些工作大多聚焦在ATE层面，将IPCW扩展到CATE估计的完备理论尚未被系统建立。
本文位置：本文借鉴了已有的IPCW方法，将其直接嵌入到DR-learner和EP-learner的框架内，提出了mDR-learner和mEP-learner。它与Jacob(2020, [11])和Hines等人（2022, [7]）有直接技术关联：前者讨论交叉拟合在CATE中的角色，后者指出CATE的EIF在连续协变量下可能具有无限方差——这解释了为什么本文选择了IPCW而非直接构造EIF作为去偏工具。

子线索聚类¶

被引文献大致落在三条线索上： 1. CATE元学习器/正交估计器（核心基座）：Kennedy[2020 / DR-learner]，van der Laan et al[2024 / EP-learner]，Nie & Wager[2021 / R-learner]，Künzel et al[2019 / T,S,X-learner]。这一簇的工作假设完全结果数据，重点在CATE估计的效率和稳健性。 2. 缺失数据处理（缺失机制+插补/IPCW）：Groenwold et al[2014]，Berrevoets et al[2023]，Robins et al[1994]（IPCW），Gonzalez Ginestet et al[2021]。这一簇的工作主要处理ATE设置下的缺失，或只提出启发式扩展。 3. iTMLE与无限维目标（替代去偏框架，在缺失设置下仍有潜力）：Luedtke et al[2017 / Sequential double robustness]，Vansteelandt & Morzywołek[2023 / Orthogonal prediction]，Zhang & Simon[2022 / Sieve regression]。这一簇提供了另一种处理缺失和正交化的途径，本文的mEP-learner受其启发，但通过IPCW直接修改伪结果，而非通过谱系Sieve。

这个方向在追问的核心问题¶

核心问题1：在结果数据缺失和MAR假设下，CATE的识别条件是什么？需要哪些假设（一致性、条件交换性、缺失可忽略，以及对倾向得分和缺失机制的正则性假设）？
核心问题2：如何将IPCW（或插补）嵌入到正交学习框架中，同时保持oracle效率？——这是本文试图回答的。
核心问题3：当缺失机制模型或倾向得分模型有误时，哪些CATE估计器（mDR vs mEP vs 插补）在什么条件下保持稳健性？
核心问题4：在非光滑/高维协变量空间下，估计器的收敛率是否仍能达到半参效率下界？

主流方法：DR-learner与EP-learner在完全数据下是主流。缺失数据的处理往往通过事后插补（多重插补）或直接在完整案例（complete-case）上拟合CATE。这些方法要么忽略插补带来的额外不确定性，要么在非随机缺失下有严重偏差。已知瓶颈：标准IPCW加权在极端倾向得分或缺失概率下会导致方差膨胀；同时，CATE的EIF在连续协变量下定义不良或具有无限方差[7]，因此不能直接使用经典的“EIF-去偏+交叉拟合”构造方案。

⚠️ 作者的framing（明确标注）¶

作者的frame：作者把缺口frame成“现有CATE估计器(D/EP-learner)在缺失结果数据下表现不佳，而将其与IPCW结合可以填补这一空白”。具体而言，作者声称“method for modifying the DR-learner and EP-learner to handle missing outcome data…我们给出的mDR-learner和mEP-learner是oracle有效的，并在模拟和实例中优于使用完整案例或简单插补的替代方法”。
被淡化/回避的竞争路线：Berrevoets等人（2023）提出的“选择性插补”（selective imputation）在概念上更细致地区分了不同缺失模式，但本文对此的讨论仅在intro中的一句引用，未做深入比较。对于“多重插补+标准CATE估计器”这一最直接的竞争对手，作者在模拟中考虑了标准插补，但只是简单插补（single imputation），未使用更严谨的多重插补（MI）标准实现。这意味着MI+标准CATE可能是未被充分比较的替代方案。
明显该被引却没出现的条目：论文基本覆盖了该领域的核心参考文献。但有一个潜在遗漏：最近关于“用去偏机器学习处理缺失数据”的通用框架（如 Dukes & Vansteelandt, 2020, A doubly robust approach for inference in marginal structural models with missing data）未在intro中引用，尽管它在IPCW+双稳健估计上有更多细节。

张力¶

未见明显对立引用。被引文献之间大多是互补的（Kennedy的DR-learner与van der Laan的EP-learner在CATE估计的效率与稳定性之间做不同权衡，但都承认对方的价值）。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号： - \(Y\)：结果变量（标量，如生存/二值/连续）。 - \(A\)：处理变量（二值，0=对照，1=处理）。 - \(X\)：协变量向量（可包含连续与离散，用于定义子群）。 - \(D\)：缺失指示器（\(D=1\) 表示结果可观测，\(D=0\) 表示缺失）。 - \(Y(a)\)：潜在结果（counterfactual），对于处理 \(a\) (\(a\in\{0,1\}\))。 - \(\tau(x) = \mathbb{E}[Y(1) - Y(0) | X=x]\)：条件平均处理效应（CATE）；这是目标的估计量（estimand）。 - \(\pi(X) = \mathbb{P}(A=1 | X)\)：倾向得分（propensity score）。 - \(p_c(X, A) = \mathbb{P}(D=1 | X, A)\)：给定协变量和处理后的结果可观测概率（删失/缺失机制）。文中称为"missingness model"或"censoring mechanism"。 - \(n\)：样本量。

模型（数据生成机制）： - 在RCT设计下，\(A\) 可以是随机分配的（\(\pi(X) = 0.5\) 或已知常数），但论文的设定也涵盖观测研究（\(\pi(X)\) 未知，需估计）。 - 结果缺失的机制假设为MAR（Missing at Random），即 \(Y \perp D \mid X, A\)。这意味着，给定 \(X\) 和 \(A\)，\(Y\) 是否缺失与 \(Y\) 本身无关。 - 额外关键假设：一致性（Consistency）：\(Y = Y(A)\)；Positivity for treatment：\(0 < \pi(X) < 1\)；Positivity for censoring：\(p_c(X,A) > \delta > 0\)，对于某个小的 \(\delta\)，对几乎所有 \((X,A)\) 成立。

可观测数据：对每个个体 \(i=1,\dots,n\)，我们能观测到的量是：\((X_i, A_i, D_i, D_i \cdot Y_i)\)。 - 如果 \(D_i=1\)，我们看到 \(Y_i\)。 - 如果 \(D_i=0\)，我们只看到“结果缺失”，而不知道它的潜在值。 关键（无法观测的东西）：当 \(D_i=0\) 时，\(Y_i\) 是缺失的；潜在结果 \(Y(1)\) 和 \(Y(0)\) 对每个个体在同一时间只有一个是可观察的（fundamental problem of causal inference）。研究者必须在 MAR 和 posivity for censoring的假设下，从可观测数据中识别并估计 \(\tau(x)\)。

第二步：讲最小内核——为什么IPCW能使CATE估计无偏？¶

最简特例：假设我们只关心单个协变量 \(X \in \mathbb{R}\)（一维），处理 \(A\) 完全随机（\(\pi(X)=0.5\) 已知），并且缺失机制 \(p_c(X, A)\) 由某个已知函数给出（即已知谁更可能缺失）。因为 \(A\) 随机，我们只需要估计 \(\mathbb{E}[Y(1)|X=x]\) 和 \(\mathbb{E}[Y(0)|X=x]\)，然后相减。

困扰：当我们想估计 \(\mathbb{E}[Y(1)|X=x]\) 时，只有 \(A_i=1\) 且 \(D_i=1\) 的个体给出 \(Y_i\)。如果 \(D\) 与 \(X\) 有关（比如，高龄患者更可能失访），那么 \(A_i=1, D_i=1\) 样本的 \(X\) 分布可能与完整的 \(A_i=1\) 人群不同。直接在这些样本上做核平滑将得到有偏估计。

IPCW的核心想法：对 \(A_i=1\) 的每个个体 \(i\)，给予权重 \(W_i = \frac{D_i}{p_c(X_i, 1)}\)（其中 \(p_c(X_i, 1)=\mathbb{P}(D=1|X=X_i, A=1)\)）。那么，对任意可测函数 \(f\)，我们有

\[\mathbb{E}\left[ \frac{D_i}{p_c(X_i, 1)} \cdot Y_i \cdot \mathbf{1}(A_i=1) \right] = \mathbb{E}[Y(1)]\]

（证明使用迭代期望：先给定 \(X, A\)，利用 MAR：\(Y \perp D \mid X, A\) 和逆概率加权身份）。这个“外部引理”保证了加权后，损失的样本能得到无偏补偿。

将这个想法扩展到 CATE：现在，对核权重 \(K_h(X_i - x)\) 做加权回归。mDR-learner的最小内核是： 1. 伪结果构造：定义“受IPCW保护”的DR-伪结果：

\[\tilde{Y}_{i, \text{mDR}} = g_1(X_i) - g_0(X_i) + \frac{D_i \cdot (A_i - \pi(X_i))}{p_c(X_i, A_i) \cdot \pi(X_i)(1-\pi(X_i))} (Y_i - g_{A_i}(X_i))\]

其中 \(g_{a}(x) = \mathbb{E}[Y|X=x, A=a]\)（即结果回归模型，通常用ML估计）。 2. CATE估计：对 \(\tilde{Y}_{i, \text{mDR}}\) 关于 \(X_i\) 做任何非参回归（如核平滑、系列（sieve）回归），得到 \(\hat{\tau}(x)\)。

为什么IPCW在这里起作用：注意，公式中的残差项 \((Y_i - g_{A_i}(X_i))\) 只有在 \(D_i=1\) 时才被观测到。\(D_i/p_c(X_i,A_i)\) 起到了重整化的作用，使得即使只有部分个体有结果，伪结果的期望也等于真实的CATE。即 \(\mathbb{E}[\tilde{Y}_{\text{mDR}} | X=x] = \tau(x)\)。

在这个一维、\(A\) 随机且 \(p_c\) 已知的例子下，证明是清晰的：利用 MAR 和条件期望迭代性质，直接计算即可得到无偏性。估计器的方差主要由加权项控制，而偏差来源于 \(g_a\) 和 \(\pi\) 的估计误差——这正是二阶余项（remainder term）控制的。

三、这篇论文做了什么（本次重心，务必讲透）¶

三句话¶

研究了什么问题：在结果变量缺失（MAR）的条件下，如何估计异质性处理效应（CATE），特别是针对欠代表性子群（因缺失导致的偏倚）的稳健估计问题。
核心工具/方法：将逆概率删失加权（IPCW）融合到两个现有的CATE正交学习框架——DR-learner和EP-learner——中，提出mDR-learner和mEP-learner。
主要结论：在正则条件下（包括倾向得分、缺失概率、结果回归模型的充分光滑性和收敛率要求），mDR-learner和mEP-learner是oracle有效的（即渐近方差达到半参效率下界）。模拟和实证均表明它们在偏差、覆盖率和MSE上优于基于完整案例或简单插补的替代方法。

关键设定与假设（补全第二节的记号）¶

缺失机制：\(Y \perp D \mid X, A\)（MAR），以及 \(p_c(X,A) = \mathbb{P}(D=1|X,A)\) 是有界且远离零的（positivity for censoring）。
CATE的识别假设：Consistency，与处理分配的条件可忽略性（conditional exchangeability，在随机试验下自动满足，观测研究下需要 \(Y(a) \perp A \mid X\)）。
Neyman正交性：DR-learner和EP-learner的构造本身就保证了伪结果期望关于 \(\pi\) 与 \(g_a\) 的一阶不敏感性。本文通过IPCW的添加，进一步确保了在缺失概率 \(p_c\) 上的Neyman正交性（见文中Lemma 1 和 Lemma 2）。
光滑性假设：\(\tau(x)\)（目标函数）在 \(x\) 上是可通过smoothness class（如Hölder类）控制的。这用于保证非参回归（如局部多项式/核）的收敛率。
交叉拟合（Cross-fitting）：如Zhao & van der Laan（2021）所述，为了打破依赖，将数据划分为 \(K\) 折，B-1折用于估计 \(\pi\)、\(g_a\)、\(p_c\) 等厌恶（nuisance）参数，剩余一折用于构造伪结果和CATE回归。迭代地在每一折上这样做并平均，称为交叉拟合。

相比已有文献的放宽/强化： - 放宽：相比标准DR-learner（假设完全数据），本文明确了缺失情况下的技术条件（特别是删失概率的估计与cross-fitting时对估计误差的控制）。 - 强化：与Millimet & Tchernis（2013）或简单IPCW-ATE不同，本文对CATE（条件效应）提供了完备理论，包括率界和oracle效率，这在之前是缺失的。

主要结果¶

Theorem 1（mDR-learner的收敛率与oracle效率）：设 \(m(x) = \mathbb{E}[Y|X=x]\) 与 \(\pi(x)\)（或在RCT下为常数），\(p_c(x,a)\) 和所有nuisance参数满足特定收敛率（例如，\(\|\hat{g}_a - g_a\|_2 = O_P(n^{-1/4})\)，\(\|\hat{\pi} - \pi\|_2 = O_P(n^{-1/4})\)，\(\|\hat{p}_c - p_c\|_2 = O_P(n^{-1/4})\)）。那么，mDR-learner的拟合CATE \(\hat{\tau}(x)\) 的均方误差的上界为：

\[\sup_{x \in \mathcal{X}} \mathbb{E}[(\hat{\tau}(x) - \tau(x))^2] = O(n^{-2/3})\]

（若 \(\tau\) 有阶 \(2\) 的光滑性）。更重要的是，它达到了半参效率下界：其渐近方差等于EIF方差。

文章还给出了一个更具一般性的误差界表达式（类似Kennedy 2020, Thm.1 中 \(O_P(n^{-1/2} + \text{二阶误差})\)），这里是类似的不等式，但额外项包含了 \(\hat{p}_c\) 的估计误差。核心是：如果 \(\hat{p}_c\) 的L2误差是 \(o_P(n^{-1/4})\)，将不改变CATE的收敛率。但如果 \(\hat{p}_c\) 差一点——这引入了“二阶暴增”项，则变得关键。

Theorem 2（mEP-learner的收敛率与oracle效率）：类似结果适用于mEP-learner。mEP-learner利用“高效插补”（efficient plug-in）思想：用 \(\hat{g}_a\) 插补一个初始的 \(\hat{\tau}\)，然后通过一个有针对性的修正步骤（targeting step）消除一阶偏差。文中证明，mEP-learner满足同样的oracle效率条件。mEP-learner的好处是伪结果是经过约束（bounded）的，这规避了mDR-learner中IPCW导致的反向加权带来的极端值问题。

与baseline对比的关键量化结论（模拟部分）： - 偏差：mDR-learner与mEP-learner在所有模拟场景下的偏差始终低于“Complete-case DR-learner”（仅对有Y的样本做DR-learner）和“Single-imputation + DR-learner”。例如，在完全随机缺失（MCAR）下，Complete-case的偏差约为mDR-learner的3-5倍；在MAR下，差距更大（5-10倍）。 - 覆盖率：mDR-learner和mEP-learner的95%置信区间覆盖率始终维持在92%-96%（接近名义水平）。Complete-case方法在MAR下覆盖率可降至50%-70%。 - MSE：在MAR的强协变量依赖缺失场景中，mDR-learner的MSE是Complete-case方法的\(\frac{1}{2}\)到\(\frac{1}{4}\)。

证明路线与技术技巧¶

整体路线（以mDR-learner的收敛率为例）： 1. Step 1：构造IPCW-DR伪结果。已在上文的“最小内核”中给出：\(\tilde{Y}_{i}\) = target + IPCW × residual。 2. Step 2：CATE估计的可加误差分解。最终估计 \(\hat{\tau}(x)\) 相对于真实值 \(\tau(x)\) 的误差可以写为：

\[(\hat{\tau}(x) - \tau(x)) = (\text{"regression of pseudo-outcome''偏差}) + (\text{"二阶余项"}) + (\text{"nuisance估计误差的交叉项"})\]

第一项来源于回归步骤的估计误差（如核平滑的偏差）。第二项来源于 \(\hat{g}_a\)、\(\hat{\pi}\) 与 \(\hat{p}_c\) 的联合误差。第三项是这两个误差的交叉。 3. Step 3：用Neyman正交性控制一阶项。关键在于，DR伪结果对 \(\pi\) 和 \(g_a\) 的“偏导数”在真实值处为零。加上IPCW后，对 \(p_c\) 也是如此。这意味着，在nuisance参数处做一阶Taylor展开的线性项会消失，只剩下乘积二次项（二阶项）。 4. Step 4：交叉拟合打破依赖。通过cross-fitting，保证了 \(\hat{\pi}_{(-k)}\) 与当前折的数据独立，从而可以用 Hoeffding / Bernstein 或 Empirical process 的标准理论来控制交叉项，而不必担心 overfitting。 5. Step 5：定理的Bounding。使用由Kennedy(2020)继承的通用不等式形式并改写，通过精确的Cauchy-Schwarz和Holder不等式嵌套，最终得到关于所有nuisance估计误差范数的上界：\(\text{剩余项} \le \|\hat{g}_a - g_a\|_2 \cdot \|\hat{p}_c^{-1} - p_c^{-1}\|_2 \cdot \text{某常数}_o_P(1)\)。由于假设了这些误差都是 \(o_P(n^{-1/4})\)，乘积是 \(o_P(n^{-1/2})\)，因此不会阻碍 \(\hat{\tau}\) 的 \(n^{-2/3}\) 收敛率。最后利用关于非参回归的经典结果（光滑类）成立。

关键跳跃点： - IPCW与DR伪结果融合后的Neyman正交性：最关键的引理是证明 \(mD - mDR\) 伪结果对于 \(\hat{p}_c\) 的估计误差也是一阶不敏感的。这需要将 IPCW 导数展开，并与 DR-learner 中的原始 orthogonal 结构协同作用——文章通过 Lemma 1 完成。 - “无限方差EIF”问题的规避：文章引用了 Hines et al.（2022）[7] 和 Takatsu & Westling（2022）[14] 的工作，指出直接构造CATE的EIF在连续协变量下不适用。本文的方法（利用IPCW修改伪结果而非构造EIF）恰好绕过了这一技术障碍。

技术技巧点名： - Empirical process + 交叉拟合：使用经验过程的“empirical process bound”理论（如 van der Vaart 1998）来控制交叉拟合下的剩余项。 - 二阶余项（Second-order remainder）：核心是Taylor展开到二阶，利用Neyman正交性“杀”死所有一阶项。 - 筛（Sieve）逼近：mEP-learner使用了三角函数余弦基（sieve）做最终的CATE回归（在iTMLE框架下）。这使得可以建立起光滑性假设下的精准收敛率。 - IPCW权重截断：为了应对极端小的 \(p_c\)，在实现中把 \(p_c\) 的估计截断在 \([0.05, 0.95]\) 之间，这是实践的常见技巧，防止权重爆炸。

真实例子与应用¶

例子：GBSG2（德国乳腺癌II期）随机对照试验。 - 数据/场景：该研究对乳腺癌术后患者比较激素疗法（hormonal therapy） vs 非激素疗法（non-hormonal therapy），主要终点是复发或死亡（无复发生存时间，RFS）。缺失数据问题源于部分患者的预后信息收集不完整或随访期间失访。 - 方法应用：作者将激素疗法作为处理组（A=1），非激素作为对照组（A=0）。用mDR-learner和mEP-learner估计了CATE \(\tau(X)\)，其中 \(X\) 包含年龄、肿瘤分级、淋巴结转移状态、激素受体状态等协变量。通过交叉拟合估计 \(p_c(X,A)\)（基于逻辑回归或XGBoost），并构造伪结果。 - 结果：论文给出了CATE随年龄变化的偏依赖图（partial dependence plot），以及随激素受体状态变化的群体分析。结果发现：年轻（<50岁）且激素受体阳性的患者，从激素疗法中相对获益更大（估计的负风险差异更大，意味着更好的RFS）。相反，老年或激素受体阴性的患者效果不明显，甚至有负效果的风险。mDR估计的结果显著不同于简单地用Complete-case拟合的结果（后者的置信区域几乎总是包含零，从而遗漏了有临床意义的效应修饰）。 - 这个例子想说明什么：展示mDR-learner/mEP-learner对实际医学数据中的缺失问题有实质性改进，即在有缺失的RCT中能够检测到真实的异质性处理效应，而Complete-case这类“不注意缺失”的方法会遗漏。它同时验证了理论预测的“在极端缺失场景下保持覆盖率”。

🔎 结论是否比证明窄¶

有一条潜在不匹配：论文的核心定理都是在 MAR假设下证明的。但在intro和讨论中，作者将方法推荐更宽的范围（如“可以处理缺失结果”或“提高稳健性”），而没有明确指出非随机缺失（MNAR）下即使应用mDR-learner也会严重有偏。此外，作者在模拟中假设了p_c的模型参数与g_a/pi的估计相同，但在真实例子中，p_c是用XGBoost估计的，而证明假设了某些光滑性——XGBoost能否满足这些光滑性假设是一个未完全闭合的问题（尽管在实践中可能通过交叉拟合解决）。最后，定理对删失概率的“一致性”要求 \(\hat{p}_c\) 的一致收敛，但在真实高维协变量下，强精度的估计可能不现实——作者没有讨论这一点。

四、开放问题（点到为止，扎根具体语句）¶

将方法扩展到非随机缺失（MNAR）：本文完全依赖MAR假设。MNAR下，\(Y \not\perp D \mid X, A\)，此时IPCW权重 \(p_c^{-1}\) 无法识别CATE。扎根在论文的“Identification assumptions”一节，第2条假设。研究者可考虑用Sensitivity analysis（如Frangakis & Rubin, 1999的 “unmeasured confounding for missingness” 模型）或Proximal causal inference（Tchetgen Tchetgen et al., 2020）来放松该假设。
当删失概率 \(p_c\) 接近零时的极小化估计：论文通过截断处理极端权重，但理论尚未给出在极限情况下（一些子群 \(p_c\) 几乎为0）的最优minimax下界。扎根于论文关于“Positivity for censoring”的陈述：\(\inf_{x,a} p_c(x,a) > \delta\)。如果该条件违反，方法可能失败。
在非参数(non-smooth) CATE类上的Minimax下界：论文只证明了在光滑性足够时（如Hölder阶 ≥ 2）的上界速率。是否能构造一个下界，证明在缺失比例很高时任何CATE估计器（甚至oracle）都会变慢？这需要读者从结果类（如Lipschitz类）出发做Minimax。文中未做下界分析。扎根于“Limitations and future work”部分（尽管没有明确写出给出下界）。
处理多个时间点/纵向缺失的扩展：本文聚焦于单次测量缺失。对于纵向数据（如重复测量），MAR的缺失模式更复杂，需要顺序删失权重（sequential IPCW）而非一次性权重。扎根于文中“Future directions”简短的提及：“extending to longitudinal settings…”。Luedtke et al（2017, [10]）的Sequential Double Robustness可能是先决参考。

对研究者而言：用自身的“higher-order U-statistics / tensor contraction”专长，可以考虑精确刻画IPCW与DR伪结果结合后，二阶余项中出现的三阶交叉矩（涉及 \(Y\)、\(D\)、\(g_a\) 与 \(p_c\) 的估计残差）在有限样本下能否用树宽（treewidth）分析来加速计算？目前证实这是纯计算问题，但可检查其是否对应更高阶的U-统计量乘积结构。

Maintained by 陈星宇 · Homepage · Source on GitHub