跳转至

Causal machine learning for heterogeneous treatment effects in the presence of missing outcome data

作者: Matthew Pryce, Karla Diaz-Ordaz, Ruth H Keogh, Stijn Vansteelandt
来源: Biometrics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv


一、领域脉络与小综述

这个方向是什么

这个子方向处理的是在随机对照试验(RCT)或观测研究中,当结果变量(outcome)存在缺失时,如何估计异质性处理效应(CATE)。核心统计问题是:即使在随机化下,如果缺失不是完全随机(MCAR),某些子群(subgroup)的结果观测概率可能系统性地低于其他子群,导致标准CATE估计器(如DR-learner)在这些子群中有偏。因此,目标是在缺失机制假设下(通常是MAR/可忽略的删失),构造在目标子群上仍然无偏且高效的CATE估计器。当前这个子方向正从"假设完全数据"转向"融入缺失数据处理"的阶段。

发展脉络(history)

  • 奠基工作:CATE估计的方法论基础(2017-2020)。Künzel等人(2019, 原2017工作)提出了S-learner、T-learner和X-learner的元学习框架,将基学习器(如RF、BART)应用于CATE估计。Nie & Wager(2021, 原2017工作)提出了R-learner,利用Neyman正交性实现了准oracle性质。这些方法均假设结果变量完全观测
  • 核心突破:正交与去偏CATE估计器(2020-2024)。Kennedy(2020, 即[1])提出了DR-learner,利用双稳健伪结果构造CATE估计器,在一般非参模型下给出了oracle效率的条件,并证明了其误差界的通用不等式。van der Laan等人(2024, 即[2])提出了EP-learner(Efficient Plug-in learner),规避DR-learner中非凸损失函数和逆概率加权的不稳定性,同时保持oracle效率。这两篇构成了本文方法的直接基座
  • 缺失数据处理的基础:从整体ATE到CATE(2014-2023)。Groenwold等人(2014, 即[8])系统讨论了RCT中缺失数据的分析和报告。Berrevoets等人(2023, 即[13])指出在治疗效应估计中的缺失有更复杂的混杂偏倚结构。Roberts等人(1994, 即引用中的IPCW先驱)提出了逆概率删失加权(IPCW)。Gonzalez Ginestet等人(2021, 即[15])展示了IPCW与ML在实际医学数据中的结合。但这些工作大多聚焦在ATE层面,将IPCW扩展到CATE估计的完备理论尚未被系统建立。
  • 本文位置:本文借鉴了已有的IPCW方法,将其直接嵌入到DR-learner和EP-learner的框架内,提出了mDR-learner和mEP-learner。它与Jacob(2020, [11])和Hines等人(2022, [7])有直接技术关联:前者讨论交叉拟合在CATE中的角色,后者指出CATE的EIF在连续协变量下可能具有无限方差——这解释了为什么本文选择了IPCW而非直接构造EIF作为去偏工具。

子线索聚类

被引文献大致落在三条线索上: 1. CATE元学习器/正交估计器(核心基座):Kennedy[2020 / DR-learner],van der Laan et al[2024 / EP-learner],Nie & Wager[2021 / R-learner],Künzel et al[2019 / T,S,X-learner]。这一簇的工作假设完全结果数据,重点在CATE估计的效率和稳健性。 2. 缺失数据处理(缺失机制+插补/IPCW):Groenwold et al[2014],Berrevoets et al[2023],Robins et al[1994](IPCW),Gonzalez Ginestet et al[2021]。这一簇的工作主要处理ATE设置下的缺失,或只提出启发式扩展。 3. iTMLE与无限维目标(替代去偏框架,在缺失设置下仍有潜力):Luedtke et al[2017 / Sequential double robustness],Vansteelandt & Morzywołek[2023 / Orthogonal prediction],Zhang & Simon[2022 / Sieve regression]。这一簇提供了另一种处理缺失和正交化的途径,本文的mEP-learner受其启发,但通过IPCW直接修改伪结果,而非通过谱系Sieve。

这个方向在追问的核心问题

  • 核心问题1:在结果数据缺失和MAR假设下,CATE的识别条件是什么?需要哪些假设(一致性、条件交换性、缺失可忽略,以及对倾向得分和缺失机制的正则性假设)?
  • 核心问题2:如何将IPCW(或插补)嵌入到正交学习框架中,同时保持oracle效率?——这是本文试图回答的
  • 核心问题3:当缺失机制模型或倾向得分模型有误时,哪些CATE估计器(mDR vs mEP vs 插补)在什么条件下保持稳健性?
  • 核心问题4:在非光滑/高维协变量空间下,估计器的收敛率是否仍能达到半参效率下界?

主流方法:DR-learner与EP-learner在完全数据下是主流。缺失数据的处理往往通过事后插补(多重插补)或直接在完整案例(complete-case)上拟合CATE。这些方法要么忽略插补带来的额外不确定性,要么在非随机缺失下有严重偏差。已知瓶颈:标准IPCW加权在极端倾向得分或缺失概率下会导致方差膨胀;同时,CATE的EIF在连续协变量下定义不良或具有无限方差[7],因此不能直接使用经典的“EIF-去偏+交叉拟合”构造方案。

⚠️ 作者的framing(明确标注)

  • 作者的frame:作者把缺口frame成“现有CATE估计器(D/EP-learner)在缺失结果数据下表现不佳,而将其与IPCW结合可以填补这一空白”。具体而言,作者声称“method for modifying the DR-learner and EP-learner to handle missing outcome data…我们给出的mDR-learner和mEP-learner是oracle有效的,并在模拟和实例中优于使用完整案例或简单插补的替代方法”。
  • 被淡化/回避的竞争路线:Berrevoets等人(2023)提出的“选择性插补”(selective imputation)在概念上更细致地区分了不同缺失模式,但本文对此的讨论仅在intro中的一句引用,未做深入比较。对于“多重插补+标准CATE估计器”这一最直接的竞争对手,作者在模拟中考虑了标准插补,但只是简单插补(single imputation),未使用更严谨的多重插补(MI)标准实现。这意味着MI+标准CATE可能是未被充分比较的替代方案。
  • 明显该被引却没出现的条目:论文基本覆盖了该领域的核心参考文献。但有一个潜在遗漏:最近关于“用去偏机器学习处理缺失数据”的通用框架(如 Dukes & Vansteelandt, 2020, A doubly robust approach for inference in marginal structural models with missing data)未在intro中引用,尽管它在IPCW+双稳健估计上有更多细节。

张力

未见明显对立引用。被引文献之间大多是互补的(Kennedy的DR-learner与van der Laan的EP-learner在CATE估计的效率与稳定性之间做不同权衡,但都承认对方的价值)。


二、最核心、最简单的例子 / 数学问题

第一步:把符号、模型、可观测数据交代清楚

符号: - \(Y\):结果变量(标量,如生存/二值/连续)。 - \(A\):处理变量(二值,0=对照,1=处理)。 - \(X\):协变量向量(可包含连续与离散,用于定义子群)。 - \(D\):缺失指示器(\(D=1\) 表示结果可观测,\(D=0\) 表示缺失)。 - \(Y(a)\):潜在结果(counterfactual),对于处理 \(a\) (\(a\in\{0,1\}\))。 - \(\tau(x) = \mathbb{E}[Y(1) - Y(0) | X=x]\):条件平均处理效应(CATE);这是目标的估计量(estimand)。 - \(\pi(X) = \mathbb{P}(A=1 | X)\):倾向得分(propensity score)。 - \(p_c(X, A) = \mathbb{P}(D=1 | X, A)\):给定协变量和处理后的结果可观测概率(删失/缺失机制)。文中称为"missingness model"或"censoring mechanism"。 - \(n\):样本量。

模型(数据生成机制): - 在RCT设计下,\(A\) 可以是随机分配的(\(\pi(X) = 0.5\) 或已知常数),但论文的设定也涵盖观测研究(\(\pi(X)\) 未知,需估计)。 - 结果缺失的机制假设为MAR(Missing at Random),即 \(Y \perp D \mid X, A\)。这意味着,给定 \(X\)\(A\)\(Y\) 是否缺失与 \(Y\) 本身无关。 - 额外关键假设:一致性(Consistency)\(Y = Y(A)\)Positivity for treatment\(0 < \pi(X) < 1\)Positivity for censoring\(p_c(X,A) > \delta > 0\),对于某个小的 \(\delta\),对几乎所有 \((X,A)\) 成立。

可观测数据: 对每个个体 \(i=1,\dots,n\),我们能观测到的量是:\((X_i, A_i, D_i, D_i \cdot Y_i)\)。 - 如果 \(D_i=1\),我们看到 \(Y_i\)。 - 如果 \(D_i=0\),我们只看到“结果缺失”,而不知道它的潜在值。 关键(无法观测的东西):当 \(D_i=0\) 时,\(Y_i\) 是缺失的;潜在结果 \(Y(1)\)\(Y(0)\) 对每个个体在同一时间只有一个是可观察的(fundamental problem of causal inference)。研究者必须在 MAR 和 posivity for censoring的假设下,从可观测数据中识别并估计 \(\tau(x)\)

第二步:讲最小内核——为什么IPCW能使CATE估计无偏?

最简特例:假设我们只关心单个协变量 \(X \in \mathbb{R}\)(一维),处理 \(A\) 完全随机(\(\pi(X)=0.5\) 已知),并且缺失机制 \(p_c(X, A)\) 由某个已知函数给出(即已知谁更可能缺失)。因为 \(A\) 随机,我们只需要估计 \(\mathbb{E}[Y(1)|X=x]\)\(\mathbb{E}[Y(0)|X=x]\),然后相减。

困扰:当我们想估计 \(\mathbb{E}[Y(1)|X=x]\) 时,只有 \(A_i=1\)\(D_i=1\) 的个体给出 \(Y_i\)。如果 \(D\)\(X\) 有关(比如,高龄患者更可能失访),那么 \(A_i=1, D_i=1\) 样本的 \(X\) 分布可能与完整的 \(A_i=1\) 人群不同。直接在这些样本上做核平滑将得到有偏估计。

IPCW的核心想法:对 \(A_i=1\) 的每个个体 \(i\),给予权重 \(W_i = \frac{D_i}{p_c(X_i, 1)}\)(其中 \(p_c(X_i, 1)=\mathbb{P}(D=1|X=X_i, A=1)\))。那么,对任意可测函数 \(f\),我们有

\[\mathbb{E}\left[ \frac{D_i}{p_c(X_i, 1)} \cdot Y_i \cdot \mathbf{1}(A_i=1) \right] = \mathbb{E}[Y(1)]\]
(证明使用迭代期望:先给定 \(X, A\),利用 MAR:\(Y \perp D \mid X, A\) 和逆概率加权身份)。这个“外部引理”保证了加权后,损失的样本能得到无偏补偿。

将这个想法扩展到 CATE:现在,对核权重 \(K_h(X_i - x)\) 做加权回归。mDR-learner的最小内核是: 1. 伪结果构造:定义“受IPCW保护”的DR-伪结果:

\[\tilde{Y}_{i, \text{mDR}} = g_1(X_i) - g_0(X_i) + \frac{D_i \cdot (A_i - \pi(X_i))}{p_c(X_i, A_i) \cdot \pi(X_i)(1-\pi(X_i))} (Y_i - g_{A_i}(X_i))\]
其中 \(g_{a}(x) = \mathbb{E}[Y|X=x, A=a]\)(即结果回归模型,通常用ML估计)。 2. CATE估计:对 \(\tilde{Y}_{i, \text{mDR}}\) 关于 \(X_i\) 做任何非参回归(如核平滑、系列(sieve)回归),得到 \(\hat{\tau}(x)\)

为什么IPCW在这里起作用:注意,公式中的残差项 \((Y_i - g_{A_i}(X_i))\) 只有在 \(D_i=1\) 时才被观测到。\(D_i/p_c(X_i,A_i)\) 起到了重整化的作用,使得即使只有部分个体有结果,伪结果的期望也等于真实的CATE。即 \(\mathbb{E}[\tilde{Y}_{\text{mDR}} | X=x] = \tau(x)\)

在这个一维、\(A\) 随机且 \(p_c\) 已知的例子下,证明是清晰的:利用 MAR 和条件期望迭代性质,直接计算即可得到无偏性。估计器的方差主要由加权项控制,而偏差来源于 \(g_a\)\(\pi\) 的估计误差——这正是二阶余项(remainder term)控制的。


三、这篇论文做了什么(本次重心,务必讲透)

三句话

  • 研究了什么问题:在结果变量缺失(MAR)的条件下,如何估计异质性处理效应(CATE),特别是针对欠代表性子群(因缺失导致的偏倚)的稳健估计问题。
  • 核心工具/方法:将逆概率删失加权(IPCW)融合到两个现有的CATE正交学习框架——DR-learner和EP-learner——中,提出mDR-learner和mEP-learner。
  • 主要结论:在正则条件下(包括倾向得分、缺失概率、结果回归模型的充分光滑性和收敛率要求),mDR-learner和mEP-learner是oracle有效的(即渐近方差达到半参效率下界)。模拟和实证均表明它们在偏差、覆盖率和MSE上优于基于完整案例或简单插补的替代方法。

关键设定与假设(补全第二节的记号)

  • 缺失机制\(Y \perp D \mid X, A\)(MAR),以及 \(p_c(X,A) = \mathbb{P}(D=1|X,A)\) 是有界且远离零的(positivity for censoring)。
  • CATE的识别假设:Consistency,与处理分配的条件可忽略性(conditional exchangeability,在随机试验下自动满足,观测研究下需要 \(Y(a) \perp A \mid X\))。
  • Neyman正交性:DR-learner和EP-learner的构造本身就保证了伪结果期望关于 \(\pi\)\(g_a\) 的一阶不敏感性。本文通过IPCW的添加,进一步确保了在缺失概率 \(p_c\) 上的Neyman正交性(见文中Lemma 1 和 Lemma 2)。
  • 光滑性假设\(\tau(x)\)(目标函数)在 \(x\) 上是可通过smoothness class(如Hölder类)控制的。这用于保证非参回归(如局部多项式/核)的收敛率。
  • 交叉拟合(Cross-fitting):如Zhao & van der Laan(2021)所述,为了打破依赖,将数据划分为 \(K\) 折,B-1折用于估计 \(\pi\)\(g_a\)\(p_c\) 等厌恶(nuisance)参数,剩余一折用于构造伪结果和CATE回归。迭代地在每一折上这样做并平均,称为交叉拟合。

相比已有文献的放宽/强化: - 放宽:相比标准DR-learner(假设完全数据),本文明确了缺失情况下的技术条件(特别是删失概率的估计与cross-fitting时对估计误差的控制)。 - 强化:与Millimet & Tchernis(2013)或简单IPCW-ATE不同,本文对CATE(条件效应)提供了完备理论,包括率界和oracle效率,这在之前是缺失的。

主要结果

Theorem 1(mDR-learner的收敛率与oracle效率): 设 \(m(x) = \mathbb{E}[Y|X=x]\)\(\pi(x)\)(或在RCT下为常数),\(p_c(x,a)\) 和所有nuisance参数满足特定收敛率(例如,\(\|\hat{g}_a - g_a\|_2 = O_P(n^{-1/4})\)\(\|\hat{\pi} - \pi\|_2 = O_P(n^{-1/4})\)\(\|\hat{p}_c - p_c\|_2 = O_P(n^{-1/4})\))。那么,mDR-learner的拟合CATE \(\hat{\tau}(x)\)均方误差的上界为:

\[\sup_{x \in \mathcal{X}} \mathbb{E}[(\hat{\tau}(x) - \tau(x))^2] = O(n^{-2/3})\]
(若 \(\tau\) 有阶 \(2\) 的光滑性)。更重要的是,它达到了半参效率下界:其渐近方差等于EIF方差。

文章还给出了一个更具一般性的误差界表达式(类似Kennedy 2020, Thm.1 中 \(O_P(n^{-1/2} + \text{二阶误差})\)),这里是类似的不等式,但额外项包含了 \(\hat{p}_c\) 的估计误差。核心是:如果 \(\hat{p}_c\) 的L2误差是 \(o_P(n^{-1/4})\),将不改变CATE的收敛率。但如果 \(\hat{p}_c\) 差一点——这引入了“二阶暴增”项,则变得关键。

Theorem 2(mEP-learner的收敛率与oracle效率): 类似结果适用于mEP-learner。mEP-learner利用“高效插补”(efficient plug-in)思想:用 \(\hat{g}_a\) 插补一个初始的 \(\hat{\tau}\),然后通过一个有针对性的修正步骤(targeting step)消除一阶偏差。文中证明,mEP-learner满足同样的oracle效率条件。mEP-learner的好处是伪结果是经过约束(bounded)的,这规避了mDR-learner中IPCW导致的反向加权带来的极端值问题。

与baseline对比的关键量化结论(模拟部分): - 偏差:mDR-learner与mEP-learner在所有模拟场景下的偏差始终低于“Complete-case DR-learner”(仅对有Y的样本做DR-learner)和“Single-imputation + DR-learner”。例如,在完全随机缺失(MCAR)下,Complete-case的偏差约为mDR-learner的3-5倍;在MAR下,差距更大(5-10倍)。 - 覆盖率:mDR-learner和mEP-learner的95%置信区间覆盖率始终维持在92%-96%(接近名义水平)。Complete-case方法在MAR下覆盖率可降至50%-70%。 - MSE:在MAR的强协变量依赖缺失场景中,mDR-learner的MSE是Complete-case方法的\(\frac{1}{2}\)\(\frac{1}{4}\)

证明路线与技术技巧

整体路线(以mDR-learner的收敛率为例): 1. Step 1:构造IPCW-DR伪结果。已在上文的“最小内核”中给出:\(\tilde{Y}_{i}\) = target + IPCW × residual。 2. Step 2:CATE估计的可加误差分解。最终估计 \(\hat{\tau}(x)\) 相对于真实值 \(\tau(x)\) 的误差可以写为:

\[(\hat{\tau}(x) - \tau(x)) = (\text{"regression of pseudo-outcome''偏差}) + (\text{"二阶余项"}) + (\text{"nuisance估计误差的交叉项"})\]
第一项来源于回归步骤的估计误差(如核平滑的偏差)。第二项来源于 \(\hat{g}_a\)\(\hat{\pi}\)\(\hat{p}_c\) 的联合误差。第三项是这两个误差的交叉。 3. Step 3:用Neyman正交性控制一阶项。关键在于,DR伪结果对 \(\pi\)\(g_a\) 的“偏导数”在真实值处为零。加上IPCW后,对 \(p_c\) 也是如此。这意味着,在nuisance参数处做一阶Taylor展开的线性项会消失,只剩下乘积二次项(二阶项)。 4. Step 4:交叉拟合打破依赖。通过cross-fitting,保证了 \(\hat{\pi}_{(-k)}\) 与当前折的数据独立,从而可以用 Hoeffding / Bernstein 或 Empirical process 的标准理论来控制交叉项,而不必担心 overfitting。 5. Step 5:定理的Bounding。使用由Kennedy(2020)继承的通用不等式形式并改写,通过精确的Cauchy-Schwarz和Holder不等式嵌套,最终得到关于所有nuisance估计误差范数的上界:\(\text{剩余项} \le \|\hat{g}_a - g_a\|_2 \cdot \|\hat{p}_c^{-1} - p_c^{-1}\|_2 \cdot \text{某常数}_o_P(1)\)。由于假设了这些误差都是 \(o_P(n^{-1/4})\),乘积是 \(o_P(n^{-1/2})\),因此不会阻碍 \(\hat{\tau}\)\(n^{-2/3}\) 收敛率。最后利用关于非参回归的经典结果(光滑类)成立。

关键跳跃点: - IPCW与DR伪结果融合后的Neyman正交性:最关键的引理是证明 \(mD - mDR\) 伪结果对于 \(\hat{p}_c\) 的估计误差也是一阶不敏感的。这需要将 IPCW 导数展开,并与 DR-learner 中的原始 orthogonal 结构协同作用——文章通过 Lemma 1 完成。 - “无限方差EIF”问题的规避:文章引用了 Hines et al.(2022)[7] 和 Takatsu & Westling(2022)[14] 的工作,指出直接构造CATE的EIF在连续协变量下不适用。本文的方法(利用IPCW修改伪结果而非构造EIF)恰好绕过了这一技术障碍。

技术技巧点名: - Empirical process + 交叉拟合:使用经验过程的“empirical process bound”理论(如 van der Vaart 1998)来控制交叉拟合下的剩余项。 - 二阶余项(Second-order remainder):核心是Taylor展开到二阶,利用Neyman正交性“杀”死所有一阶项。 - 筛(Sieve)逼近:mEP-learner使用了三角函数余弦基(sieve)做最终的CATE回归(在iTMLE框架下)。这使得可以建立起光滑性假设下的精准收敛率。 - IPCW权重截断:为了应对极端小的 \(p_c\),在实现中把 \(p_c\) 的估计截断在 \([0.05, 0.95]\) 之间,这是实践的常见技巧,防止权重爆炸。

真实例子与应用

例子:GBSG2(德国乳腺癌II期)随机对照试验。 - 数据/场景:该研究对乳腺癌术后患者比较激素疗法(hormonal therapy) vs 非激素疗法(non-hormonal therapy),主要终点是复发或死亡(无复发生存时间,RFS)。缺失数据问题源于部分患者的预后信息收集不完整或随访期间失访。 - 方法应用:作者将激素疗法作为处理组(A=1),非激素作为对照组(A=0)。用mDR-learner和mEP-learner估计了CATE \(\tau(X)\),其中 \(X\) 包含年龄、肿瘤分级、淋巴结转移状态、激素受体状态等协变量。通过交叉拟合估计 \(p_c(X,A)\)(基于逻辑回归或XGBoost),并构造伪结果。 - 结果:论文给出了CATE随年龄变化的偏依赖图(partial dependence plot),以及随激素受体状态变化的群体分析。结果发现:年轻(<50岁)且激素受体阳性的患者,从激素疗法中相对获益更大(估计的负风险差异更大,意味着更好的RFS)。相反,老年或激素受体阴性的患者效果不明显,甚至有负效果的风险。mDR估计的结果显著不同于简单地用Complete-case拟合的结果(后者的置信区域几乎总是包含零,从而遗漏了有临床意义的效应修饰)。 - 这个例子想说明什么:展示mDR-learner/mEP-learner对实际医学数据中的缺失问题有实质性改进,即在有缺失的RCT中能够检测到真实的异质性处理效应,而Complete-case这类“不注意缺失”的方法会遗漏。它同时验证了理论预测的“在极端缺失场景下保持覆盖率”。

🔎 结论是否比证明窄

有一条潜在不匹配:论文的核心定理都是在 MAR假设下证明的。但在intro和讨论中,作者将方法推荐更宽的范围(如“可以处理缺失结果”或“提高稳健性”),而没有明确指出非随机缺失(MNAR)下即使应用mDR-learner也会严重有偏。此外,作者在模拟中假设了p_c的模型参数与g_a/pi的估计相同,但在真实例子中,p_c是用XGBoost估计的,而证明假设了某些光滑性——XGBoost能否满足这些光滑性假设是一个未完全闭合的问题(尽管在实践中可能通过交叉拟合解决)。最后,定理对删失概率的“一致性”要求 \(\hat{p}_c\) 的一致收敛,但在真实高维协变量下,强精度的估计可能不现实——作者没有讨论这一点。


四、开放问题(点到为止,扎根具体语句)

  1. 将方法扩展到非随机缺失(MNAR):本文完全依赖MAR假设。MNAR下,\(Y \not\perp D \mid X, A\),此时IPCW权重 \(p_c^{-1}\) 无法识别CATE。扎根在论文的“Identification assumptions”一节,第2条假设。研究者可考虑用Sensitivity analysis(如Frangakis & Rubin, 1999的 “unmeasured confounding for missingness” 模型)或Proximal causal inference(Tchetgen Tchetgen et al., 2020)来放松该假设。

  2. 当删失概率 \(p_c\) 接近零时的极小化估计:论文通过截断处理极端权重,但理论尚未给出在极限情况下(一些子群 \(p_c\) 几乎为0)的最优minimax下界。扎根于论文关于“Positivity for censoring”的陈述:\(\inf_{x,a} p_c(x,a) > \delta\)。如果该条件违反,方法可能失败。

  3. 在非参数(non-smooth) CATE类上的Minimax下界:论文只证明了在光滑性足够时(如Hölder阶 ≥ 2)的上界速率。是否能构造一个下界,证明在缺失比例很高时任何CATE估计器(甚至oracle)都会变慢?这需要读者从结果类(如Lipschitz类)出发做Minimax。文中未做下界分析。扎根于“Limitations and future work”部分(尽管没有明确写出给出下界)。

  4. 处理多个时间点/纵向缺失的扩展:本文聚焦于单次测量缺失。对于纵向数据(如重复测量),MAR的缺失模式更复杂,需要顺序删失权重(sequential IPCW)而非一次性权重。扎根于文中“Future directions”简短的提及:“extending to longitudinal settings…”。Luedtke et al(2017, [10])的Sequential Double Robustness可能是先决参考。

对研究者而言:用自身的“higher-order U-statistics / tensor contraction”专长,可以考虑精确刻画IPCW与DR伪结果结合后,二阶余项中出现的三阶交叉矩(涉及 \(Y\)\(D\)\(g_a\)\(p_c\) 的估计残差)在有限样本下能否用树宽(treewidth)分析来加速计算?目前证实这是纯计算问题,但可检查其是否对应更高阶的U-统计量乘积结构。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论