Tree-based subgroup discovery using electronic health record data: heterogeneity of treatment effects for DTG-containing therapies¶
作者: Jiabei Yang, Ann W Mwangi, Rami Kantor, Issa J Dahabreh, Monicah Nyambura et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: Brown University(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biostatistics/kxad014
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在纵向观察性数据(特别是电子健康记录 EHR)中,如何识别并估计处理效应的异质性(Heterogeneous Treatment Effects, HTE),即找出哪些协变量定义的亚组对处理的响应显著不同。当前该方向的成熟度处于“方法可用但纵向设定尚未标准化”的阶段:横截面数据下的亚组发现与因果树已有成熟框架,但一旦引入时间维度,时依混杂、不规则测量与失访使得既有框架的识别与估计同时受挫,尚无统一的高效/鲁棒解法。
发展脉络(history): 根据 intro 的引用线索,该方向的发展可串成如下主线: - 奠基工作(横截面亚组发现):Su et al. (2008, Interaction Trees) 与 Foster et al. (2015, Virtual Twins) 开创了基于树结构的亚组发现,但仅适用于横截面随机化试验,未触及观察性数据的混杂与纵向结构。作者引用时明确指出它们“缺乏对观察性数据混杂的调整”。 - 主要进展(观察性横截面因果树):Athey & Imbens (2016, Causal Tree) 与 Nie & Wager (2021, Causal Forest) 将因果推断的识别假设引入树模型,解决了横截面观察性数据的混杂调整,但作者指出它们“未扩展至纵向与时间不对齐的设定”。 - 当前 frontier(纵向因果估计 + 亚组发现初探):Robins (1986, 2000) 与 Bang & Robins (2005) 建立了纵向因果的 g-formula与 TMLE 估计框架;van der Laan & Gruber (2012) 开发了纵向 TMLE(lTMLE)。另一方面,Steingrimsson et al. (2020, generalized interaction tree, GIT) 将亚组发现推广至广义损失函数。本文的位置:将 GIT 的亚组发现能力与 lTMLE 的纵向因果估计能力首次焊接,填补“纵向观察性数据下的亚组发现”这一空白。
子线索聚类: 被引文献落在三条子线索上: 1. 树模型与亚组发现:Interaction Trees → Causal Tree → Causal Forest → GIT。这一簇在做数据驱动的协变量空间划分,核心是递归二分与过拟合控制。 2. 纵向因果估计:Robins 的 g-formula → lTMLE。这一簇在解决时依混杂与失访的识别与半参数高效估计。 3. EHR 数据特征与 HIV 应用:不规则测量与失访的文献(如 Hernan et al. 的 censoring 框架)→ DTG 与体重增加的流行病学文献。这一簇在刻画数据生成机制的实际痛点。
这个方向在追问的核心问题: 1. 识别问题:在时依混杂与失访并存时,条件平均处理效应(CATE)的纵向版本(如时间 \(t\) 的亚组特定风险差)能否被非参数识别?需要哪些顺序假设与忽略性假设? 2. 估计问题:识别后,如何在半参数模型下达到局部高效?lTMLE 的渐近正态性在亚组划分(树截断)后是否仍成立? 3. 过拟合与划分问题:数据驱动的树划分必然引入选择偏差,如何保证划分后的亚组内 CATE 估计是诚实的而非过拟合的产物?
⚠️ 作者的 framing: - 作者将缺口 frame 为:“现有因果树仅处理横截面,而 EHR 的价值在于纵向,因此纵向亚组发现是显然的下一步”。这让本文的 GIT+lTMLE 组合成为自然填补。 - 被淡化的竞争路线:基于深度学习的纵向 HTE 估计(如 R-Net 的时序扩展)在 intro 中完全缺席;基于半参数高阶影响函数(HOIF)的纵向亚组发现也未提及——这两条路线可能同样能处理时依混杂,但作者未讨论其优劣。 - 明显该被引却缺席的:关于树划分后半参数估计量渐近性质的理论文献(如 Wager & Athey 2021 对 Causal Forest 渐近正态的证明)——本文用了交叉拟合控制过拟合,但未给出亚组内 lTMLE 的严格渐近保证,这一理论缺口未被引也未自省,值得研究者去查。
张力: 未见明显对立引用。各线索在各自设定下自洽,张力主要体现在设定差异而非结论矛盾:横截面因果树假设无混杂,纵向 TMLE 假设时依混杂可忽略,二者未在同一设定下交锋。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 参数 / estimand:
- \(V\):基线协变量(用于划分亚组,如性别、年龄、基线 CD4 计数)。
- \(\bar{L}(t)\):时间 \(t\) 及之前的时依协变量历史(如随时间变化的 CD4、病毒载量)。
- \(\bar{A}(t)\):时间 \(t\) 及之前的处理历史(此处为 ART 方案,0=非 DTG,1=含 DTG)。
- \(Y(t)\):时间 \(t\) 的结局(此处为体重或体重增加指标)。
- \(\bar{C}(t)\):时间 \(t\) 及之前的失访/删失指示(1=仍在随访,0=已失访)。
-
\(\psi(V)\):目标 estimand——在基线协变量 \(V\) 定义的人群中,始终接受含 DTG 方案 versus 始终接受非 DTG 方案下,时间 \(t\) 结局 \(Y(t)\) 的风险差(即纵向 CATE)。
-
随机变量 / 样本:
- \(O_i = (V_i, \bar{L}_i(t_k), \bar{A}_i(t_k), \bar{C}_i(t_k), Y_i(t_k))\):第 \(i\) 个个体的纵向观察轨迹,\(i=1,\ldots,n\)。
-
\(t_k\):EHR 中的观测时间点(不规则,个体间可能不对齐)。
-
维数 / 样本量等指标:
- \(n\):样本量(个体数)。
- \(K\):最大随访时间点数。
-
\(p\):基线协变量 \(V\) 的维数。
-
潜在量:
-
\(Y^{\bar{a}, \bar{c}=1}(t)\):在处理路径 \(\bar{a}\) 下且始终未失访(\(\bar{c}=1\))时,时间 \(t\) 的潜在结局。
-
模型:
- 数据生成机制 \(P_0\) 属于半参数模型 \(\mathcal{M}\),允许时依混杂 \(\bar{L}(t)\) 受过去处理 \(\bar{A}(t-1)\) 影响,但假设顺序性(\(A(t)\) 只依赖历史)与时依忽略性(给定历史下,\(A(t)\) 与潜在结局独立)。
-
失访机制类似假设:给定历史下,\(C(t)\) 与潜在结局独立。
-
可观测数据:
- 研究者实际观测到的是 \(O_1, \ldots, O_n\),其中包含不规则时间点的 \(\bar{L}, \bar{A}, \bar{C}, Y\)。想要但观测不到的是 \(Y^{\bar{a}, \bar{c}=1}(t)\)(反事实结局),只能靠上述忽略性假设与 g-formula 从可观测数据中识别 \(\psi(V)\)。
第二步:最小内核——最简特例(两个时间点、单基线协变量、二值处理与结局)
剥掉所有纵向复杂性与高维设定,论文的核心数学困难与解法在以下特例中完全可见:
设 \(K=2\)(基线 \(t=0\) 与终点 \(t=1\)),基线亚组变量 \(V\) 为一维连续量(如年龄),时依混杂 \(L(1)\) 为一维,处理 \(A \in \{0,1\}\) 仅在 \(t=0\) 给予(简化为横截面处理但纵向结局),失访 \(C(1) \in \{0,1\}\),结局 \(Y(1) \in \{0,1\}\)。
-
目标 estimand 退化为:\(\psi(V) = E[Y^{A=1, C=1}(1) - Y^{A=0, C=1}(1) \mid V]\),即给定年龄 \(V\) 下,接受 DTG versus 非 DTG 的体重增加风险差。
-
识别:在忽略性假设下,\(\psi(V)\) 可通过 g-formula 识别为 \(E\left[ E[Y(1) \mid V, L(1), A=1, C=1] - E[Y(1) \mid V, L(1), A=0, C=1] \mid V \right]\)。
-
核心困难:\(\psi(V)\) 是 \(V\) 的未知函数,我们需要同时做两件事——(1) 找出 \(V\) 空间上的划分(如年龄 \(\leq 40\) vs \(>40\))使得两亚组内 \(\psi(V)\) 值差异最大;(2) 在每个划分内估计 \(\psi(V)\) 的常数均值。困难在于:划分是数据驱动的(选哪个切点由样本决定),划分后估计 \(\psi(V)\) 时若用同一批数据,必然过拟合(切点选得再差,同批数据也会伪证该切点有效)。
-
本文解法的最小内核:
- GIT 划分:用广义交互树递归二分 \(V\) 空间,切点选择标准是“使亚组间 \(\psi(V)\) 差异最大化”,但此时 \(\psi(V)\) 未知。
- lTMLE 估计:在每个候选切点下,用 lTMLE 估计左/右亚组的 \(\psi(V)\) 均值,作为切点选择的依据。
- 交叉拟合防过拟合:将数据分为训练集(选切点)与估计集(在选定切点内用 lTMLE 估计 \(\psi(V)\)),保证估计集未参与切点选择,从而 \(\psi(V)\) 估计诚实。
在这个特例中,证明路线的骨架已完整:识别 → lTMLE 构造局部高效估计 → GIT 用该估计选切点 → 交叉拟合保证诚实性。一般情形只是将 \(K\) 推广至多时间点、\(A\) 推广至时依处理、\(V\) 推广至多维,lTMLE 的步骤从单层变为多层迭代,但核心逻辑未变。
三、这篇论文做了什么¶
三句话: ①研究了纵向观察性数据(EHR)中处理效应异质性的亚组发现与估计问题,核心挑战是时依混杂、不规则测量与失访。 ②核心工具是将广义交互树(GIT)与纵向目标最大似然估计(lTMLE)结合,辅以交叉拟合控制过拟合。 ③主要结论是提出了纵向亚组发现算法,并在 HIV 患者接受 DTG 治疗的体重增加风险数据中识别出基线 BMI 较高的亚组风险差更大。
关键设定与假设: 在第二节最小记号基础上补全: - 时依处理与顺序性:\(\bar{A}(t_k)\) 可在多个时间点切换,但假设 \(A(t_k)\) 仅依赖 \(\bar{L}(t_k), \bar{A}(t_{k-1}), \bar{C}(t_k), V\)(顺序性假设,排除未来信息影响当前处理)。 - 时依忽略性(Sequential Ignorability / No Unmeasured Confounding):给定 \(\bar{L}(t_k), \bar{A}(t_{k-1}), \bar{C}(t_k), V\) 下,\(A(t_k)\) 与所有潜在结局独立。这是识别的核心假设,本文未放宽,与 Robins (1986) 一致。 - 可忽略失访:给定历史下,\(C(t_k)\) 与潜在结局独立。若此假设不成立,识别失败,本文未讨论违反时的敏感性分析。 - Positivity:在所有历史组合下,\(P(A(t_k)=a \mid \text{历史}) > 0\) 且 \(P(C(t_k)=1 \mid \text{历史}) > 0\)。EHR 数据中协变量维度高,此假设极易脆弱,但本文仅提及未深入检验。 - lTMLE 的半参数模型:干预机制与失访机制的估计使用参数/半参数模型(如 Super Learner),结局模型同理,但目标估计量 \(\psi(V)\) 的渐近性质仅依赖干预与失访模型的正确估计(双鲁棒性),结局模型错误只影响效率。
主要结果: - 定理/命题(陈述 + 直觉 + 必要条件):本文未给出亚组内 \(\psi(V)\) 估计量的严格渐近正态定理。核心结果为算法框架与有限样本下的交叉拟合保证:在交叉拟合下,估计集上的 lTMLE 估计量不受切点选择偏差影响,若干预与失访模型一致,则亚组内 \(\psi(V)\) 估计为局部半参数高效。直觉:交叉拟合将划分与估计解耦,lTMLE 的双鲁棒性保证即使结局模型错,只要干预/失访模型对,估计仍无偏。必要条件:时依忽略性、可忽略失访、positivity、交叉拟合的样本分割比例固定。 - 解决的技术难点:将 lTMLE 的多步迭代(每步需更新结局模型与干预机制)嵌入树的递归划分中,且保证每步更新不因划分而破坏双鲁棒性。
证明路线与技术技巧: - 整体路线: 1. 识别:用 longitudinal g-formula 将 \(\psi(V)\) 表为可观测数据分布的函数(涉及干预分布与失访分布的干预化重加权)。 2. lTMLE 构造:在每层时间点 \(t_k\),构造目标参数的局部高效影响函数估计,迭代更新结局模型的似然,最终得到 \(\psi(V)\) 的替换估计量。 3. GIT 划分:在训练集上,对每个候选切点计算左/右亚组的 lTMLE 估计,选使亚组间差异最大的切点。 4. 交叉拟合:在估计集上,沿用训练集选定的树结构,重新运行 lTMLE 估计各亚组 \(\psi(V)\)。 5. 稳定性/方差估计:用影响函数的方差估计各亚组 \(\psi(V)\) 的置信区间。 - 关键跳跃点:lTMLE 在亚组内(\(V\) 落在特定叶节点)的局部影响函数如何构造?——作者依赖 van der Laan & Gruber (2012) 的纵向 TMLE 框架,将全局影响函数限制到叶节点子集,这一步的严格推导在本文中未展开,直接引用既有结果。 - 技术技巧点名: - lTMLE(longitudinal TMLE):用于在时依混杂与失访下构造双鲁棒、半参数高效估计。起作用:保证 \(\psi(V)\) 估计在干预/失访模型对时无偏,且达到半参数效率界。 - Super Learner(叠加学习器):用于估计 lTMLE 中的干预机制、失访机制与结局模型。起作用:在半参数模型下逼近真实分布,减少模型错定风险。 - 交叉拟合:将数据分 \(V\) 折,训练集选树、估计集估 \(\psi(V)\)。起作用:消除树划分引入的选择偏差,保证诚实估计。 - GIT(generalized interaction tree):递归二分 \(V\) 空间,切点标准为亚组间 \(\psi(V)\) 差异最大化。起作用:数据驱动发现亚组。
真实例子与应用: - 数据/场景:HIV 患者的 EHR 数据(来自某 HIV 治疗中心),样本量 \(n\) 未在 intro 中明确给出(需查全文),结局为体重增加(连续或二值化),处理为是否接受含 DTG 的 ART,时依混杂为 CD4 计数、病毒载量等,基线亚组变量为性别、年龄、基线 BMI 等。 - 怎么用上去:将算法应用于该数据,设定随访时间点,用 Super Learner 估计各机制,运行 GIT+lTMLE+交叉拟合,输出树结构与各叶节点的 \(\psi(V)\) 估计及置信区间。 - 得到什么结果:识别出基线 BMI 较高的亚组在接受 DTG 时体重增加的风险差显著大于基线 BMI 较低的亚组(具体数值需查全文,intro 仅定性描述)。 - 想说明什么:验证算法在真实 EHR 数据上的可用性,展示 DTG 治疗异质性的实际发现,而非仅模拟验证。
🔎 结论是否比证明窄: - 本文在 intro 与摘要中 claim 了算法的“可用性”与“发现亚组”,但未给出亚组内 lTMLE 估计量的严格渐近分布定理(如 \(\sqrt{n}(\hat{\psi}_k - \psi_k) \to N(0, \sigma_k^2)\) 的精确条件与证明)。交叉拟合的诚实性保证仅是概念性论述,未达到 Wager & Athey (2021) 对 Causal Forest 那样的严格渐近理论。这一 gap 是本文最明显的窄结论宽 claim 之处。
四、开放问题(点到为止,扎根具体语句)¶
- 亚组内 lTMLE 的严格渐近理论:要证在交叉拟合与树划分下,叶节点内 \(\hat{\psi}_k\) 的渐近正态性与方差估计的一致性。扎根点:本文未给出该定理,而 Wager & Athey (2021) 对横截面 Causal Forest 已有类似证明——本文的纵向设定是自然推广缺口。
- 时依忽略性违反的敏感性分析:要估在未观测时依混杂下,\(\psi(V)\) 估计的偏倚界。扎根点:本文假设可忽略失访与时依忽略性,但 EHR 数据中未观测混杂极常见,intro 提及“挑战包括 time-varying confounding”却未提供违反时的鲁棒性工具。
- Positivity 假设的诊断与弱 positivity 下的方差控制:要设计 EHR 高维历史下 positivity 违反的检测方法,或在弱 positivity 下对 lTMLE 估计量进行截断/正则化以保证有限样本稳定性。扎根点:lTMLE 的双鲁棒性依赖 positivity,但 EHR 中某些历史组合下处理概率极低,本文未讨论此实际瓶颈。
- 与深度学习或 HOIF 方法的比较:要对比 GIT+lTMLE 与基于 R-Net 时序扩展或 HOIF 的纵向 HTE 估计在偏差/方差/计算成本上的表现。扎根点:intro 完全未引这两条竞争路线,这是被淡化的设定,值得研究者去查同子领域近期约 5 篇 intro 确认是否为真 gap。
Maintained by 陈星宇 · Homepage · Source on GitHub