Tree-based subgroup discovery using electronic health record data: heterogeneity of treatment effects for DTG-containing therapies¶

作者: Jiabei Yang, Ann W Mwangi, Rami Kantor, Issa J Dahabreh, Monicah Nyambura et al.
来源: Biostatistics
主题: 因果推断
相关性: 8/10
机构绿灯: Brown University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biostatistics/kxad014

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在纵向观察性数据（特别是电子健康记录 EHR）中，如何识别并估计处理效应的异质性（Heterogeneous Treatment Effects, HTE），即找出哪些协变量定义的亚组对处理的响应显著不同。当前该方向的成熟度处于“方法可用但纵向设定尚未标准化”的阶段：横截面数据下的亚组发现与因果树已有成熟框架，但一旦引入时间维度，时依混杂、不规则测量与失访使得既有框架的识别与估计同时受挫，尚无统一的高效/鲁棒解法。

发展脉络（history）：根据 intro 的引用线索，该方向的发展可串成如下主线： - 奠基工作（横截面亚组发现）：Su et al. (2008, Interaction Trees) 与 Foster et al. (2015, Virtual Twins) 开创了基于树结构的亚组发现，但仅适用于横截面随机化试验，未触及观察性数据的混杂与纵向结构。作者引用时明确指出它们“缺乏对观察性数据混杂的调整”。 - 主要进展（观察性横截面因果树）：Athey & Imbens (2016, Causal Tree) 与 Nie & Wager (2021, Causal Forest) 将因果推断的识别假设引入树模型，解决了横截面观察性数据的混杂调整，但作者指出它们“未扩展至纵向与时间不对齐的设定”。 - 当前 frontier（纵向因果估计 + 亚组发现初探）：Robins (1986, 2000) 与 Bang & Robins (2005) 建立了纵向因果的 g-formula与 TMLE 估计框架；van der Laan & Gruber (2012) 开发了纵向 TMLE（lTMLE）。另一方面，Steingrimsson et al. (2020, generalized interaction tree, GIT) 将亚组发现推广至广义损失函数。本文的位置：将 GIT 的亚组发现能力与 lTMLE 的纵向因果估计能力首次焊接，填补“纵向观察性数据下的亚组发现”这一空白。

子线索聚类：被引文献落在三条子线索上： 1. 树模型与亚组发现：Interaction Trees → Causal Tree → Causal Forest → GIT。这一簇在做数据驱动的协变量空间划分，核心是递归二分与过拟合控制。 2. 纵向因果估计：Robins 的 g-formula → lTMLE。这一簇在解决时依混杂与失访的识别与半参数高效估计。 3. EHR 数据特征与 HIV 应用：不规则测量与失访的文献（如 Hernan et al. 的 censoring 框架）→ DTG 与体重增加的流行病学文献。这一簇在刻画数据生成机制的实际痛点。

这个方向在追问的核心问题： 1. 识别问题：在时依混杂与失访并存时，条件平均处理效应（CATE）的纵向版本（如时间 \(t\) 的亚组特定风险差）能否被非参数识别？需要哪些顺序假设与忽略性假设？ 2. 估计问题：识别后，如何在半参数模型下达到局部高效？lTMLE 的渐近正态性在亚组划分（树截断）后是否仍成立？ 3. 过拟合与划分问题：数据驱动的树划分必然引入选择偏差，如何保证划分后的亚组内 CATE 估计是诚实的而非过拟合的产物？

⚠️ 作者的 framing： - 作者将缺口 frame 为：“现有因果树仅处理横截面，而 EHR 的价值在于纵向，因此纵向亚组发现是显然的下一步”。这让本文的 GIT+lTMLE 组合成为自然填补。 - 被淡化的竞争路线：基于深度学习的纵向 HTE 估计（如 R-Net 的时序扩展）在 intro 中完全缺席；基于半参数高阶影响函数（HOIF）的纵向亚组发现也未提及——这两条路线可能同样能处理时依混杂，但作者未讨论其优劣。 - 明显该被引却缺席的：关于树划分后半参数估计量渐近性质的理论文献（如 Wager & Athey 2021 对 Causal Forest 渐近正态的证明）——本文用了交叉拟合控制过拟合，但未给出亚组内 lTMLE 的严格渐近保证，这一理论缺口未被引也未自省，值得研究者去查。

张力：未见明显对立引用。各线索在各自设定下自洽，张力主要体现在设定差异而非结论矛盾：横截面因果树假设无混杂，纵向 TMLE 假设时依混杂可忽略，二者未在同一设定下交锋。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

参数 / estimand：
\(V\)：基线协变量（用于划分亚组，如性别、年龄、基线 CD4 计数）。
\(\bar{L}(t)\)：时间 \(t\) 及之前的时依协变量历史（如随时间变化的 CD4、病毒载量）。
\(\bar{A}(t)\)：时间 \(t\) 及之前的处理历史（此处为 ART 方案，0=非 DTG，1=含 DTG）。
\(Y(t)\)：时间 \(t\) 的结局（此处为体重或体重增加指标）。
\(\bar{C}(t)\)：时间 \(t\) 及之前的失访/删失指示（1=仍在随访，0=已失访）。
\(\psi(V)\)：目标 estimand——在基线协变量 \(V\) 定义的人群中，始终接受含 DTG 方案 versus 始终接受非 DTG 方案下，时间 \(t\) 结局 \(Y(t)\) 的风险差（即纵向 CATE）。
随机变量 / 样本：
\(O_i = (V_i, \bar{L}_i(t_k), \bar{A}_i(t_k), \bar{C}_i(t_k), Y_i(t_k))\)：第 \(i\) 个个体的纵向观察轨迹，\(i=1,\ldots,n\)。
\(t_k\)：EHR 中的观测时间点（不规则，个体间可能不对齐）。
维数 / 样本量等指标：
\(n\)：样本量（个体数）。
\(K\)：最大随访时间点数。
\(p\)：基线协变量 \(V\) 的维数。
潜在量：
\(Y^{\bar{a}, \bar{c}=1}(t)\)：在处理路径 \(\bar{a}\) 下且始终未失访（\(\bar{c}=1\)）时，时间 \(t\) 的潜在结局。
模型：
数据生成机制 \(P_0\) 属于半参数模型 \(\mathcal{M}\)，允许时依混杂 \(\bar{L}(t)\) 受过去处理 \(\bar{A}(t-1)\) 影响，但假设顺序性（\(A(t)\) 只依赖历史）与时依忽略性（给定历史下，\(A(t)\) 与潜在结局独立）。
失访机制类似假设：给定历史下，\(C(t)\) 与潜在结局独立。
可观测数据：
研究者实际观测到的是 \(O_1, \ldots, O_n\)，其中包含不规则时间点的 \(\bar{L}, \bar{A}, \bar{C}, Y\)。想要但观测不到的是 \(Y^{\bar{a}, \bar{c}=1}(t)\)（反事实结局），只能靠上述忽略性假设与 g-formula 从可观测数据中识别 \(\psi(V)\)。

第二步：最小内核——最简特例（两个时间点、单基线协变量、二值处理与结局）

剥掉所有纵向复杂性与高维设定，论文的核心数学困难与解法在以下特例中完全可见：

设 \(K=2\)（基线 \(t=0\) 与终点 \(t=1\)），基线亚组变量 \(V\) 为一维连续量（如年龄），时依混杂 \(L(1)\) 为一维，处理 \(A \in \{0,1\}\) 仅在 \(t=0\) 给予（简化为横截面处理但纵向结局），失访 \(C(1) \in \{0,1\}\)，结局 \(Y(1) \in \{0,1\}\)。

目标 estimand 退化为：\(\psi(V) = E[Y^{A=1, C=1}(1) - Y^{A=0, C=1}(1) \mid V]\)，即给定年龄 \(V\) 下，接受 DTG versus 非 DTG 的体重增加风险差。
识别：在忽略性假设下，\(\psi(V)\) 可通过 g-formula 识别为 \(E\left[ E[Y(1) \mid V, L(1), A=1, C=1] - E[Y(1) \mid V, L(1), A=0, C=1] \mid V \right]\)。
核心困难：\(\psi(V)\) 是 \(V\) 的未知函数，我们需要同时做两件事——(1) 找出 \(V\) 空间上的划分（如年龄 \(\leq 40\) vs \(>40\)）使得两亚组内 \(\psi(V)\) 值差异最大；(2) 在每个划分内估计 \(\psi(V)\) 的常数均值。困难在于：划分是数据驱动的（选哪个切点由样本决定），划分后估计 \(\psi(V)\) 时若用同一批数据，必然过拟合（切点选得再差，同批数据也会伪证该切点有效）。
本文解法的最小内核：
GIT 划分：用广义交互树递归二分 \(V\) 空间，切点选择标准是“使亚组间 \(\psi(V)\) 差异最大化”，但此时 \(\psi(V)\) 未知。
lTMLE 估计：在每个候选切点下，用 lTMLE 估计左/右亚组的 \(\psi(V)\) 均值，作为切点选择的依据。
交叉拟合防过拟合：将数据分为训练集（选切点）与估计集（在选定切点内用 lTMLE 估计 \(\psi(V)\)），保证估计集未参与切点选择，从而 \(\psi(V)\) 估计诚实。

在这个特例中，证明路线的骨架已完整：识别 → lTMLE 构造局部高效估计 → GIT 用该估计选切点 → 交叉拟合保证诚实性。一般情形只是将 \(K\) 推广至多时间点、\(A\) 推广至时依处理、\(V\) 推广至多维，lTMLE 的步骤从单层变为多层迭代，但核心逻辑未变。

三、这篇论文做了什么¶

三句话： ①研究了纵向观察性数据（EHR）中处理效应异质性的亚组发现与估计问题，核心挑战是时依混杂、不规则测量与失访。 ②核心工具是将广义交互树（GIT）与纵向目标最大似然估计（lTMLE）结合，辅以交叉拟合控制过拟合。 ③主要结论是提出了纵向亚组发现算法，并在 HIV 患者接受 DTG 治疗的体重增加风险数据中识别出基线 BMI 较高的亚组风险差更大。

关键设定与假设：在第二节最小记号基础上补全： - 时依处理与顺序性：\(\bar{A}(t_k)\) 可在多个时间点切换，但假设 \(A(t_k)\) 仅依赖 \(\bar{L}(t_k), \bar{A}(t_{k-1}), \bar{C}(t_k), V\)（顺序性假设，排除未来信息影响当前处理）。 - 时依忽略性（Sequential Ignorability / No Unmeasured Confounding）：给定 \(\bar{L}(t_k), \bar{A}(t_{k-1}), \bar{C}(t_k), V\) 下，\(A(t_k)\) 与所有潜在结局独立。这是识别的核心假设，本文未放宽，与 Robins (1986) 一致。 - 可忽略失访：给定历史下，\(C(t_k)\) 与潜在结局独立。若此假设不成立，识别失败，本文未讨论违反时的敏感性分析。 - Positivity：在所有历史组合下，\(P(A(t_k)=a \mid \text{历史}) > 0\) 且 \(P(C(t_k)=1 \mid \text{历史}) > 0\)。EHR 数据中协变量维度高，此假设极易脆弱，但本文仅提及未深入检验。 - lTMLE 的半参数模型：干预机制与失访机制的估计使用参数/半参数模型（如 Super Learner），结局模型同理，但目标估计量 \(\psi(V)\) 的渐近性质仅依赖干预与失访模型的正确估计（双鲁棒性），结局模型错误只影响效率。

主要结果： - 定理/命题（陈述 + 直觉 + 必要条件）：本文未给出亚组内 \(\psi(V)\) 估计量的严格渐近正态定理。核心结果为算法框架与有限样本下的交叉拟合保证：在交叉拟合下，估计集上的 lTMLE 估计量不受切点选择偏差影响，若干预与失访模型一致，则亚组内 \(\psi(V)\) 估计为局部半参数高效。直觉：交叉拟合将划分与估计解耦，lTMLE 的双鲁棒性保证即使结局模型错，只要干预/失访模型对，估计仍无偏。必要条件：时依忽略性、可忽略失访、positivity、交叉拟合的样本分割比例固定。 - 解决的技术难点：将 lTMLE 的多步迭代（每步需更新结局模型与干预机制）嵌入树的递归划分中，且保证每步更新不因划分而破坏双鲁棒性。

证明路线与技术技巧： - 整体路线： 1. 识别：用 longitudinal g-formula 将 \(\psi(V)\) 表为可观测数据分布的函数（涉及干预分布与失访分布的干预化重加权）。 2. lTMLE 构造：在每层时间点 \(t_k\)，构造目标参数的局部高效影响函数估计，迭代更新结局模型的似然，最终得到 \(\psi(V)\) 的替换估计量。 3. GIT 划分：在训练集上，对每个候选切点计算左/右亚组的 lTMLE 估计，选使亚组间差异最大的切点。 4. 交叉拟合：在估计集上，沿用训练集选定的树结构，重新运行 lTMLE 估计各亚组 \(\psi(V)\)。 5. 稳定性/方差估计：用影响函数的方差估计各亚组 \(\psi(V)\) 的置信区间。 - 关键跳跃点：lTMLE 在亚组内（\(V\) 落在特定叶节点）的局部影响函数如何构造？——作者依赖 van der Laan & Gruber (2012) 的纵向 TMLE 框架，将全局影响函数限制到叶节点子集，这一步的严格推导在本文中未展开，直接引用既有结果。 - 技术技巧点名： - lTMLE（longitudinal TMLE）：用于在时依混杂与失访下构造双鲁棒、半参数高效估计。起作用：保证 \(\psi(V)\) 估计在干预/失访模型对时无偏，且达到半参数效率界。 - Super Learner（叠加学习器）：用于估计 lTMLE 中的干预机制、失访机制与结局模型。起作用：在半参数模型下逼近真实分布，减少模型错定风险。 - 交叉拟合：将数据分 \(V\) 折，训练集选树、估计集估 \(\psi(V)\)。起作用：消除树划分引入的选择偏差，保证诚实估计。 - GIT（generalized interaction tree）：递归二分 \(V\) 空间，切点标准为亚组间 \(\psi(V)\) 差异最大化。起作用：数据驱动发现亚组。

真实例子与应用： - 数据/场景：HIV 患者的 EHR 数据（来自某 HIV 治疗中心），样本量 \(n\) 未在 intro 中明确给出（需查全文），结局为体重增加（连续或二值化），处理为是否接受含 DTG 的 ART，时依混杂为 CD4 计数、病毒载量等，基线亚组变量为性别、年龄、基线 BMI 等。 - 怎么用上去：将算法应用于该数据，设定随访时间点，用 Super Learner 估计各机制，运行 GIT+lTMLE+交叉拟合，输出树结构与各叶节点的 \(\psi(V)\) 估计及置信区间。 - 得到什么结果：识别出基线 BMI 较高的亚组在接受 DTG 时体重增加的风险差显著大于基线 BMI 较低的亚组（具体数值需查全文，intro 仅定性描述）。 - 想说明什么：验证算法在真实 EHR 数据上的可用性，展示 DTG 治疗异质性的实际发现，而非仅模拟验证。

🔎 结论是否比证明窄： - 本文在 intro 与摘要中 claim 了算法的“可用性”与“发现亚组”，但未给出亚组内 lTMLE 估计量的严格渐近分布定理（如 \(\sqrt{n}(\hat{\psi}_k - \psi_k) \to N(0, \sigma_k^2)\) 的精确条件与证明）。交叉拟合的诚实性保证仅是概念性论述，未达到 Wager & Athey (2021) 对 Causal Forest 那样的严格渐近理论。这一 gap 是本文最明显的窄结论宽 claim 之处。

四、开放问题（点到为止，扎根具体语句）¶

亚组内 lTMLE 的严格渐近理论：要证在交叉拟合与树划分下，叶节点内 \(\hat{\psi}_k\) 的渐近正态性与方差估计的一致性。扎根点：本文未给出该定理，而 Wager & Athey (2021) 对横截面 Causal Forest 已有类似证明——本文的纵向设定是自然推广缺口。
时依忽略性违反的敏感性分析：要估在未观测时依混杂下，\(\psi(V)\) 估计的偏倚界。扎根点：本文假设可忽略失访与时依忽略性，但 EHR 数据中未观测混杂极常见，intro 提及“挑战包括 time-varying confounding”却未提供违反时的鲁棒性工具。
Positivity 假设的诊断与弱 positivity 下的方差控制：要设计 EHR 高维历史下 positivity 违反的检测方法，或在弱 positivity 下对 lTMLE 估计量进行截断/正则化以保证有限样本稳定性。扎根点：lTMLE 的双鲁棒性依赖 positivity，但 EHR 中某些历史组合下处理概率极低，本文未讨论此实际瓶颈。
与深度学习或 HOIF 方法的比较：要对比 GIT+lTMLE 与基于 R-Net 时序扩展或 HOIF 的纵向 HTE 估计在偏差/方差/计算成本上的表现。扎根点：intro 完全未引这两条竞争路线，这是被淡化的设定，值得研究者去查同子领域近期约 5 篇 intro 确认是否为真 gap。

Maintained by 陈星宇 · Homepage · Source on GitHub

Tree-based subgroup discovery using electronic health record data: heterogeneity of treatment effects for DTG-containing therapies¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论