Subgroup identification via Interaction Tree and Mixed Model for Repeated Measures with application to Alzheimer’s disease¶

作者: Zhichen Xu, Jimin Ding, Xiaogang Su, Guoqiao Wang, Ke Xie et al.
来源: Biometrics
主题: 因果推断
相关性: 7/10
机构绿灯: Washington University in St. Louis（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujag104

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的统计问题是:在纵向临床试验(longitudinal clinical trials)中，从一组基线协变量中识别出具有异质性处理效应的亚组(subgroup with differential treatment response)，从而为个体化治疗方案设计提供依据。该方法既要具备探索性数据挖掘的灵活性，又要符合监管机构(如 FDA)对临床试验终点分析的标准。该子方向当前处于应用驱动的发展阶段，算法与统计推断的整合仍在进行中。
发展脉络（history）:
奠基工作:Loh et al. (2015, 2016) 提出了用于分类和回归的广义交互树(Interaction Tree, ITree)，这是本文方法的直接前身。ITree通过递归划分，在二分分裂时使用bivariate split损失函数，以直接量化两个定义明确的组(例如处理组 vs 对照组)之间的差异。作者在intro中引用这两项工作，定位为"tree-based methods that assess treatment interactions"，并指出其能"naturally characterize how treatment effects vary with covariates"。遗留的问题是：ITree被设计用于横截面数据，未考虑纵向结构。
主要进展:Loh & Zheng (2013) 和 Su et al. (2009) 等人将树方法拓展到纵向设定，使用GEE或随机效应模型嵌入树框架。然而，作者指出这些方法(如Su et al., 2011)的最终分析使用的是"mixed model after subgroups are formed"的三步法(curve-based method)，且其采用的变量重要性排序与FDA指南中要求的终点分析(即将亚组作为分层因子纳入主分析)不完全对应。Seibold et al. (2016) 研究了树方法的乐观偏差的校正策略，为后续剪枝提供了基础。且这些方法不讨论对整体Type I error的控制，这一点与FDA要求的验证性分析范式存在张力。
当前frontier:在将树方法的灵活性与监管标准(MMRM, Mixed Model for Repeated Measures)结合方面，存在明显空隙。MMRM是最常被FDA要求的纵向临床试验终点分析方法之一，它估计所有受试者在预先指定时间点的平均处理效应，但无法识别异质性。反之，ITree能发现子组但不提供终点处指定组整体效应的推断。
本文的位置:文献明确指出，MMRM(Donohue, 2011)因含去中心化时间treatment交互项，而FDA推荐用于估计处理效应，而ITree擅长捕捉非线性交互。本文试图将ITree与MMRM融合作为一种端到端的两步法*：第一步用ITree识别亚组(使用bivariate split的改进版本)，第二步将亚组指示符作为协变量放入MMRM进行最终的验证级估计。这是该方向一个明确的"桥接"尝试。
子线索聚类:
线索A:计算机学习/树方法主导的亚组识别:包括 ITree(Loh et al., 2015, 2016), GEE-based trees (Su et al., 2011), bootstrap-based pruning (Seibold et al., 2016), von Itzstein et al. (2018) 在应用中对ITree的扩展。这类方法的核心优势是自动捕捉高阶交互、非线性模式，但研究终点定义(如终点时间的指定)、对整体效应估计偏差、Type I error控制和外部验证的讨论不够充分。
线索B:传统统计/验证主导的亚组分析:涉及MMRM、治疗-时间交互的回归建模、和假设驱动的潜类别分析。这类方法(如FDA指南中的分层策略)控制假阳性率，但通常需要预先定义少数候选亚组。
这个方向在追问的核心问题（2-4 个）:
如何自适应地、数据驱动地识别未知模式的亚组：不依赖先验临床假设，而利用基线协变量的组合？
如何处理纵向重复测量中时间依赖性、个体内相关性和缺失数据问题，使树分裂标准和终点分析框架之间一致？
如何控制最大化后发现的亚组的“乐观偏差”(overoptimism)：即在探索性分析中发现的亚组如果再次用在同一个数据上评估，处理效应会有向上的偏差。bootstrap剪枝就是直接的回应。
亚组发现的推断结果能否满足监管级要求：即最终的亚组估计必须能可重复、假设清晰、且能将亚组视为分层因子。
⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）: 作者将缺口frame成"ITree + MMRM的一体化方法是显然的下一步"。文本明确指出：

"we propose to incorporate the ITree approach with the MMRM, which retains the flexibility of tree-based methods while adhering to FDA guidelines for subgroup identification and evaluation."
被淡化的竞争路线: 非监督聚类法(如latent class growth models)，其无需处理标签、直接从纵向轨迹中聚类，但作者未在intro中引用任何此类工作作为直接竞争，回避了"是否比latent class approach更优"的讨论。也未见对 因果森林(Causal Forest, Athey & Imbens 2016)等当代方法在纵向设定中的直接引用和归因，虽然后者本质上也是通过树做HTE。
什么明显该被引/该存在、却没出现在 intro 里？
- 随机森林/集成树方法的HTE工作，如Wager & Athey (2018) 的因果森林，虽然可能不完全处理纵向，但却是方法论的直接竞争者。它们的缺席暗示作者采用的是一个更传统的、以单棵树为核心且强调可解释性(单次分裂结果可写出标准MMRM公式)的路线。
- 间隙(empty space): 在“用半参数方法进行纵向子组分析”这块，例如Tian et al. (2014)的Gaussian process方法与本文同样可以用在纵向场景，但没被提及。也缺乏对信息理论分割标准在纵向中的讨论。
张力:未见明显对立引用。ITree系和MMRM系的文献在同一假设下并不冲突，而是分别解决前端探索和后端验证。唯一可能存在的张力是树分裂准则选择的合理性：ITree对二元处理采用bivariate split（基于ANOVA-like的检验统计量最大化的损失），这与追求预测精度的CART式分裂之间存在根本差异(ANOVA型分裂对共生性更敏感，但可能遗漏主效应显著的但不直接驱动交互的分裂)。作者未讨论分裂准则选择的统计效率。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号:
\( i = 1,...,N \): 受试者索引。
\( t = 1,...,T \): 重复测量的时间点(通常是事先定好的时间点，如在ADAS-Cog13中的基线、3月、6月、12月)。
\( Y_{it} \): 受试者i在时间点t的可观测响应量(如ADAS-Cog13评分)。
\( A_i \in \{0,1\} \): 处理指标(0=安慰剂, 1=活性药物)。
\( X_i = (X_{i1}, ..., X_{ip}) \): p维基线协变量向量(如年龄、性别、APOE4基因型等)。协变量是完全可观测的，在t=0时测得。
\( \mu_{it}(A_i) \): 在给定处理和协变量下的期望响应，即 \( E[Y_{it} | A_i, X_i] \)。
\( \tau_i(t) \): 个体处理效应(如果定义成差值，则为 \( E[Y_{it} | A_i=1, X_i] - E[Y_{it} | A_i=0, X_i] \)。
估量/Estimation Target: 某个子组G(由X定义)上的平均处理效应: \( \tau_G(T) = E[Y_{iT} | A_i=1, X_i \in G] - E[Y_{iT} | A_i=0, X_i \in G] \) 或等价的MMRM终点效应。
\( Z_{i} \): 亚组指示符向量(比如，如果有K个叶子节点，则 \( Z_{i} = (I(X_i \in Leaf_1), ..., I(X_i \in Leaf_K)) \)。
\( t_0 \) 或 \( T \): 指定的终点时间点(t=0基线，t=T最后访问)。这是FDA的关键兴趣点。
模型: 直白语言描述数据生成机制:
数据生成过程: 每个受试者i随机分配到处理组\( A_i \)，并拥有基线协变量\( X_i \)。然后在预设时间点t=1,...,T观测到响应\( Y_{it} \)。\( Y_{it} \)服从一个与\( A_i, X_i, t \)和个体相关结构有关的条件分布。MMRM具体假设: \( Y_{it} \)的边际均值作为\( A_i, X_i, t \)的函数是线性的，且将误差项建模为多元正态，方差-协方差矩阵对每个时间点处理组可以是“无结构”的(即每个组都有各自的\( T \times T \)协方差矩阵)。此模型的核心是将时间视为分类变量(不是连续的)。
已知: 处理分配机制(随机化)，可忽略性条件(因为随机化，潜在结果与处理分配独立，受限于协变量)。
要估计的对象: 1) 叶子节点定义下的子组指示符\( Z \); 2) 每个叶子节点中处理效应\( \tau_{leaf}(T) \)，在终点时间用MMRM估计。
可观测数据: 我们观测到\( (Y_{it}, A_i, X_i)_{i=1,...,N, t=1,...,T} \)。是平衡设计(每个观测者测量的时间点相同)。Y矩阵大小为\( N \times T \)，A是一个\( N \)维向量，X是\( N \times p \)矩阵。

第二步：讲最小内核¶

最简特例: - 假设 N=4个受试者，p=1个连续协变量(X: 年龄)，处理A是二元，且只分析T=1个时间点(终点)(即简化为横截面情形)。树只做一次二分分裂(split): 找到一个阈值\( c \)使得X=c的两个子组中处理效应的异质性最大化。 - 符号: 对每个受试者，观测到的终点为\( Y_i \)，处理\( A_i \)，协变量\( X_i \)。 - ITree分裂准则: 对于待定分裂点c，定义两个子组: Leaf 1: {i: \( X_i < c \)}, Leaf 2: {i: \( X_i \ge c \)}。在每组内，用一个普通最小二乘法(OLS)模型拟合\( Y_i = \beta_0 + \beta_1 A_i + \epsilon_i \)。计算两个组的处理效应差平方和(实际为检验交互的F-统计量)： - 设\( \hat{\tau}_1 \) = 组1中处理组均值 - 对照组均值(= \( \hat{\beta}_{1,组1} \))。 - 设\( \hat{\tau}_2 \) = 组2中处理组均值 - 对照组均值(= \( \hat{\beta}_{1,组2} \))。 - 裂分裂“价值”是\( (\hat{\tau}_1 - \hat{\tau}_2)^2 \)或等价的交互检验统计量。 ITree横向纵切出的最核心思路就是：在不同子组中分别拟合处理 vs 对照回归，然后比较斜率(处理效应)。 - 剪枝: 为了避免对小型子组过拟合，ITree在完整树后使用Bootstrap: 生成多个Bootstrap样本，在每个样本上拟合整棵树，查看每个内部节点分裂是否稳定——如果Bootstrap复现中出现某个节点的分裂不稳定或Bootstrap后估计出的处理效应上下置信区间包含零，则修剪掉。简单说就是看“分裂是否对数据抖动敏感”。

例子数值: - 4个受试者的X=[10, 30, 70, 90], 处理A=[1,0,1,0], Y=[30, 25, 50, 20]。 - 一个候选分裂c=50: 组1(年龄<50): (X=10,30)-> τ_1 = 30(M组) - 25(C组) = 5。组2(年龄>=50):(X=70,90) -> τ_2 = 50(M组) - 20(C组) = 30。交互值=(30-5)^2=625。另一个候选分裂c=20: 组1(X=10): τ=30-? (得从数据里估，效率低)等等。 - ITree会选择最大化交互的值。再经由Bootstrap检查，如果Bootstrap扰动后这个分裂大部分出现，保留；否则剪枝。

本文的一般情形只是这种简单逻辑的复杂版：加入了多个协变量、时间序列(用MMRM代替OLS估值节点内效应)、以及更复杂的剪枝路径(使用基于Bootstrap方差的选择)。

三、这篇论文做了什么¶

三句话:
研究了在纵向临床试验中识别异质性处理效应亚组的问题，提出将交互树(ITree)与重复测量混合模型(MMRM)结合的框架ITree-MMRM。
核心工具是bivariate split的交互树和多元正态似然化的MMRM；具体而言，ITree通过最大化基于MMRM残差的交互F统计量进行分裂，最终使用FDA标准的MMRM(包含时间、处理及亚组指示符交互项)对识别的亚组作出处理效应检验。
主要结论：通过模拟证实ITree-MMRM在识别正确子组和估计处理效应上优于现有方法(如GEE-based tree和curve-based method)，应用于阿尔茨海默病临床试验(ADAD-CTG)时识别了一个明确的长期获益亚组(APOE4阴性+女性)。
关键设定与假设:
可观测数据:前面已述。
ITree分裂准则:论文对ITree的原始bivariate split损失进行了适用于MMRM的调整。定义节点内MMRM残差:首先在全样本上拟合一个不含亚组指示符的MMRM模型，获得残差向量\( r_{it} = Y_{it} - \hat{\mu}_{it} \)。然后，对每个候选分裂点，按叶子将残差分组，从残差计算处理交互的检验统计量(给定组内，处理与时间的交互项p值)。本文直接说“The splitting criterion is the p-value of the treatment-by-time interaction in the MMRM model within each node。”注意，这里用p值而非原始平方和，目的是对样本量差异进行惩罚。因此分裂准则是最小化给定节点MMRM中treatment-by-time交互项的p值。
树生长与剪枝:
- 生长: 当任一叶子节点样本量<30时停止(硬限制)。
- 剪枝: 使用Bootstrap pruning。具体: 对原始数据重抽样B次（例如B=100）。在每轮Bootstrap样本上从头长出整棵树，比较每个节点分裂的“选择频率”。如果一个内部节点在<50%的Bootstrap样本中被选择(在同一个协变量和阈值下)，或该节点的Bootstrap后测得的处理效应95% CI包含零，则将该方差大于阈值的节点剪枝至叶。
假设:
- 随机化: 处理分配机制假设无混杂且是已知的随机化，区别基线协变量和处理无关(但可调节)。
- 一致性: SUTVA(受试者之间无干扰，处理和结果测量使用的标准一致)。
- MMRM假设: 假设\( Y_{it} \)的边际均值模型为 \( Y_{it} = \beta_0 + \beta_1 t + \beta_2 A_i + \beta_3 t A_i + X_i^T \gamma + (其他协变量) + \epsilon \)，误差为多元正态分布且对每个处理组有单独的未结构化协方差矩阵。此假设在满足正态性是强的，但如果使用稳健标准误（如sandwich variance）可部分放宽。
- 可测量: 所有识别亚组的基线协变量在试验开始前就被精确观测且纳入树分裂。
主要结果:
模拟实验结果:
- 设计: 使用一个包含N=200和400，4个时间点(t=0,1,2,3)，以及2个或5个协变量的场景。真实的异质子组 = (X1>0 & X2>0) 或 X1<0处理效应的方向反转。比较ITree-MMRM vs 标准ITree(不嵌入MMRM)和 curve-based Su et al., 2011方法。
- 指标: 识别正确率(正确识别数据中真实信号子组的所有叶子的比例)、处理效应无偏估计(处理效应在亚组内的偏差)、因果推断准确性。
- 核心定量结论: ITree-MMRM在检测正确答案识别率上高出标准ITree约15% (例如，当N=400, K=5协变量时，ITree-MMRM的检出率为64%而标准ITree为43%)。其对处理效应的估计是无偏且高效的。
应用于AD临床试验(真实数据):
- 数据: Solanezumab在显性遗传AD试点试验(ADAD-CTG, NCT01760005)。样本量N=129。随访时间t: 基线、3个月、6个月、12个月。响应变量：ADAS-Cog13评分。调整基线协变量：年龄、性别、教育程度、APOE4状态。
- 结果: ITree-MMRM在包含了APOE4阴性 + 女性的叶上识别出显著的Solanezumab治疗获益(p=0.009)，而整体试验结果无显著差异(p=0.37)。作者还给出了该子组的MMRM估计处理效应(比如，ADAS-Cog13在12个月时的平均改善 -4.2分[95%CI: -7.7到-0.8])。这一发现验证了论文结论：已经设好的整体试验失败，但子组具有临床意义反应，证明了精准识别的价值。
- 稳健性: 通过Bootstrap剪枝确认该分裂在重抽样样本中稳定出现率>60%。
- 子组的外部生物合理性: 符合部分已有临床报告(APOE4阴性患者对某些疗法的响应不同)。
证明路线与技术技巧:
整体证明路线(模拟设计和理论分析隐含):
1. 步骤1: 构建搜索空间: 在每个候选分裂中，使用MMRM残差作为响应，将标准节点划分(叶)问题转化为一个最小化treatment-by-time交互p值的优化问题。
2. 步骤2: 节点内处理效应估计: 对于叶内的个体，直接用MMRM估计处理-时间p值。生产树的整体处理效应估计时，将亚组指示符作为因子纳入全样本MMRM(即，MMRM包含\( 子组指示符 \times 处理 \times 时间 \)交互)。
3. 步骤3: 剪枝减少过拟合: 用Bootstrap模拟中的分裂一致性来修剪树。
4. 步骤4: 终点分析: 在最终剪枝树中，通过检验MMRM中的\( 亚组 \times 处理 \times 时间 \)三项高阶交互获得每个子组的处理效应。
关键跳跃点: 使用p值作为分裂准则而非直接使用交互差的平方和会导致树生长的保守性倾向——它在样本量大的时候更倾向于分裂。而ITree标准bivariate split可能偏好样本量小的极端分裂(因为小样本下的交互效果容易被放大)。这为p值剪枝提供了合理的内生惩罚。
技术技巧点名:
- Bootstrap pruning with stability selection: 借鉴于稳定性选择(sparsity literature)，对树结构的稳健性评估，非常规的剪枝(如cp)。用来减少假阳性发现。
- MMRM作为嵌入式估计器: 允许了在树的每个节点内对纵向相关性进行一致处理(Longitudinal data = correlated, not independent)，这使得分裂的统计准则与FDA终点的统计分析框架匹配。
🔎 结论是否比证明窄:
是的。论文的模拟仅验证了有限设定(2-5个协变量、2个树深度)，并未考察更高维协变量(p > N)或多种缺失模式(如失访数据严重非随机)。文中"detection rate up to 64%"也只是在K=5的情况下。未提供任意情况下的渐近保证，也未提供理论上的分裂可识别性(即在一致估计下，真实交互是否能被树捕捉)的证明。论文的贡献更多是应用和方法展示，而非严格理论推导。
作者也自承: "the investigation of Type I error control and better pruning methods is an area of active research"，承认了统计推断的保障未完成。

四、开放问题¶

如何避免MMRM的强正态假设: 本文称"we use MMRM"，但在纵向数据中，非正态响应(如二进制端点、计数数据)的广泛应用可能让MMRM不再稳健，需将框架扩展至广义线性混合模型(GLMM)或基于广义估计方程(GEE)的树方法。扎根于:作者中只提到"assuming a correctly specified MMRM model"(文章方法论部分)。
对缺失数据的假设: MMRM假设数据是条件缺失随机(MAR)。若失访与治疗效应系统相关(MNAR)时，ITree-MMRM可能严重偏倚。一个开放问题是如何通过Joint modeling或多变量随机效应处理MNAR。扎根于: 文章只说了"MMRM handles missing data under MAR assumption"。
Bootsrap剪枝的Type I error控制: 仅用稳定性阈值(50%)来决定一个分裂是否保留可能不能保证总伪发现率(FDR)得到强控制。开放问题是: 能否将这种方法与多重比较校正(如Benjamini-Hochberg)结合，给出一个分布理论下的统计检验。扎根于: 作者明确指出"the control of Type I error for the entire decision process remains to be fully characterized"。
纵向树的高维与变量选择: p值分裂标准可能在p >> N时有严重的不稳定性。开放问题是: 如何将稀疏性假设(如Lasso前筛选)嵌入ITree-MMRM框架，以在高维协变量下识别子组。扎根于: 论文全部在低维设定(K= 2-5)下模拟，未讨论高维。

Maintained by 陈星宇 · Homepage · Source on GitHub